spark学习之路1：概述

发布日期：2021-05-14 05:35:42 浏览次数：15 分类：原创文章

本文共 395 字，大约阅读时间需要 1 分钟。

1.spark为什么比hadoop快

1.基于内存，中间值不用落磁盘

2.DAG有向无环图

ps: hadoop主要包含两部分： MapReduce和 HDFS

spark 其实优化的只是 hadoop的 MapReduce，

那么 MapReduce最大的诟病

1.MapReduce 把任务分为两段， map阶段和 reduce阶段，而reduce阶段必须要等所有的map阶段都完成后，才能执行。

那么问题就来了，reduce一定要等所有map都执行完成，造成时间的浪费。

2.磁盘开销大

map计算好的结果是写入磁盘的，reduce从磁盘读取再计算。

那么这个就会导致磁盘IO开销特别大。

3.MapReduce是把所有的任务都解释为了两个函数 map函数和 reduce函数，限制了其他类型函数

spark优化添加了其他函数：

2.用Scala来开发 spark程序的优点

上一篇：spark学习2：spark运行基本架构

下一篇：Scala学习路线所用到的所有示例

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

linux系统下双屏显示 2019-03-07

PDF.js —— vue项目中使用pdf.js显示pdf文件（流） 2019-03-07

我用wxPython搭建GUI量化系统之最小架构的运行 2019-03-07

我用wxPython搭建GUI量化系统之多只股票走势对比界面 2019-03-07

selenium+python之切换窗口 2019-03-07

重载和重写的区别： 2019-03-07

搭建Vue项目步骤 2019-03-07

账号转账演示事务 2019-03-07

idea创建工程时错误提醒的是architectCatalog=internal 2019-03-07

SpringBoot找不到@EnableRety注解 2019-03-07

简易计算器案例 2019-03-07

在Vue中使用样式——使用内联样式 2019-03-07

Find Familiar Service Features in Lightning Experience 2019-03-07

Explore Optimization 2019-03-07

Kali Linux 内网渗透教程 - ARP欺骗攻击 | 超详细 2019-03-07

2020Java程序设计基础（华东交通大学）章节测试免费满分答案 2019-03-07

连接Oracle数据库经常报错？关于listener.ora和tnsnames.ora文件的配置 2019-03-07

解决数据库报ORA-02289：序列不存在错误 2019-03-07

map[]和map.at()取值之间的区别 2019-03-08

成功解决升级virtualenv报错问题 2019-03-08

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 461299388 位访客