spark学习之路1:概述
发布日期:2021-05-14 05:35:42 浏览次数:15 分类:原创文章

本文共 395 字,大约阅读时间需要 1 分钟。

1.spark为什么比hadoop快


1.基于内存,中间值不用落磁盘


2.DAG有向无环图


 


 



ps: hadoop主要包含两部分: MapReduce和 HDFS


spark 其实优化的只是 hadoop的  MapReduce,


 


那么 MapReduce最大的诟病


1.MapReduce 把任务分为两段, map阶段和 reduce阶段 ,而reduce阶段必须要等 所有的map阶段都完成后,才能执行。


                           那么问题就来了,reduce一定要等所有map都执行完成,造成时间的浪费。



2.磁盘开销大


map计算好的结果是写入磁盘的,reduce从磁盘读取 再计算。


那么这个就会导致  磁盘IO开销特别大。



3.MapReduce是把所有的任务都解释为了两个 函数  map函数和 reduce函数,限制了其他类型函数 


spark优化添加了其他函数:



 


 


 


2.用Scala来开发 spark程序的优点


上一篇:spark学习2:spark运行基本架构
下一篇:Scala学习路线所用到的所有示例

发表评论

最新留言

很好
[***.229.124.182]2025年04月17日 15时12分46秒