
spark学习之路1:概述
发布日期:2021-05-14 05:35:42
浏览次数:15
分类:原创文章
本文共 395 字,大约阅读时间需要 1 分钟。
1.spark为什么比hadoop快
1.基于内存,中间值不用落磁盘
2.DAG有向无环图
ps: hadoop主要包含两部分: MapReduce和 HDFS
spark 其实优化的只是 hadoop的 MapReduce,
那么 MapReduce最大的诟病
1.MapReduce 把任务分为两段, map阶段和 reduce阶段 ,而reduce阶段必须要等 所有的map阶段都完成后,才能执行。
那么问题就来了,reduce一定要等所有map都执行完成,造成时间的浪费。
2.磁盘开销大
map计算好的结果是写入磁盘的,reduce从磁盘读取 再计算。
那么这个就会导致 磁盘IO开销特别大。
3.MapReduce是把所有的任务都解释为了两个 函数 map函数和 reduce函数,限制了其他类型函数
spark优化添加了其他函数:
2.用Scala来开发 spark程序的优点
发表评论
最新留言
很好
[***.229.124.182]2025年04月17日 15时12分46秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
linux系统下双屏显示
2019-03-07
PDF.js —— vue项目中使用pdf.js显示pdf文件(流)
2019-03-07
我用wxPython搭建GUI量化系统之最小架构的运行
2019-03-07
我用wxPython搭建GUI量化系统之多只股票走势对比界面
2019-03-07
selenium+python之切换窗口
2019-03-07
重载和重写的区别:
2019-03-07
搭建Vue项目步骤
2019-03-07
账号转账演示事务
2019-03-07
idea创建工程时错误提醒的是architectCatalog=internal
2019-03-07
SpringBoot找不到@EnableRety注解
2019-03-07
简易计算器案例
2019-03-07
在Vue中使用样式——使用内联样式
2019-03-07
Explore Optimization
2019-03-07
Kali Linux 内网渗透教程 - ARP欺骗攻击 | 超详细
2019-03-07
2020Java程序设计基础(华东交通大学)章节测试免费满分答案
2019-03-07
解决数据库报ORA-02289:序列不存在错误
2019-03-07
map[]和map.at()取值之间的区别
2019-03-08
成功解决升级virtualenv报错问题
2019-03-08