mapreduce task与spark task对比-白红宇的个人博客

mapreduce task与spark task对比

发布日期：2021-05-18 08:21:34 浏览次数：18 分类：精选文章

本文共 790 字，大约阅读时间需要 2 分钟。

mapreduce与spark执行模型的对比优化

MapReduce是基于多进程的模型，其中一个Job运行在一个独立的JVM进程中。每个Task独立申请资源，包括内存和CPU，并在完成后释放这些资源，这使得资源在不同Task之间无法复用。虽然这种机制保证了资源的完整回收，但Task的启动操作往往耗时较长，成为迭代计算的性能瓶颈。

Spark则采用了不同的执行模型。每个节点可以运行多个Executor服务，但一个应用程序仅在一个工作者节点启动一个Executor。Executor内部配备多个Slot，用于同时运行ShuffleMapTask或ReduceTask。与MapReduce不同，每个Task在 Executor 中通过线程运行，同一Executor内的Task可以共享内存资源，例如通过SparkContext.broadcast实现的数据广播在每个Executor中只加载一次，从而提高资源利用效率。

Executor作为运行 Tasks 的核心，始终保持在线状态，一直复用其资源，直到Spark程序完成后才释放。这种设计让Spark在资源使用上比MapReduce更为高效，但也对资源管理提出了更高要求。

在优化方面，MR通过合理配置Map和Reduce Task的数量来提升性能。而Spark性能优化则主要关注Executor的数量和每个Executor的资源配置。例如，资源分配上可以通过增加Executor的感染率和每个Executor的核心核数量，以及内存资源来提升单位时间内执行的Task数量。建议根据实际任务需求（如150个Task）来合理配置，避免资源浪费，比如采用50个Executor × 3个Core的配置。

总体而言，Spark相比MapReduce在资源利用和Task执行效率上具有显著优势，特别适合需要长时间运行的高资源使用任务场景。

上一篇：spark reduceByKey源码解析

下一篇：RDD partitioner入门详解

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

mapreduce与spark执行模型的对比优化

发表评论

最新留言

关于作者

推荐文章