MapReduce编程模型简介和总结-白红宇的个人博客

发布日期：2025-04-12 00:13:42 浏览次数：10 分类：精选文章

本文共 1598 字，大约阅读时间需要 5 分钟。

MapReduce编程模型的核心在于其高度的抽象性和简单性，这使得开发者能够快速编写分布式计算任务。MapReduce框架将输入数据划分为若干个分片，每个分片被独立处理，最终再通过Partitioner将结果归并到一起。以下将从InputFormat、OutputFormat、Mapper、Reducer以及Partitioner等关键组件入手，深入解析MapReduce的工作原理。

InputFormat

InputFormat主要负责描述输入数据的格式，并决定如何将输入数据切分为多个分片。每个分片由一个InputSplit表示，包含元数据信息如文件位置、大小和所在节点列表。默认的FileInputFormat提供了一种简单且高效的切分算法，它基于文件块的分布情况来确定InputSplit的大小和所在节点。

文件切分算法

确定InputSplit个数：通常根据文件的块大小（默认3块）确定切分数目。

选择节点策略：优先选择包含较多数据的节点，提高任务本地性。具体实现采用了一种启发式算法：

按照机架数据量排序，节点内部再按数据量排序。

选择前N个节点作为InputSplit的宿主节点（N为块副本数，默认为3）。

Data locality

Hadoop通过数据本地性机制确保任务尽可能地在本地节点运行。数据本地性分为三个等级：

节点本地性（Node Locality）：优先处理本节点的数据。

机架本地性（Rack Locality）：在节点不够的情况下，优先处理同一机架的数据。

数据中心本地性（Data Center Locality）：最后处理其他机架的数据。

通过合理设计InputSplit的大小与HDFS块大小一致，可以尽量提高Map Task的数据本地性。

OutputFormat

OutputFormat的主要作用是定义输出数据的格式，并将Map/Reduce任务生成的结果按照指定格式写入文件。默认的FileOutputFormat提供了两大功能：

检查输出目录是否存在：避免输出文件被意外覆盖。

处理side-effect文件：在任务执行期间，Map/Reduce框架会将中间结果写入临时文件，待任务完成后再移动到最终输出目录。

Mapper

Mapper的执行过程主要包括三个阶段：

初始化：通过configure方法接收JobConf参数，进行必要的配置。

处理数据：通过RecordReader从InputSplit中读取key/value对，调用map函数进行处理。

清理资源：通过close方法释放资源。

MapReduce框架默认提供了MapRunner作为Mapper的实现，用户可以直接编写自己的Mapper类或使用提供的多线程实现以提升吞吐量。

Reducer

Reducer的执行过程与Mapper类似，主要包括以下阶段：

初始化：通过configure方法进行配置。

处理数据：通过RecordReader读取Mapper输出的中间结果，调用reduce函数进行处理。

清理资源：调用close方法释放资源。

Partitioner

Partitioner的作用是将Mapper输出的中间结果进行分组，将同一组的数据交给同一个Reducer处理。MapReduce框架提供了两个Partitioner实现：

HashPartitioner：基于键的哈希值进行分组，适用于一般场景。

TotalOrderPartitioner：基于键的排序值进行分组，适用于需要全局排序的场景。

总结

通过对InputFormat、OutputFormat、Mapper、Reducer和Partitioner的深入分析，可以清晰地看到MapReduce框架的核心原理及其各组件的协同作用。理解这些组件的职责和工作流程，是掌握Hadoop分布式计算的关键。

上一篇：MapReduce：大数据处理的范式

下一篇：MapReduce程序（一）——wordCount

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！