使用MapReduce框架做词频分析案例（案例一）-白红宇的个人博客

使用MapReduce框架做词频分析案例（案例一）

发布日期：2021-05-15 08:56:55 浏览次数：20 分类：精选文章

本文共 5197 字，大约阅读时间需要 17 分钟。

在使用MapReduce框架编写程序时，理解其内务工作原理以及优化配置至关重要。以下是关于MapReduce框架的详细分析与技术实现。

MapReduce框架的基础理解

MapReduce是一种灵活高效的并行计算模型，广泛应用于处理大规模数据集。其核心工作原理包括任务分割、数据传输以及结果合并。在MapReduce程序中，关键在于理解key-value数据的处理逻辑以及框架提供的数据类型限制。

关键数据类型

在MapReduce程序中，所有的输入输出数据必须使用Hadoop提供的特定数据类型，这些类型包括但不限于：

LongWritable：用于处理长整数值

IntWritable：用于处理整数值

Text：用于处理文本数据

这些数据类型由接口Writable和WritableComparable扩展而来，开发者可通过实现这些接口自定义key-value数据类型，满足不同的应用需求。

节点间的通信机制

MapReduce框架采用Remote Procedure Call（RPC）协议进行节点间通信。具体而言，客户端节点将消息编码为二进制字节流发送到远程节点，接收方再通过反序列化恢复原始数据。这种机制确保了节点间数据传输的高效性和一致性。

Map阶段的实现

Map阶段是处理数据并分割任务的关键环节。每个Map任务接收一个key-value对，其中key为输入数据的偏移量，value则为每行数据。Map任务的主要作用是将输入数据分割成多个更小的数据块，并输出新的key-value对。

以下是一个典型的Map任务示例：

public class MapTask extends Mapper
   
     {
    @Override
    protected void map(LongWritable key, Text value, Context context) 
        throws IOException, InterruptedException {
        String[] split = value.toString().split(" ");
        for (String word : split) {
            context.write(new Text(word), new IntWritable(1));
        }
    }
}

在这个示例中，Map任务接收一行文本数据，按空格分割成单词，并将每个单词视为键，计数值为1输出。

Reduce阶段的实现

Reduce阶段的主要功能是将Map阶段输出的结果按键汇总，生成最终的统计结果。Reduce任务接收一组具有相同键的value值组成的数据列表，计算每个键对应的值的总和。

以下是一个典型的Reduce任务示例：

public class ReduceTask extends Reducer
   
     {
    @Override
    protected void reduce(Text key, Iterable
    
      values, Context context)
        throws IOException, InterruptedException {
        int count = 0;
        for (IntWritable value : values) {
            count += value.get();
        }
        context.write(key, new IntWritable(count));
    }
}

在这个示例中，Reduce任务计算每个单词出现的总次数，并将结果按照键（单词）输出。

Driver类的实现

Driver类是MapReduce程序的入口点，负责配置任务并提交到Hadoop集群上运行。根据不同运行环境，Driver类需要设置不同的配置参数。

以下是一个典型的Driver类实现：

public class Driver {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://hadoop01:9000");
        Job job = Job.getInstance(conf, "wordcount");
        job.setMapperClass(MapTask.class);
        job.setReducerClass(ReduceTask.class);
        job.setJarByClass(Driver.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("/hello.txt"));
        FileOutputFormat.setOutputPath(job, new Path("/wordcount/wc-output"));
        if (fs.exists(new Path("/wordcount/wc-output"))) {
            fs.delete(new Path("/wordcount/wc-output"), true);
        }
        boolean completion = job.waitForCompletion(true);
        System.out.println(completion ? "程序执行完毕" : "程序出错了");
    }
}

在不同运行环境下的配置

MapReduce程序需要根据运行环境进行相应的配置。

在HDFS集群上运行

public class Driver {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://hadoop01:9000");
        Job job = Job.getInstance(conf, "hdfs-wordcount");
        job.setMapperClass(MapTask.class);
        job.setReducerClass(ReduceTask.class);
        job.setJarByClass(Driver.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("/hello.txt"));
        FileOutputFormat.setOutputPath(job, new Path("/wordcount/wc-output"));
        if (fs.exists(new Path("/wordcount/wc-output"))) {
            fs.delete(new Path("/wordcount/wc-output"), true);
        }
        boolean completion = job.waitForCompletion(true);
        System.out.println(completion ? "程序执行完毕" : "程序出错了");
    }
}

在Eclipse本地运行

public class Driver {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        System.setProperty("HADOOP_USER_NAME", "root");
        conf.set("fs.defaultFS", "hdfs://hadoop01:9000");
        conf.set("mapreduce.framework.name", "yarn");
        conf.set("yarn.resourcemanager.hostname", "hadoop01");
        conf.set("mapreduce.app-submission.cross-platform", "true");
        Job job = Job.getInstance(conf, "eclipse-to-cluster");
        job.setMapperClass(MapTask.class);
        job.setReducerClass(ReduceTask.class);
        job.setJar("C:\\Users\\dell\\Desktop\\wc.jar");
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("D:\\a\\hello.txt"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\a\\wordcount\\wc-output"));
        if (fs.exists(new Path("D:\\a\\wordcount\\wc-output"))) {
            FileUtils.deleteDirectory(fs.getPath("D:\\a\\wordcount\\wc-output"));
        }
        boolean completion = job.waitForCompletion(true);
        System.out.println(completion ? "程序执行完毕" : "程序出错了");
    }
}

在本地环境下手动执行

为了在本地环境下运行MapReduce程序，可以遵循以下步骤：

将项目打包生成JAR文件，确保类路径正确设置。

确保目标服务器上存在相应的Hadoop环境配置。

使用命令hadoop jar [jar路径]将程序提交到集群。

通过以上配置和编写，用户可以根据具体需求灵活调整MapReduce策略，充分发挥其高效处理大规模数据集的能力。

上一篇：双MapReduce框架求共同好友案例（案例二）

下一篇：Log4j产生的日志文件上传到hdfs集群上

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！