hadoop自带示例wordcount-白红宇的个人博客

hadoop自带示例wordcount

发布日期：2021-05-20 12:02:09 浏览次数：22 分类：精选文章

本文共 1009 字，大约阅读时间需要 3 分钟。

Hadoop入门与实践示例

在本文中，我们将从最基础的Hadoop启动开始，深入了解HDFS文件系统的操作及实际案例分析。

1.1 HDFS的重要性

HDFS（Hadoop Distributed File System）是Hadoop生态系统的核心组件，作为一个分布式文件系统，它类似于传统操作系统中的NTFS，支持海量数据的高效存储与处理。作为HDFS操作的基础，熟悉其特性对于后续学习和实践至关重要。

1.2 Hadoop环境的启动

安装完成Hadoop后，启动节点可以通过以下步骤进行：

通过命令导航至Hadoop安装目录：$cd /home/hadoop/hadoop/（根据实际安装路径进行调整）

启动Hadoop集群：

启动DFS：$./start-dfs.sh

启动Yarn：$./start-yarn.sh

启动完成后，可以通过浏览器访问master节点的8088或50070端口，查看Hadoop集群的运行状态。

1.3 创建 HDFS 目录

在HDFS中创建输入目录，可以使用以下命令：

$./hadoop fs -mkdir /input

创建成功后，可以通过以下命令查看目录结构：

$./hadoop fs -ls /

此时已成功在HDFS根目录下创建/input目录。

1.4 文件上传与统计

将LICENSE.txt文件上传至HDFS：

$./hadoop fs -put LICENSE.txt /input

上传后，可以通过以下命令查看文件是否已成功上传：

$./hadoop fs -ls /input

接下来，运行Hadoop的wordcount命令进行word计数统计：

$./hadoop jar /home/hadoop/hadoop/share/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output

统计完成后，可以通过以下命令查看输出结果：

$./hadoop fs -ls /output

并用以下命令查看具体统计结果：

$./hadoop fs -cat /output/part-r-00000

2 总结

通过本实例，我们学会了使用HDFS进行文件存储与操作，并掌握了Hadoop-wordcount的基本使用方法。这种基于分布式文件系统的操作方式为海量数据处理奠定了基础。

上一篇：Matlab常见错误及解决办法归纳

下一篇：Hadoop shell常用命令

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

1.1 HDFS的重要性

1.2 Hadoop环境的启动

1.3 创建 HDFS 目录

1.4 文件上传与统计

2 总结

发表评论

最新留言

关于作者

推荐文章

1.1 HDFS的重要性

1.2 Hadoop环境的启动

1.3 创 建 HDFS 目录

1.4 文件上传与统计

2 总结

发表评论

最新留言

关于作者

推荐文章

1.3 创建 HDFS 目录