伪分布式安装Hadoop详解-白红宇的个人博客

伪分布式安装Hadoop详解

发布日期：2021-05-08 01:13:45 浏览次数：23 分类：精选文章

本文共 3352 字，大约阅读时间需要 11 分钟。

伪分布式安装Hadoop

文档：http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html

1.上传解压

tar -zxvf hadoop-2.7.3.tar.gz -C /opt/modules/

2.了解目录结构，删除无用文件

3.修改配置：etc/hadoop/

(1)*-env.sh：3个模块的环境变量文件

hadoop-env.sh 、yarn-env.sh(23行)、mapred-env.sh

JAVA_HOME=/opt/modules/jdk1.8.0_91

(2)按模块配置，这个时候一般根据官方文档来配置

a、common模块：core-site.xml


   
   
   
   		
    		
    			
     
      fs.defaultFS
     			
     
      hdfs://bigdata-training01.huadian.com:8020
     		
    		
    		
    		
    			
     
      hadoop.tmp.dir
     			
     
      /opt/moduls/hadoop-2.7.3/etc/hadoop/data/tempData

b、HDFS模块配置：hdfs-site.xml


   
   
   	
    	
            
     
      dfs.replication
             
     
      1

配置slaves:指定小弟DataNode运行在那台机器上，如果有多个小弟，一行一个

c、测试HDFS模块是否OK

-》格式化

当status为0的时候，为格式化成功。

-》启动

主节点

从节点

启动的这些服务相当于一个一个的Java进程，所以当执行启动命令之后，需要查看一下是否启动成功。

-》验证是否成功：

方式一：查看进程jps

方式二：
bigdata-hpsk01.huadian.com:50070

-》测试HDFS：

（1）怎么用
bin/hdfs dfs

                   （2）创建一个目录
                       bin/hdfs dfs -mkdir -p /datas
                   （3）查看
                       bin/hdfs dfs -ls /
                   （4）上传文件
                       bin/hdfs dfs -put /opt/datas/input.data /datas
                   （5）查看文件
                       bin/hdfs dfs -text /datas/input.data
                   （6）删除文件
                       bin/hdfs dfs -rm -r -f /datas/input.data

新写一个文件，上传到hdfs

d、YARN

   对于分布式资源管理和任务调度框架来说，在YARN上可以运行多种应用程序
                   - MapReduce
                   - spark
                   - tez
（1）配置：yarn-site.xml


   
   	
    	
    		
     
      yarn.resourcemanager.hostname
     		
     
      bigdata-training01.huadian.com
     	
    		
    	
    		
     
      yarn.nodemanager.aux-services
     		
     
      mapreduce_shuffle

（2）slaves

指定nodemanager运行的主机名名称，由于NameNode和 DataNode在同一台机器上，前面已经配置，所以不用再去配置。

e、启动YARN服务
-》启动：
       主节点ResourceManager:
           sbin/yarn-daemon.sh start resourcemanager

       从节点NodeManager：
           sbin/yarn-daemon.sh start nodemanager

-》验证启动：

方式一:jps
方式二:bigdata-training01.huadian.com:8088

f、MapReduce模块

       并行计算的一个框架。
       思想：分而治之
       核心：map:分
           并行处理数据，将数据分割，一部分一部分的处理
       reduce:合
           将Map处理数据的结果进行合并。

配置:

第一步:将模板重命名为xml文件


   
   
   	
    	
    		
     
      mapreduce.framework.name
     		
     
      yarn

g、测试MapReduce程序

案例:wordcount程序

Hadoop提供了一个程序，为我们统计。

准备数据:在/datas/input.data

将MapReduce应用提交到YARN上运行。

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount

   Usage: wordcount <in> [<in>...] <out>

   <in>:表示MapReduce程序要处理的数据在哪里

<out>:表示MapReduce程序处理数据之后的结果，存储在哪里，这个目录不能存在。

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /datas/input.data /datas/output/output001

额外配置:历史服务器

HistoryServer
mapred-site.xml 后面添加：


   
            
    
     mapreduce.jobhistory.address
                    
    
     bigdata-training01.huadian.com:10020
        
           
   
            
    
     mapreduce.jobhistory.webapp.address
                    
    
     bigdata-training01.huadian.com:19888

启动服务：sbin/mr-jobhistory-daemon.sh start historyserver

日志聚集功能

           YARN提供日志中央化管理功能，他能将运行完成的任务日志上传到HDFS指定目录下。
           以便后期监控查看
           配置：yarn-site.xml


   	
       
    
     yarn.log-aggregation-enable
    	
    
     true
    
   		
   	
   	
    
     yarn.log-aggregation.retain-seconds
    	
    
     604800

注意：重启YARN和JobHistoryServer服务，

修改了配置文件，需要重新读取

如果格式化、启动某个进程失败，怎么办？？？？

看日志文件。。。。就是IDEA控制台的输出

   logs/XX.log

       hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log
       模块     root 进程名字主机名

   后缀名：
       日志分类：标准输出、错误输出
       .log:程序启动相关信息 ==========
       .out:程序运行的相关输出
           system.out.println(),system.error.println

   使用tail -100f xxx.log
   找Exception，case by

上一篇：【Oozie】（三）Oozie 使用实战教学，带你快速上手！

下一篇：TCP的三次握手与四次挥手理解及面试题

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章