（二）关于Hadoop分布式环境的搭建过程

发布日期：2021-05-16 12:59:37 浏览次数：23 分类：精选文章

本文共 3261 字，大约阅读时间需要 10 分钟。

Ubuntu 14.04 64位环境下搭建 Hadoop 平台实用指南

通过以下步骤可以在 Ubuntu 14.04 64位环境下搭建一个实用的 Hadoop 平台

一、Hadoop 安装前准备

1. 设置 root 用户

第一步：系统开机进入 root 用户

修改 grub 随机机制列表文件：

grubilihan  /etc/grub.cfg 2>&1

找到 GRUB_CMDLINE_LINUX="..." 行，添加以下参数：

GRUB_CMDLINE_LINUX="text 本地启动"

修改成功后，重启系统，系统将会进入 root 用户界面

root 用户设置

首次登录时，系统会提示设置 root 用户密码

建议设置较为复杂且易于记忆的密码

2. 配置网络（以 VMware 为例）

创建三台 Ubuntu 14.04 64位虚拟机
- 主机名：slave1, slave2
- 三台虚拟机处于同一网段，互 ping 通

网络设置
- 修改主机名：
```
vim /etc/hostname
```
- 修改主机名对应关系：
```
vim /etc/hosts
```

3. 换源地址

进入/etc/apt 目录

cd /etc/apt

备份原始 sources.list 文件（以备故障恢复）

sudo cp sources.list sources.list.bak

更新源列表

sudo vim sources.list

替换为阿里云源地址即可

示例代码：

deb http:// mirrors.aliyun.com/ubuntu/14.04 main restricted
deb http:// mirrors.aliyun.com/ubuntu/14.04-updates main restricted
deb http:// mirrors.aliyun.com/ubunbu/14.04 r Coupe r main
deb http:// mirrors.aliyun.com/ubuntu/14.04-updates r Coupe r main
deb http:// mirrors.aliyun.com/liberap/ r Coupe r main
deb http:// mirrors.aliyun.com/ubuntu/14.04 universe
deb http:// mirrors.aliyun.com/ubuntu/14.04-updates universe
deb http:// mirrors.aliyun.com/ubuntu/14.04-multiverse multiverse
deb http:// mirrors.aliyun.com/ubuntu/14.04-updates-multiverse multiverse

更新源并清理缓存

sudo apt-get update
sudo apt-get upgrade
sudo apt-get dist-upgrade

二、安装 JDK 软件

选择默认仓库安装 JDK

sudo apt-get install default-jre default-jdk

配置 JDK 环境变量

vim ~/.bashrc

在文件开头添加：

export JAVA_HOME=/usr/lib/jvm/default-java

保存后执行：

source ~/.bashrc

验证 JDK 是否安装成功

echo $JAVA_HOME
java -version

三、安装 Hadoop

1. 下载软件

下载 Hadoop 2.6.5 版本

将软件包传到 master 节点指定目录
```
scp hadoop-2.6.0.tar.gz master:/usr/local
```

2. 解压软件包

解压至 /usr/local 目录

sudo tar -zxf hadoop-2.6.0.tar.gz -C /usr/local

重命名解压目录为 hadoop

cd /usr/local
sudo mv hadoop-2.6.0 hadoop

设置文件权限
```
sudo chown -R hadoop:hadoop hadoop
```

3. 启动 Hadoop

首次运行需格式化 NameNode
```
hdfs namenode -format
```

启动所有集群节点
```
start-all.sh
```

四、Hadoop 集群配置

1. 配置 PATH 环境变量

export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin

保存到 ~/.bashrc 中并执行

source ~/.bashrc

2. 集群配置（需根据实际节点数量修改）

slaves 文件中填写所有数据节点的 hostname

#                        master_HostName
slave1
slave2

修改核心配置文件

core-site.xml：


     
  
      
    
       
        fs.defaultFS
       
    
       
        hdfs://master:9000
       
  
      
  
      
    
       
        hadoop.tmp.dir
       
    
       
        file:/usr/local/hadoop/tmp

hdfs-site.xml（复制至每个节点）：


     
  
      
    
       
        dfs.replication
       
    
       
        3
       
  
      
  
      
    
       
        dfs.namenode.secondary.http-address
       
    
       
        master:50090

mapred-site.xml（重命名来自模板）：


     
  
      
    
       
        mapreduce.framework.name
       
    
       
        yarn

yarn-site.xml：


     
  
      
    
       
        yarn.resourcemanager.hostname
       
    
       
        master

3. 将 master 节点配置传递到所有节点

tar -zcf hadoop.master.tar.gz hadoop
scp hadoop.master.tar.gz slave1:/home/hadoop

在从节点解压并配置权限

tar -zxf hadoop.master.tar.gz -C /usr/local
chown -R hadoop hadoop

五、验证 Hadoop 集群

查看 NameNode 状态

hdfs dfsadmin -report

查看 DataNode 状态

jps

master 节点应显示 NameNode、ResourceManager、Secondary NameNode 等进程

从节点应显示 DataNode、NodeManager 等进程

通过 Web 界面验证集群状态

浏览器访问 http://master:50090

检查 NameNode 和 DataNode 的状态

通过以上步骤，Hadoop 集群已经完整搭建完成，可用于分布式处理和大数据分析

上一篇：（三）分布式文件系统的介绍

下一篇：（一）关于Hadoop的认识

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！