(二)关于Hadoop分布式环境的搭建过程
发布日期:2021-05-16 12:59:37 浏览次数:23 分类:精选文章

本文共 3261 字,大约阅读时间需要 10 分钟。

Ubuntu 14.04 64位环境下搭建 Hadoop 平台实用指南

通过以下步骤可以在 Ubuntu 14.04 64位环境下搭建一个实用的 Hadoop 平台


一、Hadoop 安装前准备

1. 设置 root 用户

  • 第一步:系统开机进入 root 用户

    • 修改 grub 随机机制列表文件:
    grubilihan  /etc/grub.cfg 2>&1
    • 找到 GRUB_CMDLINE_LINUX="..." 行,添加以下参数:
    GRUB_CMDLINE_LINUX="text 本地启动"
    • 修改成功后,重启系统,系统将会进入 root 用户界面
  • root 用户设置

    • 首次登录时,系统会提示设置 root 用户密码

    • 建议设置较为复杂且易于记忆的密码


  • 2. 配置网络(以 VMware 为例)

    • 创建三台 Ubuntu 14.04 64位 虚拟机

      • 主机名:slave1, slave2
      • 三台虚拟机处于同一网段,互 ping 通
    • 网络设置

      • 修改主机名:
      vim /etc/hostname
      • 修改主机名对应关系:
      vim /etc/hosts

    3. 换源地址

  • 进入/etc/apt 目录

    cd /etc/apt
  • 备份原始 sources.list 文件(以备故障恢复)

    sudo cp sources.list sources.list.bak
  • 更新源列表

    sudo vim sources.list
    • 替换为阿里云源地址即可

    • 示例代码:

    deb http:// mirrors.aliyun.com/ubuntu/14.04 main restricted
    deb http:// mirrors.aliyun.com/ubuntu/14.04-updates main restricted
    deb http:// mirrors.aliyun.com/ubunbu/14.04 r Coupe r main
    deb http:// mirrors.aliyun.com/ubuntu/14.04-updates r Coupe r main
    deb http:// mirrors.aliyun.com/liberap/ r Coupe r main
    deb http:// mirrors.aliyun.com/ubuntu/14.04 universe
    deb http:// mirrors.aliyun.com/ubuntu/14.04-updates universe
    deb http:// mirrors.aliyun.com/ubuntu/14.04-multiverse multiverse
    deb http:// mirrors.aliyun.com/ubuntu/14.04-updates-multiverse multiverse
  • 更新源并清理缓存

    sudo apt-get update
    sudo apt-get upgrade
    sudo apt-get dist-upgrade

  • 二、安装 JDK 软件

  • 选择默认仓库安装 JDK

    sudo apt-get install default-jre default-jdk
  • 配置 JDK 环境变量

    vim ~/.bashrc
    • 在文件开头添加:
    export JAVA_HOME=/usr/lib/jvm/default-java
    • 保存后执行:
    source ~/.bashrc
  • 验证 JDK 是否安装成功

    echo $JAVA_HOME
    java -version

  • 三、安装 Hadoop

    1. 下载软件

    • 下载 Hadoop 2.6.5 版本

    • 将软件包传到 master 节点指定目录

      scp hadoop-2.6.0.tar.gz master:/usr/local

    2. 解压软件包

    • 解压至 /usr/local 目录

      sudo tar -zxf hadoop-2.6.0.tar.gz -C /usr/local
    • 重命名解压目录为 hadoop

      cd /usr/local
      sudo mv hadoop-2.6.0 hadoop
    • 设置文件权限

      sudo chown -R hadoop:hadoop hadoop

    3. 启动 Hadoop

    • 首次运行需格式化 NameNode

      hdfs namenode -format
    • 启动所有集群节点

      start-all.sh

    四、Hadoop 集群配置

    1. 配置 PATH 环境变量

    export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin
    • 保存到 ~/.bashrc 中并执行
    source ~/.bashrc

    2. 集群配置(需根据实际节点数量修改)

    • slaves 文件中填写所有数据节点的 hostname

      #                        master_HostName
      slave1
      slave2
    • 修改核心配置文件

      • core-site.xml
      fs.defaultFS
      hdfs://master:9000
      hadoop.tmp.dir
      file:/usr/local/hadoop/tmp
      • hdfs-site.xml(复制至每个节点):
      dfs.replication
      3
      dfs.namenode.secondary.http-address
      master:50090
      • mapred-site.xml(重命名来自模板):
      mapreduce.framework.name
      yarn
      • yarn-site.xml
      yarn.resourcemanager.hostname
      master

    3. 将 master 节点配置传递到所有节点

    tar -zcf hadoop.master.tar.gz hadoop
    scp hadoop.master.tar.gz slave1:/home/hadoop
    • 在从节点解压并配置权限
    tar -zxf hadoop.master.tar.gz -C /usr/local
    chown -R hadoop hadoop

    五、验证 Hadoop 集群

  • 查看 NameNode 状态
  • hdfs dfsadmin -report
    1. 查看 DataNode 状态
    2. jps
      • master 节点应显示 NameNode、ResourceManager、Secondary NameNode 等进程
      • 从节点应显示 DataNode、NodeManager 等进程
      1. 通过 Web 界面验证集群状态
        • 浏览器访问 http://master:50090
        • 检查 NameNode 和 DataNode 的状态

        通过以上步骤,Hadoop 集群已经完整搭建完成,可用于分布式处理和大数据分析

    上一篇:(三)分布式文件系统的介绍
    下一篇:(一)关于Hadoop的认识

    发表评论

    最新留言

    哈哈,博客排版真的漂亮呢~
    [***.90.31.176]2025年05月03日 09时38分06秒