Apache Spark：将Apache Spark部署到Hadoop 2.2.0上-白红宇的个人博客

Apache Spark：将Apache Spark部署到Hadoop 2.2.0上

发布日期：2021-05-27 02:54:38 浏览次数：39 分类：精选文章

本文共 2871 字，大约阅读时间需要 9 分钟。

如何在Hadoop 2.2.0上部署Apache Spark

在本文中我们将详细介绍如何在Hadoop 2.2.0环境中部署Apache Spark。需要注意的是，Hadoop 2.x版本与之前的版本有所不同，特别是YARN资源管理系统的整合。在CDH4或其他版本的Hadoop环境中，Spark的部署可能会有所差异，因此本文以Hadoop 2.2.0为基础进行说明。

部署前的准备工作

在开始部署Spark之前，需要确保以下软件已经安装并配置：

操作系统：建议使用Ubuntu 12.04或其他Linux发行版。

JDK：需要安装并配置JDK 1.6或更高版本。确保JAVA_HOME环境变量已正确配置。

Hadoop 2.2.0：安装并配置好Hadoop，包括YARN资源管理和HDFS文件系统。

Scala：安装Scala 2.3.9或更高版本。

spark：下载适用于Hadoop 2.x版本的Spark release包，如Spark 1.0.2。

Hadoop 2.2.0安装与配置

安装Hadoop

下载Hadoop：从官方网站或镜像下载hadoop-2.2.0.tar.gz文件。

解压Hadoop：使用以下命令解压并安装：

sudo tar -zxvf hadoop-2.2.0.tar.gzsudo mv hadoop-2.2.0 /usr/local/hadoopsudo chown -R hadoop:hadoop /usr/local/hadoop

配置Hadoop环境

编辑/etc/profile文件：添加以下环境变量：

export JAVA_HOME=/usr/lib/jvm/jdk/export HADOOP_INSTALL=/usr/local/hadoopexport PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbinexport HADOOP_MAPRED_HOME=$HADOOP_INSTALLexport HADOOP_COMMON_HOME=$HADOOP_INSTALLexport HADOOP_HDFS_HOME=$HADOOP_INSTALLexport YARN_HOME=$HADOOP_INSTALL

配置Hadoop配置文件：

修改$HADOOP_INSTALL/etc/hadoop/hadoop-env.sh，添加关于JDK路径的配置。

修改$HADOOP_INSTALL/etc/hadoop/core-site.xml，配置Hadoop的基本属性：


        
       
        dfs.nameingleton
         
       
        localhost
       
      
        
       
        dfs.datafw.utilization
         
       
        true

修改$HADOOP_INSTALL/etc/hadoop/yarn-site.xml，配置YARN的相关属性。

修改$HADOOP_INSTALL/etc/hadoop/mapred-site.xml，配置MapReduce的属性。

修改$HADOOP_INSTALL/etc/hadoop/hdfs-site.xml，配置HDFS的属性。

格式化 Namenode：

sudo -u hadoop /usr/local/hadoop/bin/hadoop namenode -format

启动Hadoop：

sudo /usr/local/hadoop/sbin/start-dfs.shsudo /usr/local/hadoop/sbin/start-yarn.sh

#### 验证Hadoop安装- 检查Namenode是否启动：```bashjps | grep -i -e Namenode

登陆HDFS Shell：
```
hdfs-client localhost: 8040
```

Spark安装与配置

下载Spark

根据你的Hadoop版本下载适当的Spark release包。例如，Spark 1.0.2-bin-hadoop2适用于Hadoop 2.2.0。

解压Spark：

tar -xzvf spark-1.0.2-bin-hadoop2.tgzmv spark-1.0.2-bin-hadoop2 /usr/local/sparkchown -R hadoop:hadoop /usr/local/spark

配置Spark环境

编辑`/etc/profile文件：

export SPARK_HOME=/usr/local/sparkexport PATH=$SPARK_HOME/bin:$PATH

配置Spark配置文件：

修改$SPARK_HOME/conf/spark-env.sh，添加以下配置：

export SPARK_HOME=/usr/local/sparkexport HADOOP_HOME=/usr/local/hadoopexport PATH=$SPARK_HOME/bin:$PATH

修改$SPARK_HOME/conf/slaves和$SPARK_HOME/conf/masters，配置节点IP地址。默认情况下，你可以使用localhost作为Master节点。

启动Spark

启动Spark集群：

/usr/local/spark/sbin/start-all.sh

停止Spark集群：

/usr/local/spark/sbin/stop-all.sh

验证Spark安装

检查Spark日志：

jps | grep -i -e SparkMasterjps | grep -i -e SparkSlave

访问SparkUI：通过浏览器访问http://localhost:8080/查看集群状态。

测试Spark应用：

spark-submit --class org.apache.spark.examples SparkPi --master localhost:8080 --deploy-mode cluster --jars jars/

根据实际需要替换或调整命令参数。

注意事项

Hadoop版本兼容性：确保你下载的Spark版本与Hadoop版本兼容。

YARN资源管理：YARN是Hadoop 2.x中使用的标准资源管理系统，Spark依赖于第三方系统如YARN进行资源调度。

性能调优：在Hadoop/YARN环境中，Spark的性能可能会受到Hadoop配置的影响，可参考Spark官方文档进行优化。

参考资料

Apache Spark官方文档

Hadoop 2.2.0安装与配置指南

CDH4与Spark集成指南

上一篇：Spark：利用Eclipse构建Spark集成开发环境

下一篇：Hadoop、MapReduce、YARN和Spark的区别与联系

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！