本文共 2947 字,大约阅读时间需要 9 分钟。
本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。
需要注意两点:
(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,资源调度要依托于第三方系统,比如YARN或Mesos等
(2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。
将Spark部署到Hadoop 2.2.0上需要经过以下几步:
步骤1:准备基础软件
步骤2:在Ubuntu12.04上安装与配置Spark
步骤3:运行Spark实例
接下来详细介绍这几个步骤。
步骤1:准备基础软件
包括linux操作系统Ubuntu12.04、Hadoop 2.2.0或者更高版本,其中,Hadoop 2.2.0只需采用最简单的方式安装即可,具体可参考这篇文章:。
· Ubuntu12.04
· JDK1.6
· Haddoop2.2.0(伪分布式安装)
· Scala2.3.9
· Spark1.0.2(伪分布式安装)
注意,0.8.1之前的版本不支持hadoop 2.2.0,从0.8.1版本开始支持。
步骤2:在Linux上安装与配置Spark
1、Hadoop2.2.0伪分布式的安装请参见安装文档
下面讲解Hadoop的安装过程和步骤。
1)下载hadoop-2.2.0(官网地址为)
选取一个Hadoop镜像网址,下载Hadoop并解压tar包。
- $ sudo tar-vxzf hadoop-2.2.0.tar.gz
- $ sudo mv hadoop-2.2.0 hadoop
- $ sudo chown -R hadoop:hadoop hadoop
2)配置Hadoop环境变量
a编辑profile文件。
- Sudo gedit /etc/profile
b在profile文件中增加以下内容。
- export JAVA_HOME=/usr/lib/jvm/jdk/
- export HADOOP_INSTALL=/usr/local/hadoop
- export PATH=$PATH:$HADOOP_INSTALL/bin
- export PATH=$PATH:$HADOOP_INSTALL/sbin
- export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
- export HADOOP_COMMON_HOME=$HADOOP_INSTALL
- export HADOOP_HDFS_HOME=$HADOOP_INSTALL
- export YARN_HOME=$HADOOP_INSTALL
通过如上配置就可以让系统找到JDK和Hadoop的安装路径。
3)编辑配置文件
a进入Hadoop所在目录/usr/local/hadoop/etc/hadoop。
b配置hadoop-env.sh文件。
- export JAVA_HOME=/usr/lib/jvm/jdk/
c配置core-site.xml文件。
d配置yarn-site.xml文件。
e配置mapred-site.xml文件,加入如下内容。
f配置hdfs-site.xml 文件,在文件中添加如下内容。
g配置Master和Slave文件
如:localhost
4)格式化Namenode(在Hadoop根目录下)
如:bin/hadoop namenode -format
5)启动Hadoop
如:sbin/start-all.sh
6)查看是否配置和启动成功
如果在x86机器上运行,则通过jps命令,查看相应的JVM进程
如:
2 Scala安装
1) 下载Scala,本文以Scala-2.9.3为例
2) 下载后,拷到指定目录并在指定目录解压,命令为:
如:tar –xzvf scala-2.9.3.tgz
3) 配置环境变量,在/etc/profile增加以下代码
如:export SCALA_HOME=/usr/local/scala-2.9.3
export PATH=$ SCALA_HOME/bin:$PATH
4)使profile文件更新生效
如:source /etc/profile
5)验证安装
如: scala –version
能够正常显示版本说明则安装成功。
3 Spark安装
spark版本:spark-1.0.2-bin-hadoop2
下载地址http://spark.apache.org/downloads.html
这里的spark有三个版本:For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download
For CDH4: find an Apache mirror or direct file download For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download 我的hadoop版本是hadoop2.2.0.的,所以下载的是for hadoop2。1)下载Spark(注意要下载对应Hadoop版本的Spark程序包,本文以Spark1.0.2为例)
2)下载后,拷到指定目录并在指定目录解压,命令为:
如:tar –xzvf spark-1.0.2-bin-hadoop2.tgz
3) 将解压出的文件夹改名为spark,并将该spark文件夹的属主用户设为hadoop
4)配置环境变量,在/etc/profile增加以下代码
如:export SPARK_HOME=/usr/local/spark
export PATH=$ SPARK_HOME /bin:$PATH
source/etc/profile使profile文件更新生效。
5)配置conf/spark-env.sh文件
如:
6)配置Master和Slaves文件,编辑/conf/Master、Slaves
如:localhost(Master)
Localhost(Slave1、Slave2….)
7)Spark启动与关闭
如:sbin/start-all.sh
Sbin/stop-all.sh
通过jps查看启动是否成功:
8)Hadoop启动与关闭
如:bin/start-all.sh
bin/stop-all.sh
9)检测是否安装成功
至此,在Linux上安装与配置Spark伪分布式告一段落。
测试Spark是否安装成功:
可以通过http://localhost:8080/查看spark集群状况。
可以通过http://localhost:50070/可以查看hdfs状态信息:
步骤3:运行Spark实例
请参考文档
参考文献
1
2
3
4
5
6
转载地址:https://blog.csdn.net/leijie0322/article/details/44415353 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!