
本文共 1424 字,大约阅读时间需要 4 分钟。
总结
由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop;并且在Linux系统中安装Spark还需要预先安装JDK,Scala等所需依赖。
软件版本:ubunt12.04+JDK1.6+hadoop1.0.2+scala2.9.3+spark1.0.2
1 Hadoop1.0.2伪分布式的安装请参见安装文档
2 Scala安装
1) 下载Scala,本文以Scala-2.9.3为例
2) 下载后,拷到指定目录并在指定目录解压,命令为:
如:tar –xzvf scala-2.9.3.tgz
3) 配置环境变量,在/etc/profile增加以下代码
如:export SCALA_HOME=/usr/local/scala-2.9.3
export PATH=$ SCALA_HOME/bin:$PATH
4)使profile文件更新生效
如:source /etc/profile
5)验证安装
如: scala –version
能够正常显示版本说明则安装成功。
3 Spark安装
spark版本:spark-1.0.2-bin-hadoop1 下载地址http://spark.apache.org/downloads.html
这里的spark有三个版本:For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download
For CDH4: find an Apache mirror or direct file download For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download 我的hadoop版本是hadoop1.0.的,所以下载的是for hadoop1。1)下载Spark(注意要下载对应Hadoop版本的Spark程序包,本文以Spark1.0.2为例)
2)下载后,拷到指定目录并在指定目录解压,命令为:
如:tar –xzvf spark-1.0.2-bin-hadoop1.tgz
3) 将解压出的文件夹改名为spark,并将该spark文件夹的属主用户设为hadoop
4)配置环境变量,在/etc/profile增加以下代码
如:export SPARK_HOME=/usr/local/spark
export PATH=$ SPARK_HOME/bin:$PATH
source/etc/profile使profile文件更新生效。
5)配置conf/spark-env.sh文件
如:
6)配置Master和Slaves文件,编辑/conf/Master、Slaves
如:localhost(Master)
Localhost(Slave1、Slave2….)
7)Spark启动与关闭
如:sbin/start-all.sh
Sbin/stop-all.sh
通过jps查看启动是否成功:
8)Hadoop启动与关闭
如:bin/start-all.sh
bin/stop-all.sh
9)检测是否安装成功
至此,在Linux上安装与配置Spark伪分布式告一段落。
可以通过http://localhost:8080/查看spark集群状况。
参考文献
1
2
3
4
5
转载地址:https://blog.csdn.net/leijie0322/article/details/44277943 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
关于作者
