hadoop1.0.2+spark1.0.2伪分布式安装总结
发布日期:2021-05-27 02:54:31 浏览次数:5 分类:技术文章

本文共 1424 字,大约阅读时间需要 4 分钟。

总结

由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop;并且在Linux系统中安装Spark还需要预先安装JDK,Scala等所需依赖。

软件版本:ubunt12.04+JDK1.6+hadoop1.0.2+scala2.9.3+spark1.0.2

1 Hadoop1.0.2伪分布式的安装请参见安装文档

2 Scala安装

1)  下载Scala,本文以Scala-2.9.3为例

2)  下载后,拷到指定目录并在指定目录解压,命令为:

如:tar –xzvf scala-2.9.3.tgz

3)  配置环境变量,在/etc/profile增加以下代码

如:export SCALA_HOME=/usr/local/scala-2.9.3

    export PATH=$ SCALA_HOME/bin:$PATH

4)使profile文件更新生效

如:source /etc/profile

5)验证安装

如: scala –version

能够正常显示版本说明则安装成功。

3 Spark安装

spark版本:spark-1.0.2-bin-hadoop1  下载地址http://spark.apache.org/downloads.html

这里的spark有三个版本:

For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download

    For CDH4: find an Apache mirror or direct file download
    For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download
我的hadoop版本是hadoop1.0.的,所以下载的是for hadoop1。

1)下载Spark(注意要下载对应Hadoop版本的Spark程序包,本文以Spark1.0.2为例)

2)下载后,拷到指定目录并在指定目录解压,命令为:

如:tar –xzvf spark-1.0.2-bin-hadoop1.tgz

3)  将解压出的文件夹改名为spark,并将该spark文件夹的属主用户设为hadoop

4)配置环境变量,在/etc/profile增加以下代码

如:export SPARK_HOME=/usr/local/spark

export PATH=$ SPARK_HOME/bin:$PATH

source/etc/profile使profile文件更新生效。

5)配置conf/spark-env.sh文件

如:

6)配置Master和Slaves文件,编辑/conf/Master、Slaves

如:localhost(Master)

    Localhost(Slave1、Slave2….)

7)Spark启动与关闭

如:sbin/start-all.sh

    Sbin/stop-all.sh

通过jps查看启动是否成功:

8)Hadoop启动与关闭

如:bin/start-all.sh

    bin/stop-all.sh

9)检测是否安装成功

至此,在Linux上安装与配置Spark伪分布式告一段落。

可以通过http://localhost:8080/查看spark集群状况。

 

参考文献

1

2

3

4

5

 

转载地址:https://blog.csdn.net/leijie0322/article/details/44277943 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Spark下如何运行Java版本的WordCount
下一篇:命令提示符下编译运行java工程

发表评论

最新留言

感谢大佬
[***.8.128.20]2023年11月26日 08时25分58秒