本文共 1846 字,大约阅读时间需要 6 分钟。
Mahout安装及测试
1、 安装前配置的环境:
a) 操作系统为Ubuntu12.04 desktop版
b) Jdk为jdk1.6
c) Hadoop为hadoop1.0.2
d) Eclipse
2、mahout安装、配置
Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装参考我之前文档,这里不再讲述,接下来阐述怎么安装Mahout。
Mahout的安装配置有两种方式:其一,下载源码(直接下载源码或通过svn下载源码都可以),然后使用maven进行编译;其二,下载完整包进行解压缩。下面对第二种方式进行介绍。
1在mahout官网:http://mirror.bit.edu.cn/apache/mahout/下载Mahout-0.7版本,然后解压缩和安装,命令:
tar –zxvfmahout-distribution-0.7.tar.gz
解压之后该目录可以看到19个文件。。
2配置环境变量:在/etc/profile中添加如下信息
exportMAHOUT_HOME=/usr/local/mahout/mahout-distribution-0.7
export CLASSPATH=.:$JAVA_HOME/
lib/dt.jar:$MAHOUT_HOME/lib:$JAVA_HOME/lib/tools.jar
exportPATH=$JAVA_HOME/bin: $MAHOUT_HOME/bin: $HADOOP_HOME
/bin:$HADOOP_HOME/conf:$PATH
3启动hadoop
4测试mahout:
mahout –version
3、测试
1下载测试数据synthetic_control.data,下载地址
/ml/databases/synthetic_control/synthetic_control.data。该数据集为控制图数据,有600个样本,每个样本60个属性,分为6各类。
2把该数据集上传到HDFS文件系统中,命令如下:
hadoopfs -mkdir /user/hadoop/testdata
hadoopfs -put synthetic_control.data /user/hadoop/testdata
(HDFS文件系统中的目录设为此,是因为测试算法的默认设置为此)
3使用Canopy算法进行测试,命令如下:
Hadoop jar /usr/local/mahout/mahout-distribution-0.7/mahout-exa
mples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job
4使用kmeans算法进行测试,命令如下:
Hadoop jar /usr/local/mahout/mahout-distribution-0.7/mahout-exa
mples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
4查看结果:在HDFS文件系统中可以看到输出的文件,但是这些文件都是序列文件。
5使用mahout的文件转换把序列文件转换为文本文件,这样就能比较清晰的分析输出结果,命令如下:
Hadoopjar mahout-examples-0.7-job.jarorg.apache.mahout.utils.clustering.
ClusterDumper–i /user/hadoop/output/clusters-0-final –p /user/hadoop/
clusteredPoints–o /home/hadoop/下载/123.data
参数说明:
-i是输入文件路径,即运行Canopy算法产生的中心点文件路径(HDFS文件系统);-p 是运行Canopy算法后把原始数据分类后的数据文件目录(HDFS文件系统);
-o是分类结果的所有文本文件要生成的文件路径(本地文件系统)。
在本地文件系统中打开文件即可看到数据文件(部分):
查看文件全部内容,可以看到共有C-0、C-1、C-2、C-3、C-4、C-5六个类别,且每个类别下面含有属于该类的样本数据。上面所有步骤都成功运行即可说明mahout安装正确。
转载地址:https://blog.csdn.net/leijie0322/article/details/41175147 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!