Mahout安装及测试

来源:互联网 发布:淘宝买家支付钱在哪里 编辑:程序博客网 时间:2024/05/16 10:27

Mahout安装及测试

1、 安装前配置的环境:

a)     操作系统为Ubuntu12.04 desktop版

b)     Jdk为jdk1.6

c)      Hadoop为hadoop1.0.2

d)     Eclipse

2、mahout安装、配置

Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装参考我之前文档,这里不再讲述,接下来阐述怎么安装Mahout。

Mahout的安装配置有两种方式:其一,下载源码(直接下载源码或通过svn下载源码都可以),然后使用maven进行编译;其二,下载完整包进行解压缩。下面对第二种方式进行介绍。

1在mahout官网:http://mirror.bit.edu.cn/apache/mahout/下载Mahout-0.7版本,然后解压缩和安装,命令:

tar –zxvfmahout-distribution-0.7.tar.gz

解压之后该目录可以看到19个文件。。


2配置环境变量:在/etc/profile中添加如下信息

exportMAHOUT_HOME=/usr/local/mahout/mahout-distribution-0.7

export CLASSPATH=.:$JAVA_HOME/

lib/dt.jar:$MAHOUT_HOME/lib:$JAVA_HOME/lib/tools.jar

exportPATH=$JAVA_HOME/bin: $MAHOUT_HOME/bin: $HADOOP_HOME

/bin:$HADOOP_HOME/conf:$PATH

3启动hadoop


4测试mahout:

mahout –version

3、测试

1下载测试数据synthetic_control.data,下载地址http://archive.ics.uci.edu

/ml/databases/synthetic_control/synthetic_control.data。该数据集为控制图数据,有600个样本,每个样本60个属性,分为6各类。


2把该数据集上传到HDFS文件系统中,命令如下:

hadoopfs -mkdir /user/hadoop/testdata

hadoopfs -put synthetic_control.data /user/hadoop/testdata

(HDFS文件系统中的目录设为此,是因为测试算法的默认设置为此)


3使用Canopy算法进行测试,命令如下:

Hadoop  jar  /usr/local/mahout/mahout-distribution-0.7/mahout-exa
mples-0.7-job.jar  org.apache.mahout.clustering.syntheticcontrol.canopy.Job


4使用kmeans算法进行测试,命令如下:

Hadoop  jar  /usr/local/mahout/mahout-distribution-0.7/mahout-exa
mples-0.7-job.jar  org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

 









4查看结果:在HDFS文件系统中可以看到输出的文件,但是这些文件都是序列文件。


5使用mahout的文件转换把序列文件转换为文本文件,这样就能比较清晰的分析输出结果,命令如下:

Hadoopjar  mahout-examples-0.7-job.jarorg.apache.mahout.utils.clustering.

ClusterDumper–i /user/hadoop/output/clusters-0-final –p /user/hadoop/

clusteredPoints–o /home/hadoop/下载/123.data

参数说明:

-i是输入文件路径,即运行Canopy算法产生的中心点文件路径(HDFS文件系统);-p 是运行Canopy算法后把原始数据分类后的数据文件目录(HDFS文件系统);

-o是分类结果的所有文本文件要生成的文件路径(本地文件系统)。


在本地文件系统中打开文件即可看到数据文件(部分):


查看文件全部内容,可以看到共有C-0、C-1、C-2、C-3、C-4、C-5六个类别,且每个类别下面含有属于该类的样本数据。上面所有步骤都成功运行即可说明mahout安装正确。

0 0