Mahout安装及测试
来源:互联网 发布:淘宝买家支付钱在哪里 编辑:程序博客网 时间:2024/05/16 10:27
Mahout安装及测试
1、 安装前配置的环境:
a) 操作系统为Ubuntu12.04 desktop版
b) Jdk为jdk1.6
c) Hadoop为hadoop1.0.2
d) Eclipse
2、mahout安装、配置
Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装参考我之前文档,这里不再讲述,接下来阐述怎么安装Mahout。
Mahout的安装配置有两种方式:其一,下载源码(直接下载源码或通过svn下载源码都可以),然后使用maven进行编译;其二,下载完整包进行解压缩。下面对第二种方式进行介绍。
1在mahout官网:http://mirror.bit.edu.cn/apache/mahout/下载Mahout-0.7版本,然后解压缩和安装,命令:
tar –zxvfmahout-distribution-0.7.tar.gz
解压之后该目录可以看到19个文件。。
2配置环境变量:在/etc/profile中添加如下信息
exportMAHOUT_HOME=/usr/local/mahout/mahout-distribution-0.7
export CLASSPATH=.:$JAVA_HOME/
lib/dt.jar:$MAHOUT_HOME/lib:$JAVA_HOME/lib/tools.jar
exportPATH=$JAVA_HOME/bin: $MAHOUT_HOME/bin: $HADOOP_HOME
/bin:$HADOOP_HOME/conf:$PATH
3启动hadoop
4测试mahout:
mahout –version
3、测试
1下载测试数据synthetic_control.data,下载地址http://archive.ics.uci.edu
/ml/databases/synthetic_control/synthetic_control.data。该数据集为控制图数据,有600个样本,每个样本60个属性,分为6各类。
2把该数据集上传到HDFS文件系统中,命令如下:
hadoopfs -mkdir /user/hadoop/testdata
hadoopfs -put synthetic_control.data /user/hadoop/testdata
(HDFS文件系统中的目录设为此,是因为测试算法的默认设置为此)
3使用Canopy算法进行测试,命令如下:
Hadoop jar /usr/local/mahout/mahout-distribution-0.7/mahout-exa
mples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job
4使用kmeans算法进行测试,命令如下:
Hadoop jar /usr/local/mahout/mahout-distribution-0.7/mahout-exa
mples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
4查看结果:在HDFS文件系统中可以看到输出的文件,但是这些文件都是序列文件。
5使用mahout的文件转换把序列文件转换为文本文件,这样就能比较清晰的分析输出结果,命令如下:
Hadoopjar mahout-examples-0.7-job.jarorg.apache.mahout.utils.clustering.
ClusterDumper–i /user/hadoop/output/clusters-0-final –p /user/hadoop/
clusteredPoints–o /home/hadoop/下载/123.data
参数说明:
-i是输入文件路径,即运行Canopy算法产生的中心点文件路径(HDFS文件系统);-p 是运行Canopy算法后把原始数据分类后的数据文件目录(HDFS文件系统);
-o是分类结果的所有文本文件要生成的文件路径(本地文件系统)。
在本地文件系统中打开文件即可看到数据文件(部分):
查看文件全部内容,可以看到共有C-0、C-1、C-2、C-3、C-4、C-5六个类别,且每个类别下面含有属于该类的样本数据。上面所有步骤都成功运行即可说明mahout安装正确。
- Mahout安装及测试
- Mahout 安装配置及一个简单测试
- mahout 安装 配置 测试
- mahout安装测试
- mahout安装测试
- mahout的安装,配置及聚类测试
- Mahout-0.9安装与测试
- mahout的安装及实验
- mahout简介及安装配置
- Mahout学习之Mahout简介、安装、配置、程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Mahout学习之Mahout简介、安装、配置、入门程序测试
- Java垃圾回收机制
- JDK环境变量配置是正确的,但是Eclipse打开的时候jdk自带的包和函数都有问题
- android通过xmpp实现服务器到客户端的推送功能
- 健康的覆盖了地方经历过辉隆股份
- MyEclipse 6.5安装maven插件
- Mahout安装及测试
- 安装Maven后提示找不到JDK的错误 。The Maven Integration requires that Eclipse be running in a JDK
- 如何应对各种各样的同事
- hdu_1087——dp
- sizeof()和strlen()
- 八个处理好职场人际关系的必备技巧
- ASP.NET动态网站开发培训-31.ADO.NET技术(三、SqlDataReader类)
- 网络地址的分配及获取[转]
- 重构全面总结