Mahout 初步:搭建 测试样例

来源:互联网 发布:linux命令chm 编辑:程序博客网 时间:2024/06/05 13:21
一、安装配置
1、安装、配置JDK,Hadoop(略)
2、下载Mahout,http://mahout.apache.org/ ,非源码下载解压即可用(src为源码包,需要用maven编译)。
3、添加环境变量

修改/etc/profile ,添加


##根据实际情况修改

export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk

export HADOOP_HOME=/home/rongry/up实习/hadoop-1.0.2export HADOOP_CONF_DIR=/home/rongry/up实习/hadoop-1.0.2/confexport MAHOUT_HOME=/home/rongry/up实习/mahout-distribution-0.6##export HADOOP_HOME_WARN_SUPPRESS=1

通过$MAHOUT_HOME/bin/mahout 命令检测是否安装成功。

二、运行示例
1、启动 Hadoop (hadoop namenode -format;start-all.sh)
2、下载测试输入数据
3、把数据导入HDFS中

$bin/hadoop fs mkdir testdata

$bin/hadoop fs -put  synthetic_control.data testdata

4、运行示例
如:Kmeans聚类算法

$bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.6-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
他会启动多个job,输出output/大致如:
clusteredPoints/   clusters-2/        clusters-6/        data/
clusters-0/        clusters-3/        clusters-7/       
clusters-1/        clusters-4/        clusters-8/       
clusters-10-final/ clusters-5/        clusters-9/