mahout在hadoop下安装与测试过程

来源:互联网 发布:淘宝怎么设置周末收货 编辑:程序博客网 时间:2024/04/30 16:31
1.下载mahout-0.5 网址:http://mirror.bjtu.edu.cn/apache/mahout/0.5/2.将压缩文件解压到/home/hadoop/tools/3.在/etc/profile和~/.bashrc中添加:  export HADOOP_HOME=/home/hadoop/hadoop-1.0.1 export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.0.1/conf以及export MAHOUT_HOME=/home/hadoop/tools/mahout-0.5source /etc/profilesource ~/.bashrc使之生效4.安装maven2:sudo apt-get instal maven25.在/mahout-0.5下执行命令:mvn  install6.在/mahout-0.5/bin下执行:./mahout --help 查看可以执行的算法测试kmeans算法7.开启hadoop8.下载数据集synthetic_control.data(http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data)。将数据集synthetic_control.data放到MAHOUT_HOME目录下面,(注意:这里一定要放到此目录下,否则会异常报错)9.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)$HADOOP_HOME/bin/hadoop fs -mkdir testdata$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata10.使用kmeans算法$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job