Mahout---K-meas算法示例

来源:互联网 发布:电影院售票java编程 编辑:程序博客网 时间:2024/06/07 10:23

Step 1:准备样本集itemsimilarity.txt
http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

Step 2:
在node11节点上执行命令创建样本集

vi /opt/apps/mahout/apache-mahout-distribution-0.10.2/test/k-means.txt

这里写图片描述

Step 3:
分别在三个节点执行命令,启动zookeeper

zkServer.sh startzkServer.sh status

这里写图片描述
这里写图片描述
这里写图片描述

Step 4:
在node11节点上启动命令,启动HDFS和Yarn

start-all.sh

这里写图片描述

yarn-daemon.sh start resourcemanager

这里写图片描述

Step 5:
打开浏览器,输入URL进行查看HDFS
192.168.80.11:50070
192.168.80.12:50070
这里写图片描述
这里写图片描述
打开浏览器,输入URL进行查看Yarn
192.168.80.11:8088
192.168.80.12:8088
这里写图片描述
这里写图片描述

Step 6:
在node11节点上执行命令,建立样本集路径,并将样本集上传到HDFS中

hadoop fs -mkdir /user/root/testdatahadoop fs -put /opt/apps/mahout/apache-mahout-distribution-0.10.2/test/k-means.txt /user/root/testdatahadoop fs -ls /user/root/testdata

这里写图片描述

Step 7:
在node11节点上执行命令,启动Mahout,进行聚类

hadoop jar /opt/apps/mahout/apache-mahout-distribution-0.10.2/mahout-examples-0.10.2-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

Step 8:
查看结果,样本集被聚成了6类
这里写图片描述