Mahout安装与配置,及简单k-means实例

来源:互联网 发布:javascript var 编辑:程序博客网 时间:2024/05/21 15:00


1:下载二进制解压安装。

到http://labs.renren.com/apache-mirror/mahout/0.9下载,我选择下载二进制包,直接解压及可。

hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.9.tar.gz 

2:配置环境变量:在/etc/profile, 添加MAHOUT_HOME 环境变量

export MAHOUT_HOME=/home/xuhui/hadoop-2.2.0/mahout-distribution-0.9 

export PATH=$PATH:$HADOOP_HOME/bin:$MAHOUT_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib:$MAHOUT_HOME/lib:$JRE_HOME/lib:$CLASSPATH

注意:修改完环境变量一定要执行命令-source /etc/profile

3:启动hadoop

4:mahout --help    #检查Mahout是否安装完好,看是否列出了一些算法

5:mahout使用准备

a.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。

b.启动Hadoop:$HADOOP_HOME/bin/start-all.sh

c.创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)

hadoop@ubuntu:~/$ hadoop fs -mkdir testdata #hadoop@ubuntu:~/$ hadoop fs -put /home/xuhui/桌面/synthetic_control.data testdata

d.使用kmeans算法(这会运行几分钟左右)

hadoop@ubuntu:~/$ hadoop jar /home/xuhui/hadoop-2.2.0/mahout-distribution-0.9/mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

e.查看结果

hadoop fs -cat /user/xuhui/output/data/part-m-00000

可是我看到的全是乱码:

                                                       @:U�S��
@;��?@;�_o��@A�8}�H@=��҈�p!@?�33333聖⤉觜౾ⵀ益祲廼成《䤅竟契⹺ԇ፝᠃誓昑㐄衙@?G�)^�)@$Uf�A�@@��?0@+7X�e@=��7��4,@,$�/9@1����@�%@)SMj8@'���>B[*@0V�(��;@.^vȴ9X@8�/��@8��@��4@@\�!-w@8��G�{#@@��E��4@0�-V@?�8�YJ�&@,:�~�@9�u%F5@_�Ew�U����f!"���uԶ+�F6�"60<<@>l64�@0��zxl""@7�:�~�@AK��C�] @�)@9au�S@6lj~��#1@7U�R�$@0i�����0�
���%�                             @A�n��O�@=��:@.�?�@A�e���3@6�M����@?
     @A�b��}V
@;8r� Ĝ@AQ��oiD@@�@<$SMj!@6��YJ�声
硬∵
ⵀ翫ᄜ瑪眶正᠓琼橿契加娅ܓ布誠學匿ᐒ@;@��4m�)@6�hۋ�q @<٦�
                                                            ┛政紗瘫褂ᩀ昏儙万潭⬟唛西裃熱ᑻ伽訣⬟唛㴐誠珥窯飆╂⥱ᱠ當紮成藷凝)ЮV�u+@-�y��
                                                         ፀ斜ठб垰整芍祲䜂誓䤠枩ᨷ聖簘弆瘔祇俄倓⤪ ∀ 彊<㰀精瑪䨌ᕍὀ畳抜喉凄క䰘弇р澄〉‧删星半滞釿Հ㼁腸遍⠈請朿崖崖ـ䄘枩ᨶ挞成管հ濶ᡀヂཛྷ⡵䌝晴ばጩ⨰雲⴦

。。。。。。。。

这是怎么回事呢???求高手解答???

自己经过查看找才发现是由于mahout查看的方式变了,献给出正确方式在控制台查看:

mahout vectordump --input  /user/xuhui/output/data/part-m-00000

【注意】其实有如下三种方法可以查看


部分转自:http://blog.csdn.net/zzu09huixu/article/details/26442717


0 0
原创粉丝点击