K-Means聚类算法实现对路透社语料reuters聚类
来源:互联网 发布:stm32f103tbu6编程 编辑:程序博客网 时间:2024/06/11 13:46
准备工作:
Linux环境,此处我的是Centos
JDK , 此处我的是jdk1.7
Hadoop + Mahout
reuters语料(.txt或者.smg格式)
文本格式转换 :
http://blog.csdn.net/u012965373/article/details/50740070
开始:
1、先上传到hdfs
hadoop fs -put /usr/hadoop/mahout/reuTest-HD /usr/hadoop/reuTest-HD
运行命令如下:
mahout seqdirectory -c UTF-8 -i /usr/hadoop/reuTest-HD -o /usr/hadoop/reuTestHD-seqfiles
mahout seqdumper -s /usr/hadoop/reuTestHD-seqfiles/chunk-0 -o /usr/hadoop/mahout/reuTestHD-seqfiles.txt
生成的内容在reuTestHD-seqfiles.txt中
mahout seq2sparse -i /usr/hadoop/reuTestHD-seqfiles -o /usr/hadoop/reuTestHD-vectors -ow
在HDFS中生成reuters-vectors目录,该目录下文件结构如下:
- df-count 目录:保存着文本的频率信息
- tf-vectors 目录:保存着以 TF 作为权值的文本向量
- tfidf-vectors 目录:保存着以 TFIDF 作为权值的文本向量
- tokenized-documents 目录:保存着分词过后的文本信息
- wordcount 目录:保存着全局的词汇出现的次数
- dictionary.file-0 目录:保存着这些文本的词汇表
- frequcency-file-0 目录 : 保存着词汇表对应的频率信息
命令如下:
mahout canopy -i /usr/hadoop/reuTestHD-vectors/tfidf-vectors -o /usr/hadoop/reuTestHD-canopy-centroids -dm org.apache.mahout.common.distance.EuclideanDistanceMeasure -t1 1500 -t2 2000
在HDFS中生成reuters-canopy-centroids目录
命令如下:
mahout kmeans -i /usr/hadoop/reuTestHD-vectors/tfidf-vectors -o /usr/hadoop/reuTestHD-kmeans-clusters -dm org.apache.mahout.common.distance.TanimotoDistanceMeasure -c /usr/hadoop/reuTestHD-canopy-centroids/clusters-0-final -cd 0.1 -ow -x 20 -cl
在HDFS中生成 /usr/hadoop/reuTestHD-kmeans-clusters目录
命令如下:
Linux环境,此处我的是Centos
JDK , 此处我的是jdk1.7
Hadoop + Mahout
reuters语料(.txt或者.smg格式)
文本格式转换 :
http://blog.csdn.net/u012965373/article/details/50740070
开始:
1、先上传到hdfs
hadoop fs -put /usr/hadoop/mahout/reuTest-HD /usr/hadoop/reuTest-HD
运行命令如下:
mahout seqdirectory -c UTF-8 -i /usr/hadoop/reuTest-HD -o /usr/hadoop/reuTestHD-seqfiles
mahout seqdumper -s /usr/hadoop/reuTestHD-seqfiles/chunk-0 -o /usr/hadoop/mahout/reuTestHD-seqfiles.txt
生成的内容在reuTestHD-seqfiles.txt中
mahout seq2sparse -i /usr/hadoop/reuTestHD-seqfiles -o /usr/hadoop/reuTestHD-vectors -ow
在HDFS中生成reuters-vectors目录,该目录下文件结构如下:
- df-count 目录:保存着文本的频率信息
- tf-vectors 目录:保存着以 TF 作为权值的文本向量
- tfidf-vectors 目录:保存着以 TFIDF 作为权值的文本向量
- tokenized-documents 目录:保存着分词过后的文本信息
- wordcount 目录:保存着全局的词汇出现的次数
- dictionary.file-0 目录:保存着这些文本的词汇表
- frequcency-file-0 目录 : 保存着词汇表对应的频率信息
命令如下:
mahout canopy -i /usr/hadoop/reuTestHD-vectors/tfidf-vectors -o /usr/hadoop/reuTestHD-canopy-centroids -dm org.apache.mahout.common.distance.EuclideanDistanceMeasure -t1 1500 -t2 2000
在HDFS中生成reuters-canopy-centroids目录
命令如下:
mahout kmeans -i /usr/hadoop/reuTestHD-vectors/tfidf-vectors -o /usr/hadoop/reuTestHD-kmeans-clusters -dm org.apache.mahout.common.distance.TanimotoDistanceMeasure -c /usr/hadoop/reuTestHD-canopy-centroids/clusters-0-final -cd 0.1 -ow -x 20 -cl
在HDFS中生成 /usr/hadoop/reuTestHD-kmeans-clusters目录
命令如下:
mahout clusterdump -dt sequencefile -d /usr/hadoop/reuTestHD-vectors/dictionary.file-* -s /usr/hadoop/reuTestHD-kmeans-clusters/clusters-1-final -b 10 -n 10 -o /usr/hadoop/结果.txt
0 0
- K-Means聚类算法实现对路透社语料reuters聚类
- Matlab实现k-means聚类算法
- K-Means聚类算法 --Matlab实现
- 【JAVA实现】K-means聚类算法
- 聚类算法-K-means-C++实现
- K-Means聚类算法java实现
- Python实现K-Means聚类算法
- K-Means聚类算法的实现
- k-means聚类算法python实现
- 基于PCL库对三维空间点的K-Means聚类算法的实现
- 用java实现K-means算法,k-means聚类算法原理
- Python :k-means聚类算法对数据进行分类
- K-means算法实现
- K-means算法实现
- 聚类算法——python实现k-means算法
- k-means聚类算法
- k-means聚类算法
- K-means聚类算法
- QT21 Display selected row from QTableView to QlineEdit
- [hdu5654 xiaoxin and his watermelon candy]区间内不同数的个数
- Client:TSocketConnection和Server:Scktsrvr关系----压缩数据传输
- 历代C++标准整理
- QT22 database values in QLineEdit or textbox if select QListView
- K-Means聚类算法实现对路透社语料reuters聚类
- QT23 how to open a website in a default user browser
- Java连接数据库大全
- Jvm垃圾回收算法
- QT24&25 how to run exe file by clicking a button in Qt
- invalid request block size: 21573 (max 4096)...skip错误原因
- QT26 show time and date
- jQuery选择器(Sizzle)的拆分
- QT27 how to read text file and display file to a textbrowser or textedit