mahout读取nutch抓取数据后的文件

来源：互联网发布：生命游戏c语言代码编辑：程序博客网时间：2024/05/16 04:07

1.mahout seqdumper在读取data文件时，报少ParseText包，把这个包导进来后，就可以正确读取了

2.mahout seq2sparse转向量是关键，可这一步报类型转换错误，seq2sparse中输入文件的key-value是(Text,Text)类型，所以需要先转要将(ParseText，Text)转成(Text，Text)

seq2sparse(文本信息向量化)后产生的结果文件如下所示：

df-count 目录：保存着文本的频率信息
tf-vectors 目录：保存着以 TF 作为权值的文本向量
tfidf-vectors 目录：保存着以 TFIDF 作为权值的文本向量
tokenized-documents 目录：保存着分词过后的文本信息
wordcount 目录：保存着全局的词汇出现的次数
dictionary.file-0 目录：保存着这些文本的词汇表
frequcency-file-0 目录 : 保存着词汇表对应的频率信息。

在信息检索领域，TF-IDF 是对文本信息建模的最常用的方法。

转成向量文件后，运行mahout kmeans命令，参数如下所示：

-i <input vectors directory> \
    -c <input clusters directory> \
    -o <output working directory> \
    -k <optional number of initial clusters to sample from input vectors> \
    -dm <DistanceMeasure> \
    -x <maximum number of iterations> \
    -cd <optional convergence delta. Default is 0.5> \
    -ow <overwrite output directory if present>
    -cl < points are to be clustered after iterations are completed>
    -xm <execution method: sequential or mapreduce>
注意： 当-k被指定的时候，-c目录下的所有聚类都将被重写，将从输入的数据向量中随机抽取-k个点作为初始聚类的中心。