mahout读取nutch抓取数据后的文件

来源:互联网 发布:生命游戏c语言代码 编辑:程序博客网 时间:2024/05/16 04:07

1.mahout seqdumper在读取data文件时,报少ParseText包,把这个包导进来后,就可以正确读取了

2.mahout seq2sparse转向量是关键,可这一步报类型转换错误,seq2sparse中输入文件的key-value是(Text,Text)类型,所以需要先转要将(ParseText,Text)转成(Text,Text)

 

seq2sparse(文本信息向量化)后产生的结果文件如下所示:

  • df-count 目录:保存着文本的频率信息
  • tf-vectors 目录:保存着以 TF 作为权值的文本向量
  • tfidf-vectors 目录:保存着以 TFIDF 作为权值的文本向量
  • tokenized-documents 目录:保存着分词过后的文本信息
  • wordcount 目录:保存着全局的词汇出现的次数
  • dictionary.file-0 目录:保存着这些文本的词汇表
  • frequcency-file-0 目录 : 保存着词汇表对应的频率信息。

在信息检索领域,TF-IDF 是对文本信息建模的最常用的方法。

转成向量文件后,运行mahout kmeans命令,参数如下所示:

  -i <input vectors directory> \
    -c <input clusters directory> \
    -o <output working directory> \
    -k <optional number of initial clusters to sample from input vectors> \
    -dm <DistanceMeasure> \
    -x <maximum number of iterations> \
    -cd <optional convergence delta. Default is 0.5> \
    -ow <overwrite output directory if present>
    -cl < points are to be clustered after iterations are completed>
    -xm <execution method: sequential or mapreduce>
注意: 当-k被指定的时候,-c目录下的所有聚类都将被重写,将从输入的数据向量中随机抽取-k个点作为初始聚类的中心。

原创粉丝点击