mahout的数据处理--【根据文本文件创建vector】
来源:互联网 发布:java 客户端ip 编辑:程序博客网 时间:2024/06/05 12:05
mahout有根据目录下文本转换为Vectors的工具。
在创建vector前需要将文档转换为SequenceFile格式【hadoop存储文件的格式】。
SequenceFile是key--value形式的存储。
DocumentVectorizer 需要以unique类型为key,UTF-8格式的文本内容为value的数据格式。
您可能会发现有助于提卡(http://lucene.apache.org/tika)转换成二进制文件以文本。
mahout有一个漂亮的工具,它读取目录以及它的子目录以分块的方式为我们创建SequenceFile格式的数据。生成的文档的ID是<PREFIX><RELATIVE PATH FROM PARENT>/document.txt的形式。
运行的命令如下
$MAHOUT_HOME/bin/mahout seqdirectory \--input <PARENT DIR WHERE DOCS ARE LOCATED> --output <OUTPUT DIRECTORY> \<-c <CHARSET NAME OF THE INPUT DOCUMENTS> {UTF-8|cp1252|ascii...}> \<-chunk <MAX SIZE OF EACH CHUNK in Megabytes> 64> \<-prefix <PREFIX TO ADD TO THE DOCUMENT ID>>
将SequenceFile格式转换为vector格式的命令:
$MAHOUT_HOME/bin/mahout seq2sparse \-i <PATH TO THE SEQUENCEFILES> -o <OUTPUT DIRECTORY WHERE VECTORS AND DICTIONARY IS GENERATED> \<-wt <WEIGHTING METHOD USED> {tf|tfidf}> \<-chunk <MAX SIZE OF DICTIONARY CHUNK IN MB TO KEEP IN MEMORY> 100> \<-a <NAME OF THE LUCENE ANALYZER TO TOKENIZE THE DOCUMENT> org.apache.lucene.analysis.standard.StandardAnalyzer> \<--minSupport <MINIMUM SUPPORT> 2> \<--minDF <MINIMUM DOCUMENT FREQUENCY> 1> \<--maxDFPercent <MAX PERCENTAGE OF DOCS FOR DF. VALUE BETWEEN 0-100> 99> \<--norm <REFER TO L_2 NORM ABOVE>{INF|integer >= 0}>"<-seq <Create SequentialAccessVectors>{false|true required for running some algorithms(LDA,Lanczos)}>"
- minSupport是被认为作为一个特征出现最小的频率的词。 - minDF是在一个词出现的最小的文件数。
- maxDFPercent是在一个文档中,一个良好特征需要的最大的表达式的值(一个词在文档中的频数/总的文档数)。这有助于消除高频率的特征,如停用词。
- mahout的数据处理--【根据文本文件创建vector】
- 根据当天日期创建文本文件
- mahout vector 的产生方式
- 根据文本文件获得每行字符串的数组
- mahout lucene vector 错误
- mahout math中相关matrix和vector的用法DEMO
- 二维vector 的创建
- mahout 创建向量问题There are too many documents that do not have a term vector
- 创建文本文件
- 基于命令行的mahout软件0.8版本Canopy算法分析的数据处理流程
- Mahout-kmeans命令行文本文件聚类
- DOS创建以日期命名的文本文件
- vector的创建和使用
- vector创建的二维数组
- mahout的并行随机森林是怎样创建的
- VBA创建文本文件、读写文本文件
- VBA创建文本文件、读写文本文件
- 代码回顾:从一个文本文件中读取一行的内容,进行数据处理。
- 根据要素选择集,创建新图层
- 如何查看本地电脑上端口号的使用情况
- WebService 的创建,部署和使用
- FL2400--YAFFS2文件系统移植(三)
- 一个程序员最终归宿
- mahout的数据处理--【根据文本文件创建vector】
- OCP-1Z0-053-V12.02-380题
- 理解链路本地址与站点本地地址
- 快速掌握Hibernate中悲观锁和乐观锁
- 面向 DBA 的 Linux Shell 脚本简介
- 虚拟机中linux上网设置
- 3GPP LTE中的OFDMA和SC-FDMA性能比较
- TS 36.211中的时间单元Ts与符号长度
- phpexcel 总结、使用说明