mahout vector 的产生方式
来源:互联网 发布:美的人工智能研究院 编辑:程序博客网 时间:2024/05/16 23:56
根据wiki
mahout 产生 vector 的方式有2种:
#1 from lucene index to vector
#2 from sequencefile to vector
结果发现第二种也是要借助lucene的分词,也有设置“MAX SIZE OF DICTIONARY CHUNK IN MB TO KEEP IN MEMORY”,这个也是lucene里面设置的参数。
阿哈,那这样看来,无论哪种vector的生成方式,其实原理都是一样的,用lucene的index文件做文章,只不过第二种方式少了lucene index -> vector 的方式。
mahout 产生 vector 的方式有2种:
#1 from lucene index to vector
- $MAHOUT_HOME/bin/mahout lucene.vector <PATH TO DIRECTORY CONTAINING LUCENE INDEX> \
- --output <PATH TO OUTPUT LOCATION> --field <NAME OF FIELD IN INDEX> --dictOut <PATH TO FILE TO OUTPUT THE DICTIONARY TO] \
- <--max <Number of vectors to output>> <--norm {INF|integer >= 0}> <--idField <Name of the idField in the Lucene index>>
#2 from sequencefile to vector
- $MAHOUT_HOME/bin/mahout seq2sparse \
- -i <PATH TO THE SEQUENCEFILES> -o <OUTPUT DIRECTORY WHERE VECTORS AND DICTIONARY IS GENERATED> \
- <-wt <WEIGHTING METHOD USED> {tf|tfidf}> \
- <-chunk <MAX SIZE OF DICTIONARY CHUNK IN MB TO KEEP IN MEMORY> 100> \
- <-a <NAME OF THE LUCENE ANALYZER TO TOKENIZE THE DOCUMENT> org.apache.lucene.analysis.standard.StandardAnalyzer> \
- <--minSupport <MINIMUM SUPPORT> 2> \
- <--minDF <MINIMUM DOCUMENT FREQUENCY> 1> \
- <--maxDFPercent <MAX PERCENTAGE OF DOCS FOR DF. VALUE BETWEEN 0-100> 99> \
- <--norm <REFER TO L_2 NORM ABOVE>{INF|integer >= 0}>"
- <-seq <Create SequentialAccessVectors>{false|true required for running some algorithms(LDA,Lanczos)}>"
结果发现第二种也是要借助lucene的分词,也有设置“MAX SIZE OF DICTIONARY CHUNK IN MB TO KEEP IN MEMORY”,这个也是lucene里面设置的参数。
阿哈,那这样看来,无论哪种vector的生成方式,其实原理都是一样的,用lucene的index文件做文章,只不过第二种方式少了lucene index -> vector 的方式。
0 0
- mahout vector 的产生方式
- mahout的数据处理--【根据文本文件创建vector】
- mahout lucene vector 错误
- session的产生方式
- Mahout中数据的存储方式
- mahout math中相关matrix和vector的用法DEMO
- 指针对象的产生方式
- hibernate-Session的产生方式
- java随机数产生的方式
- java产生随机数的方式
- vector的capacity增长方式
- vector常用的输出方式
- vector的capacity增长方式
- STL vector的三种清空方式
- C++ 的Vector增长方式
- Vector的自增长方式
- STL vector 的使用方式
- c++中使用vector可能会产生的内存管理问题
- Python 字符串和编码
- POJ 1423 BigNumber
- Android ScrollView中嵌套ExpandableListView,item不显示的问题
- poj3083 dfs+bfs搜索迷宫
- request_module: runaway loop modprobe binfmt-464c问题解决
- mahout vector 的产生方式
- L2-003. 月饼
- 浅谈PL/SQL部分基础
- Redis配置文件解析
- 自己录制数据集_Tango
- C语言编写《学生信息管理系统》之链表
- 编写一个程序,开启3个线程,这3个线程的ID分别为A、B、C,每个线程将自己的ID在屏幕上打印10遍,要求输出结果必须按ABC的顺序显示;如:ABCABC….依次递推。
- 招聘考题
- 视频的提取