mahout SparseVectorsFromSequenceFiles详解(1)
来源:互联网 发布:网络教育什么专业好 编辑:程序博客网 时间:2024/05/16 19:46
mahout预处理数据的第一步是将文档转化为可以被hadoop处理的sequencefile,第二步是从sequencefile转化为Vector,称为Vectorizer过程,这里剖析的SparseVectorsFromSequenceFiles是其中一个实现。
SparseVectorsFromSequenceFiles.java位置在mahout-distribution-0.6/core/src/main/java/org/apache/mahout/vectorizer
初始化过程
1、创建builder:
DefaultOptionBuilder
ArgumentBuilder
GroupBuilder
2、创建Option:
inputDirOpt
outputDirOpt
minSupportOpt
analyzerNameOpt
chunkSizeOpt
weightOpt
minDFOpt
maxDFPercentOpt
maxDFSigmaOpt
minLLROpt
numReduceTasksOpt
powerOpt
logNormalizeOpt
maxNGramSizeOpt
sequentialAccessVectorOpt
namedVectorOpt
overwriteOutput
helpOpt
3、创建Group
4、创建parser,参数是group
Parser parser = new Parser();
parser.setGroup(group);
parser.setHelpOption(helpOpt);
5、获得CommandLine
CommandLine cmdLine = parser.parse(args);
6、通过CommandLine获得各参数值,例如:
int minDf = 1;
if (cmdLine.hasOption(minDFOpt)) {
minDf = Integer.parseInt(cmdLine.getValue(minDFOpt).toString());
}
- mahout SparseVectorsFromSequenceFiles详解(1)
- mahout SparseVectorsFromSequenceFiles详解(2)
- mahout SparseVectorsFromSequenceFiles详解(3)
- mahout SparseVectorsFromSequenceFiles详解(4)
- mahout SparseVectorsFromSequenceFiles详解(5)
- mahout SparseVectorsFromSequenceFiles详解(6)
- mahout SparseVectorsFromSequenceFiles详解(7)
- mahout SparseVectorsFromSequenceFiles详解(8)
- mahout 详解
- Mahout学习(1)
- Mahout推荐算法API详解(实用)
- Mahout 中文分类 (1)
- mahout-example中kmeans详解(1)宏观上了解kmeans源码
- Apache Mahout入门详解
- Mahout关联规则源码分析(1)
- Mahout决策树算法源码分析(1)
- Mahout贝叶斯算法源码分析(1)
- mahout学习(1)userCF+itemCF
- repo准备和代码下载
- linux下IPTABLES配置详解
- iOS电话面试题库
- PKU 3233 经典矩阵乘法
- 数据结构 + BFS uva 11234 - Expressions
- mahout SparseVectorsFromSequenceFiles详解(1)
- Android敏捷开发指南(转)
- Oracle自动分区
- XlFileFormat Enumeration (Excel)
- C#父子窗体
- 手机开发面试经历
- pointer和reference的比较
- cocos2d-x Demo-实现画笔功能
- 转全角半角(C#,VB.NET)