Mahout Bayesian

来源:互联网 发布:python数据分析工具 编辑:程序博客网 时间:2024/06/06 02:42

在原始数据上传时,每一种类型的文件需要保存在一个文件夹下,Seqdirectory是以文件夹为Key,文件夹内的文件为Value的!!!

mahout seqdirectory -i ~/mahout-dirs/training-data -o ~/mahout-dirs/seq -ow -xm sequential
mahout seq2sparse -i ~/mahout-dirs/seq -o ~/mahout-dirs/vectors -lnorm -nv -wt tfidf -a org.apache.lucene.analysis.core.WhitespaceAnalyzer
mahout split -i ~/mahout-dirs/vectors/tfidf-vectors --trainingOutput ~/mahout-dirs/train-vectors --testOutput ~/mahout-dirs/test-vectors --randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential
mahout trainnb -i ~/mahout-dirs/train-vectors/ -el -o ~/mahout-dirs/model -li ~/mahout-dirs/labelindex -ow -c
mahout testnb -i ~/mahout-dirs/test-vectors/ -m ~/mahout-dirs/model -l ~/mahout-dirs/labelindex -ow -o ~/mahout-dirs/result -c
0 0
原创粉丝点击