Mahout0.9—Hadoop2.20—FPG关联规则算法

来源:互联网 发布:金庸 古龙 知乎 编辑:程序博客网 时间:2024/05/18 03:37

1. Mahout0.9—Hadoop2.20—FPG关联规则算法

1.1. FPG函数

目前Mahout0.9 无fpg函数,0.9之前版本有,但是在0.9中可以找到fpg的jar包;
mahout org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver 等价于 fpg;
1) fpg参数(mahout org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver)
-- minSupport,最小支持度,默认3
-- maxHeapSize,最大项集,默认50
-- numGroups,分组数量
-- splitterPattern,数据分割符,如:" \"[ ,\\t]*[,|\\t][ ,\\t]*\" ", "[ ,\t]*[,|\t][ ,\t]*"
-- numTreeCacheEntries,fpg树数量,Values: [5-10]", 默认"5"
-- method,sequential|mapreduce,并行或者串行计算;
-- encoding,编码,Default value: UTF-8", "UTF-8"
-- useFPG2,"2", "Use an alternate FPG implementation"

1.2 FPG挖掘

#上传数据

sudo hadoop fs  -put  ./ retail.dat /user/input

# 1、FPG命令
sudo mahout fpg -i /user/input/retail.dat -o /user/output  -method mapreduce -s 200 -regex '[ ]' –k 20 
# 1、FPG命令(Mahout0.9)
sudo mahout mahout org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver -i /user/input2/retail.dat -o /user/output  -method mapreduce -s 200 -regex '[ ]' –k 20 


# 2、输出结果文件查看:

sudo mahout seqdumper -i /user/output/fpgrowth/part-r-00000


转载请注明出处:

http://blog.csdn.net/sunbow0/article/details/41962141


0 0