利用mahout自带的fpgrowth程序以及自己的原始数据挖掘频繁模式
来源:互联网 发布:支持windows的手机 编辑:程序博客网 时间:2024/06/06 12:37
在上一篇中,我利用mahout的fpgrowth来尝试挖掘自己创建的原始数据时结果为乱码。
原因:没有指定原始数据中的分隔符
原始数据如下:
1,5,2,3
5,7,3,4
5,2,3
1,5,2,7,3,4
1,2,4
5,2,4
1,2,3
1,5,2,6,3
1,5,6,3
运行如下命令:
hadoop fs -put /home/mahout_test/fp.txt /test/
hadoop jar /opt/mahout-distribution-0.9/mahout-examples-0.9-job.jar org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver -i /fp.txt -o /test/out -s 1 -method mapreduce -regex '[\,]'
mahout seqdumper -i /test/out/frequentpatterns/part-r-00000 -o /home/mahout_test/result
vi /home/mahout_test/result
即可看到结果:
Input Path: /out5/frequentpatterns/part-r-00000
Key class: class org.apache.hadoop.io.Text Value Class: class org.apache.mahout.fpm.pfpgrowth.convertors.string.TopKStringPatterns
Key: 1: Value: ([1],6), ([3, 1],5), ([2, 1],5), ([3, 5, 1],4), ([2, 3, 1],4), ([2, 3, 5, 1],3), ([3, 5, 1, 6],2), ([2, 1, 4],2)
Key: 2: Value: ([2],7), ([2, 5],5), ([2, 3],5), ([2, 1],5), ([2, 3, 5],4), ([2, 3, 1],4), ([2, 3, 5, 1],3), ([2, 4],3), ([2, 5, 4],2), ([2, 1, 4],2)
Key: 3: Value: ([3],7), ([3, 5],6), ([3, 1],5), ([2, 3],5), ([3, 5, 1],4), ([2, 3, 5],4), ([2, 3, 1],4), ([2, 3, 5, 1],3), ([3, 5, 4, 7],2), ([3, 5, 1, 6],2), ([3, 5, 4],2)
Key: 4: Value: ([4],4), ([5, 4],3), ([2, 4],3), ([3, 5, 4, 7],2), ([3, 5, 4],2), ([2, 5, 4],2), ([2, 1, 4],2)
Key: 5: Value: ([5],7), ([3, 5],6), ([2, 5],5), ([3, 5, 1],4), ([2, 3, 5],4), ([2, 3, 5, 1],3), ([5, 4],3), ([3, 5, 4, 7],2), ([3, 5, 1, 6],2), ([3, 5, 4],2), ([2, 5, 4],2)
Key: 6: Value: ([3, 5, 1, 6],2)
Key: 7: Value: ([3, 5, 4, 7],2)
Count: 7
- 利用mahout自带的fpgrowth程序以及自己的原始数据挖掘频繁模式
- 利用mahout自带的fpgrowth算法挖掘频繁模式
- Spark的模式挖掘—FPGrowth算法
- 频繁模式挖掘的模式评估方法
- 【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用
- mahout自带例子的常用语法
- mahout自带的例子 -------------------------分类
- hadoop mahout 运行自带的例子
- 频繁项集挖掘算法之FPGrowth
- 频繁相集挖掘算法之FPGrowth
- 频繁项集挖掘算法之FPGrowth
- 频繁项集挖掘算法之FPGrowth
- 频繁项集挖掘算法Apriori FPGrowth
- 频繁项集挖掘算法之FPGrowth
- mahout探索之旅---频繁模式挖掘算法与理解
- mahout FpGrowth
- 利用QT自带的windeployqt打包发布程序
- 利用OpenCV自带的traincascade程序训练分类器
- Oracle中通过Job实现定时同步两个数据表之间的数据
- struts2+Spring + hibernate 中对action的单元测试环境搭建
- 用 Lotus Domino Designer 8.5.1 创建 Java 代理
- Oralce深究
- java treeMap 使用
- 利用mahout自带的fpgrowth程序以及自己的原始数据挖掘频繁模式
- UVA10491 - Cows and Cars(概率)
- Project : error PRJ0019: 工具从"正在执行生成后事件..."
- Android 4.4 SystemUi分析
- 如何发挥网站内链的作用
- hibernate指定属性不映射到数据库里
- c#中Convert.ChangeType的意义
- 13-C语言总结
- MyEclipse不编译