Spark mlib FPGrowth&nb…
来源:互联网 发布:js event button 编辑:程序博客网 时间:2024/06/06 04:38
MLlib’s FP-growth implementation takes the following(hyper-)parameters:
minSupport
: the minimum support for an itemset to beidentified as frequent. For example, if an item appears 3 out of 5transactions, it has a support of 3/5=0.6.numPartitions
: the number of partitions used to distributethe work.
spark mlib 的官方FPGrowth运行出错。
这是序列输出可能引起的错误,spark采用的kryo序列化方式比JavaSerializer方式更快,但是在1.4版本的spark上会产生错误,故解决方案是,要么在spark-defaults.conf中替换,要么只运行中直接替换,
所以加上下面蓝色这句好就好了
val conf = newSparkConf().setAppName("SimpleFPGrowth").set("spark.serializer","org.apache.spark.serializer.JavaSerializer")
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.fpm._
import org.apache.spark.rdd.RDD
// $example off$
object FPGrowth {
}
// scalastyle:on println}
//sample_fpgrowth.txt
//r z h k p
//z y x w v u t s
//s x o n r
//x z y m t s q e
//z
//x z y r q t p
数据集中每一行就是一项,以z为例,z在5项中都出现了,,所以支持度为5/6, itemset.freq打印了频度5。
model.generateAssociationRules(minConfidence).collect().foreach
这是生成规则,如果数据集很大的话,推荐不要collect(). ,这样可以提升运行速度。
rule.antecedent 前提
rule.consequent结果
0 0
- Spark mlib FPGrowth&nb…
- Lesson 39 Am I&nb…
- What do I need&nb…
- What do I need&nb…
- ACM: LA 3266 -&nb…
- Troubleshooting ORA-1555&nb…
- 【转】Attachment support&nb…
- 【原】Android DHCP&nb…
- 【原】Android DHCP&nb…
- AccessWebElements(jsp by&nb…
- [js]Uncaught RangeError:&nb…
- 【转载】Spring RMI&nb…
- 【原创】 MySQLdb.cursors&nb…
- csapeditorctrl getobject&nb…
- StringUtils中 isNotEmpty&nb…
- ORA-00845: MEMORY_TARGET&nb…
- ORA-1652: Unable To&nb…
- SecureFile LOBs and&nb…
- 社交网络分析:网络中心性
- Spark map 处理表格数据
- 66.Binary Tree Preorder Traversal-二叉树的前序遍历(容易题)
- Spark Stream 教程
- Spark SQL重点
- Spark mlib FPGrowth&nb…
- Spark的最短路径详解
- 读书笔记之三十二----《信用…
- 评分卡模型剖析之一(woe、I…
- 数据挖掘技术(四)——聚类
- scikitlearn/theano多分类问题详解
- Weka 分类 注意点
- 深度学习keras程序失败的解决办法
- Java回调函数