FP-growth算法

来源:互联网 发布:淘宝助理如何创建宝贝 编辑:程序博客网 时间:2024/05/21 06:22

  • 总述
  • 算法步骤
    • 简单例子
      • Step1推导频繁项目
      • Step2构建FP-Tree

总述

  • 扫描数据库一次,将所有基本信息存储在称为FP-tree(Frequent Pattern Tree)的数据结构中
  • FP-Tree简洁并且常被用于直接生成大数据集
  • 一旦构建了一个FP-tree,它就使用递归的分治方法(recursive divide-and-conquer approach )来挖掘频繁项集

算法步骤

Step1.
推导排序好的频繁项目。对于频率相同的项目,按照字母顺序排列。
Step2.
根据上述数据构建FP-Tree
Step3.
根据上述FP-Tree,为每一个项目(或项目集)构建FP-条件树(FT-conditional tree)
Step4.
确定频繁模式

简单例子

TID Items 1 A,B 2 B,C,D 3 A,C,D,E 4 A,D,E 5 A,B,C

问题:找到所有支持度大等于2的频繁项目集

Step1(推导频繁项目)

Item Frequency A 4 B 3 C 3 D 3 E 2

最小支持度min_sup(Threshold)=2
排序后的列表与原表相同,不再重复

Step2(构建FP-Tree)

Item Head of node-link A 4 B 3 C 3 D 3 E 2

没写完,后面图片较多,以后再更新