《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的关联规则
来源:互联网 发布:2017年淘宝会倒闭吗 编辑:程序博客网 时间:2024/04/27 15:56
项目集:项的集合,记为I。牛奶,面包,苹果,etc
事 务:事务T是I中的一组项目的集合,每个事务都有个一个TID作为标识符号。
项目集X的支持度
Sup(X)=Count(X)/|D|
关联规则X->Y的支持度
Sup(X->Y)=Count(X->Y)/|D|
关联规则X->Y的置信度
Conf(X->Y)=Count( X->Y)/Count(X)
步骤:
1 找出所有频繁项集
2 有频繁项集产生强关联规则
算法之Apriori算法
核心思想
频繁1-项集then关联规则then剪枝
then频繁2-项集then关联规则then剪枝
then频繁3-项集then关联规则then剪枝
……
重复此过程直到做不下去为止
算法实现 以后单独写出
改进措施 FP(Frequent Pattern Growth) 频繁模式增长
多层关联规则
基本思想:
自顶向下,在每个概念层找寻频繁项集。然后①在该层发掘关联规则②适当剪枝,向下进入更具体的一层。
可选方案:
1 使用一致的最小支持度
2使用递减的最小支持度
3 逐层独立
4 层交叉单项过滤
5 曾交叉k-项集过滤
多维关联规则
涉及两个或者多个维的关联规则
e.g. age(X, “IBM desktop computer”)^occupation(“drive”r)=>buys(X, ”laptop”)
多维关联规则注意
强关联规则不一定是有趣的。比如,
buys(X, “computer games”)=>buys(X, “videos”) [Support=40%, confidence= 66%]
推导出来的结果可能是满足支持度和置信度的,但是却不是有趣的。
因为可能实际上不购买computer games而去购买video的人有75%,而同时购买了computer games和videos的人只有66%,说明其实computer games和videos是负相关。
- 《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的关联规则
- 【数据挖掘概念与技术】学习笔记6-挖掘频繁模式、关联和相关性:基本概念和方法(编缉中)
- 《数据挖掘概念与技术》学习笔记第2章(2/10)数据仓库和数据挖掘的OLAP技术
- 《数据挖掘概念与技术》学习笔记第4章(4/10)数据挖掘原语、语言和系统结构
- 《数据挖掘概念与技术》学习笔记第3章(3/10)数据预处理
- 《数据挖掘概念与技术》学习笔记第1章(1/10)引言
- 《数据挖掘概念与技术》学习笔记第7章(7/10)分类和预测
- 《数据挖掘概念与技术》学习笔记第8章(8/10)聚类分析
- 《数据挖掘概念与技术》学习笔记第9-10章_复杂数据类型的挖掘+数据挖掘的应用和发展趋势(9/10)+(10/10)
- 《数据挖掘概念与技术》学习笔记
- 《数据挖掘概念与技术》学习笔记 .
- 《数据挖掘概念与技术》学习笔记
- 数据挖掘概念与技术-学习笔记
- 《数据挖掘概念与技术》学习笔记第5章(5/10)概念描述: 特征化与比较
- 数据挖掘学习笔记:关联规则3
- [数据挖掘]关联规则学习笔记
- 浅谈数据挖掘中的关联规则挖掘
- 浅谈数据挖掘中的关联规则挖掘
- new和DEBUG_NEW
- C#调用C++版本dll时的类型转换需要注意的问题小结
- 我来了 大家好啊
- BTE:移除FB50的“PARK”按钮
- 所有表。列 oracle
- 《数据挖掘概念与技术》学习笔记第6章(6/10)挖掘大型数据库中的关联规则
- QT开始学习之事件理解
- linux--系统操作命令
- 已解决:无法连接到WMI提供程序。你没有权限或者该服务器无法访问/cannot connect to WMI provider. You do not have permission or the……
- Android service 实现过程
- SQL SERVER 2005 数据库镜像 高可用性 (一)
- Android软件开发实例:用客户端写博客
- css:text-indent对img有影响,dl标签有border在ie中有bug
- PLC模拟量输入的软件滤波使用方法