程序博客网 > 传奇数据溢出

MMD_2c_FrequentItemsets

来源：互联网发布：传奇数据溢出编辑：程序博客网时间：2024/06/15 09:32

The market-basket model
- 主要术语
- 应用
- 规模
Association Rules
- 概述
- 思路
- 核心问题
- 计算模型
  - 数据形式
  - IO分析
  - 内存分析
- 算法
  - 专注于二项集
  - Naive Algorithm
  - 内存计数的两种形式
A-Prior Algorithm
- monotonicity of frequent
- Algo Intro
  - 概述
  - 图形
  - 延伸到k

The market-basket model

主要术语

items: things sold in supermarket
buskets:each of which is s small set of items
support:s, it means at least s baskets which contain sets of items(frequent items) in all baskets.
confidence: (i,j) –> (i,j,k).后者比上前者的概率，可以认为是前者发生后后者发生的条件概率。

应用

这里写图片描述

规模

WalMart有100,000种商品，有1000,000,000个篮子。
Web有billion级的单词，有billion级的页面。

baskets 不能包含太多的items，因为每个basket的时间与其包含的item是quadratic的

Association Rules

概述

这里写图片描述

思路

先找满足概率大于cs的频繁项集C1
在从C1中删减元素E，使得删减后的集合C2满足概率大于s的要求
那么，C2->E就是一项满足支持度s与可信度c的规则

这里写图片描述

核心问题

如果找到满足概率大于p的所有频繁项集呢？

A:对每一个bucket遍历所有可能的pair。

思路：
1. 需要的频繁项集不会太多，所以一般专注于最容易出现的二项集合。
2. 注意单个basket不能有太多的item，否则算法对于单个basket的迭代时间是quartic的，但是可以有很多个basket。

计算模型

数据形式

这里写图片描述

IO分析

这里写图片描述

内存分析

这里写图片描述

算法

专注于二项集

这里写图片描述

Naive Algorithm

这里写图片描述

内存计数的两种形式

(i,j,n)的计数方式
还有(n)的计数方式
这里写图片描述

A-Prior Algorithm

monotonicity of frequent

sets only can be frequent only if the subsets are frequent.

So, at first, we find frequent items in 1, then find pairs in 2 using the information before.

Algo Intro

概述

这里写图片描述

图形

这里写图片描述

延伸到k

这里写图片描述

0 0

传奇数据溢出

传奇数据溢出

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子 sim卡无服务怎么办 0pp0手机黑屏怎么办小米手机锁机怎么办手机光响黑屏怎么办手机待机中黑屏怎么办苹果手机好黑屏怎么办手机左键失灵怎么办小米左键失灵怎么办 vivox21充电变慢怎么办华为手机经常死机怎么办华为死机开不了怎么办手机振动坏了怎么办小米接听电话声音小怎么办小米4打电话黑屏怎么办电话拨出就黑屏怎么办手机卸载了拨号怎么办 oppp手机黑屏了怎么办三星a7黑屏了怎么办三星c7屏幕失灵怎么办荣耀v9发热严重怎么办华为荣耀v9发热怎么办华为荣耀v10发热怎么办华为荣耀v10发烫怎么办荣耀10发热严重怎么办华为p10太卡怎么办红米note2费电太快怎么办荣耀5a卡怎么办华为手机解锁错误怎么办荣耀6开机不了怎么办阿里不退货退款怎么办如意皇后烂根怎么办云储存空间不足怎么办百度云不够大怎么办小米云满了怎么办苹果云端满了怎么办信用卡拼音错了怎么办苹果忘记了id怎么办苹果无法创建id怎么办查看id闪退怎么办宝塔账号忘记了怎么办淘宝不想退款了怎么办