数据流挖掘的例子
来源:互联网 发布:匡恩网络 工控安全 编辑:程序博客网 时间:2024/04/24 21:15
数据流挖掘有两种模型,一种是保存流的某个概要信息,使之足够回答某种期望的查询,另一种是维持一个滑动窗口。几个例子:
- 数据抽样
比如过去一个月中典型用户所提交的重复 查询的数目。在用户规模较大的时候,将用户hash到不同的桶中,当空间不足时,则丢弃一部分桶。
- 流过滤
比如垃圾邮件的过滤,采用布隆过滤的方法,创建一个位数组,初始化所有值为0,将合法的邮件映射到位数组上,并设置值为1,用不同的hash函数检查邮件,如果有一个值为0,则拒绝
- 独立元素统计
比如统计web查询的数目,可以应用FM算法,将所有的査询hash到一个位串中,检查其末尾最大0的数目,设为R,则总数可以估计为2^R。
- 元素分布
一般用二阶矩估计,即每个元素出现数目的平方和来判断流元素分布的均匀性。可以采用AMS算法来近似计算二阶矩:在流中随机选取多个位置,并统计每个位置上的元素出现的次数,设为c,用n表示总的元素数目,则二阶矩为n*(2*c-1)的均值
- 计数
为了能够查询窗口内任意数目的元素中1的个数,采用DGIM算法,每出现元素1,则创建一个新的桶,并递归地尝试合并之前的桶,使得每个桶的大小为2的幂,且相同大小的桶最多为2个。每个桶只用保存最近的时间戳和桶的大小,有效避免了精确计数带来的空间开销。为了减小估计结果的误差,可以增加所允许出现的相同大小的桶的数目。
- 流行元素
比如最近流行的电影,可以定义一个衰减窗口,独立计算每一部电影流,对每张新的电影票,首先将所有的电影乘以一个衰减值,然后检查电影票对应的电影得分是否已存在,如果不存在,则创建新的电影流并设置得分为1,否则将该电影的得分加1。为了减少需要统计的数目,可以设置一个阀值,将低于阀值的得分丢掉。
0 0
- 数据流挖掘的例子
- 基于数据流的挖掘算法研究
- 基于数据流的挖掘算法研究
- 数据流挖掘_数据流抽样
- 数据挖掘_数据流挖掘
- 数据流挖掘(一)
- 数据流挖掘(二)
- 数据流挖掘简述
- 大数据:数据流挖掘
- 【转】数据流挖掘
- 数据挖掘的一个例子
- 数据流挖掘——窗口内的计数问题
- 数据流挖掘_Flajolet-Martin算法
- 数据挖掘的相关知识例子
- 【转贴】将文件转成数据流存入数据库的例子代码
- 数据挖掘之大数据流处理
- 开源实时大数据流挖掘---SAMOA
- 数据挖掘之大数据流处理
- sql常用查询语句
- Advantages of aluminium lighting poles
- UDP P2P NAT详解
- .NET在域里出现无权限访问asp
- 拓扑排序_基于邻接矩阵
- 数据流挖掘的例子
- .net 域用户 信息
- 在1×2×3×...×100的积中,从右边数第25个数字是几
- UVa 537 - Artificial Intelligence?解题报告
- 【LeetCode】Letter Combinations of a Phone Number
- C++标准库
- 根据url下载音乐
- 计算传递闭包
- 域名A记录(ANAME),MX记录,CNAME记录解释和设置实例