数据流挖掘的例子

来源：互联网发布：匡恩网络工控安全编辑：程序博客网时间：2024/04/24 21:15

数据流挖掘有两种模型，一种是保存流的某个概要信息，使之足够回答某种期望的查询，另一种是维持一个滑动窗口。几个例子：

数据抽样

比如过去一个月中典型用户所提交的重复查询的数目。在用户规模较大的时候，将用户hash到不同的桶中，当空间不足时，则丢弃一部分桶。

流过滤

比如垃圾邮件的过滤，采用布隆过滤的方法，创建一个位数组，初始化所有值为0，将合法的邮件映射到位数组上，并设置值为1，用不同的hash函数检查邮件，如果有一个值为0，则拒绝

独立元素统计

比如统计web查询的数目，可以应用FM算法，将所有的査询hash到一个位串中，检查其末尾最大0的数目，设为R，则总数可以估计为2^R。

元素分布

一般用二阶矩估计，即每个元素出现数目的平方和来判断流元素分布的均匀性。可以采用AMS算法来近似计算二阶矩：在流中随机选取多个位置，并统计每个位置上的元素出现的次数，设为c，用n表示总的元素数目，则二阶矩为n*(2*c-1)的均值

计数

为了能够查询窗口内任意数目的元素中1的个数，采用DGIM算法，每出现元素1，则创建一个新的桶，并递归地尝试合并之前的桶，使得每个桶的大小为2的幂，且相同大小的桶最多为2个。每个桶只用保存最近的时间戳和桶的大小，有效避免了精确计数带来的空间开销。为了减小估计结果的误差，可以增加所允许出现的相同大小的桶的数目。

流行元素

比如最近流行的电影，可以定义一个衰减窗口，独立计算每一部电影流，对每张新的电影票，首先将所有的电影乘以一个衰减值，然后检查电影票对应的电影得分是否已存在，如果不存在，则创建新的电影流并设置得分为1，否则将该电影的得分加1。为了减少需要统计的数目，可以设置一个阀值，将低于阀值的得分丢掉。

0 0