程序博客网 > 数据库数据库系统

数据流基本问题--独立元素计数（二）

来源：互联网发布：数据库数据库系统编辑：程序博客网时间：2024/05/16 23:57

该篇文章中问题的定义和上一篇文章《数据流基本问题--独立元素计数（一）》中一样。不过该篇文章里能给出 $(\epsilon ,\delta )$ -近似的算法。

一、算法的基本思想

该篇文章中的算法是上一篇文章中算法的改进。这里不再记录流中元素zeros(h(j))的最大值，而是将满足所有 $zeros(h(j))\geq z$ 的元素放入到B中。如果流中有d个独立元素，那么平均会有 $\frac{d}{2^z}$ 个元素满足 $zeros(h(j))\geq z$ 。所以 $|B|2^z$ 应该是d的一个比较好的估计（|B|指的是B中元素总数目）。

二、算法的具体过程

算法的伪代码如下图所示。将一个元素j添加到B中时，是以g(j)和zeros(h(j))组成一对加进去的。没有直接存元素而是存元素哈希后的结果是为了节省空间的考虑。而且也存放zeros(h(j))是为了当B需要删除元素时需要用到它。

三、算法的评估

设 $Y_t$ 为算法结束后|B|的大小，t为算法结束后z的取值。则对d的估计 $\hat{d}$ 为：

$\hat{d}=Y_t2^t$

可以证明， $Y_r$ 的期望和方差如下：

$E[Y_r]=\frac{d}{2^r}$

$Var[Y_r]\leq \frac{d}{2^r}$

如果t=0，说明算法运行过程中并没有对z进行加一的操作。这时候计算的结果也就是|B|为d的精确解。

如果t>1，假设Fail事件为 $\hat{d}$ 不是d的 $(\epsilon ,\delta )$ -近似。即：

$Fail\Leftrightarrow |Y_t2^t-d|\geq \epsilon d \Leftrightarrow |Y_t-\frac{d}{2^t}|\geq \frac{\epsilon d}{2^t}$

可以证明

$Pr[Fail]\leq \frac{1}{6}$

假设哈希函数g(i)可能有冲突造成的影响，上述算法结果是对d的 $(\epsilon ,\frac{1}{3})$ -近似。

通过使用median trick，我们可以将算法提高到对d的 $(\epsilon ,\delta )$ 近似（对所有 $0< \delta \leq \frac{1}{3}$ ）。

3 0

数据库数据库系统

数据库数据库系统

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子燃油游览观光车游览电动观光车景区电动游览车游览车的价格电动观光车游览车电动观光车游览车价格观光游览车价格四轮电动游览车观光游览车广州白云山游览车电瓶游览观光车二手电动游览车游览车价格电动景区游览车电动观光游览车价格游览车蝶儿猪哥雄游览电动观光车厂家电动游览观光车价格电动观光游览车报价景点游览车二手观光车游览车电动景区观光游览车知名游资席位杭州上塘路营业部是哪个游资游走肾肾的主要功能越南暗黑游越南5日游越南游注意事项越南七日游多少钱越南旅游五日游越南4天自助游到越南自由行攻略外滩游轮中国游轮哪个游轮好上海游轮旅行上海邮轮码头上海出发邮轮旅游环球邮轮旅游价格