数据流基本问题--独立元素计数（一）

来源：互联网发布：ar制作软件编辑：程序博客网时间：2024/04/30 01:33

下面我们讨论如何计算独立元素数目。

一、问题定义

如果一个数据流 $\sigma = \left \{ a_1,a_2\cdots,a_m \right \}$ ，其中m为数据流的大小， $a_i\in\left \{ 1,2\cdots,n \right \}$ 。我们可以定义每个元素

出现的次数为 $\mathbf{f}=\left ( f_1,f_2\cdots,f_n \right )$ ，其中 $f_i$ 为第i个元素出现的次数。假设 $d=\left | \left \{ j:f_j>0 \right \} \right |$ ，容易得知d为在

数据流中出现的不同元素数目，也就是独立元素数目。

对于这个问题，可以在内存中使用高效的搜索结构（比如平衡BST等）保留当前已经出现的元素。但是如果元素数目实在太

多以致搜索结构无法访问内存时，我们可以使用更多的机器或者将数据结构的一部分放入到外存中。

上述做法是计算流中独立元素的精确解。如果我们仅仅需要对独立元素数目进行估计，则方法要简单的多，空间消耗也很少

（一般确定性算法空间复杂度需要 $\Omega(n)$ ）。

二、具体算法

通过将流中元素哈希到一个足够长的位串，就可以实现独立元素数目的估计。这里要求哈希函数属于2-universal hash family。要求位串必须要足够长，以致哈希函数的可能结果数目要远大于流中独立元素个数。如果在流中看到的不同元素越多，我们看到的不同哈希值也就越多。对于一个元素哈希后的结果p，我们定义zero(p)为p的二进制表示尾部中连续0的个数。也就是如下定义：

$zero(p)=max\left \{ i:2^{i} \; divides \; p \right \}$

如果我们记录流中所有元素zero( $a_i$ )的最大值设为z，从直观上理解，如果流中独立元素数目越多，那么z的取值就会越大。算法的基本思想就是如果我们从d个不同的元素中希望有一个使得 $zero \left (\left h(j \right ) \right )\geq log \,d$ 。举例来说，如果流中有8个独立元素，我们希望其中有一个满足哈希后的结果尾部有3个0。所以zero(h(j))的最大值（也就是下面算法中的z）理论上应该是log d的一个较好的近似。

基于上述想法，算法的步骤如下：

int get_distinct_elements_num(vector<int>&nums) {z=0;//h(i)为哈希函数//zero(i)是求i二进制表示尾部中连续0的数目for(int i=0;i<nums.size();i++){if(zero(h(nums[j]))>z){z=zero(h(nums[j]));}}return 2<<(z+1.0/2);}

三、算法的评估

假设 $X_{r,j}$ 为一个取值0或1的量，表示 $zero \left (\left h(j \right ) \right )\geq r$ ， $Y_r=\sum_{j:f_j>0}X_{r,j}$ ，t表示第二节中算法执行结束后z的取值。很明显，我们有：

$Y_r> 0\Leftrightarrow t\geq r$ 或者 $Y_r= 0\Leftrightarrow t \leq r-1$

因为h(j)是取值是随机的，所以：

$E\left [ X_{r,j} \right ]=Pr\left [ zeros(h(j))\geqslant r \right ]=Pr\left [ z^r\;divides \;h(j) \right ]=\frac{1}{2^r}$

由于 $X_{r,j}$ 之间独立，我们得到 $Y_r$ 的期望和方差：

$E\left [ Y_r \right ]=\sum_{j:f_j>0}E\left [ X_{r,j} \right ]=\frac{d}{2^r}$

$Var\left [ Y_r \right ]=\sum_{j:f_j>0}Var\left [ X_{r,j} \right ] \leq \sum_{j:f_j>0}E\left [ X_{r,j}^{2} \right ] =\sum_{j:f_j>0}E\left [ X_{r,j} \right ] = \frac{d}{2^r}$ (Var(x)表示x的方差，该步骤利用了 $Var[x]=E[x^2]-(E[x])^2$ )

分别由马尔科夫不等式和切比雪夫不等式可得：

$Pr\left [ Y_r>0 \right ]=Pr\left [ Y_r\geq 1 \right ] \leq \frac{E\left [ Y_r \right ]}{1} = \frac{d}{2^r}$

$Pr\left [ Y_r=0 \right ]=Pr\left [ |Y_r-E[Y_r]]|\geq \frac{d}{2^r} \right ]\leq \frac{Var[Y_r]}{(\frac{d}{2^r})^2}\leq \frac{2^r}{d}$

设 $\hat{d}$ 是算法对d的估计，有 $\hat{d}=2^{t+\frac{1}{2}}$ 。设a是满足 $2^{a+\frac{1}{2}}\geq 3d$ 的整数，b是满足 $2^{b+\frac{1}{2}}\leq \frac{d}{3}$ 的最大整数。则有

$Pr\left [ \hat{d}\geq 3d \right ] =Pr\left [ t\geq a \right ] =Pr\left [ Y_a > 0 \right ] \leq \frac{d}{2^a}\leq \frac{\sqrt{2}}{3}$

$Pr\left [ \hat{d}\leq \frac{d}{3} \right ] =Pr\left [ t\leq b \right ] =Pr\left [ Y_{b+1} = 0 \right ] \leq \frac{2^{b+1}}{d} \leq \frac{\sqrt{2}}{3}$

通过上面两个式子，可以发现， $\hat{d}$ 只是d的同阶的估计，并不是一个任意好的估计。另外， $\hat{d}$ 过大或者过小的概率并不是很大，只有 $\frac{\sqrt{2}}{3}\approx 47 \%$ 。

四、Median trick

所谓median trick就是我们运行这个算法k次，取k次结果的中位数即可。通过切尔诺夫界可以证明，median trick可以使 $\hat{d}_{median}$ 过大或者过小的概率降低到足够低。直观上理解，取中位数的话就不会受到偶然极大值或者极小值的影响，从而是一个更好的估计。在后续的博客也会多次提及median trick。

五、附相关不等式。

1.马尔科夫不等式

$Pr\left [ |x|\geq a \right ]\leq \frac{E\left [ |x| \right ]}{a}$

2.切比雪夫不等式

$Pr\left [ |x-E\left [ x \right ]| \right ]\leq \frac{D[x]}{\epsilon ^2}$

2 0