位图的实现以及应用

来源：互联网发布：淘宝网显示不正常编辑：程序博客网时间：2024/06/07 04:02

所谓位图就是用一个bit位来标记某个元素对应的value，而key即是这个元素。由于采用bit为单位来存储数据，因此在可以大大的节省存储空间。
32位机器上，一个整形，比如int a;在内存中占32bit，可以用对应的32个bit位来表示十进制的0-31个数，bitmap算法利用这种思想处理大量数据的排序与查询
优点：效率高，不许进行比较和移位，占用内存少，比如N=10000000;只需占用内存为N/8 = 1250000Bytes = 1.2M，如果采用int数组存储，则需要38M多
缺点：无法对存在重复的数据进行排序和查找
示例：申请一个int型的内存空间，则有4Byte，32bit。
输入 4：
这里写图片描述

class BitMap{public :BitMap(){}BitMap(size_t size){_table.resize((size>>5)+1);//(size/32)+1}void Set(size_t data){//将数据所在的比特位置1size_t byte = data >>5;size_t bit = data % 32;_table[byte] |= 1 << bit;}void ReSet(size_t data){//将数据所在比特位置0size_t byte = data >> 5;size_t bit = data % 5;_table[byte] &= ~(1 << bit);}bool Test(size_t data){//验证所查数据是否存在size_t byte = data >> 5;size_t bit = data % 32;//将其余位置置0，除bit位if ((1 << bit)&_table[byte])return true;return false;}private:vector<int> _table;};

应用：
1）给定100亿个整数，设计算法找到只出现一次的整数
将100亿个数分拆成1000份文件，再将每份文件里使用位图，并用两位bit表示数字出现的次数，00存出现0次的数，01存放出现1次的数，10存放出现多次的数，11舍弃，再将1000份中出现一次的数全部合并到一个文件里存放即可。

2）给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集
1、使用hash函数将第一个文件的所有整数映射到1000个文件中，每个文件有1000万个整数，大约40M内存，内存可以放下，把1000个文件记为 a1,a2,a3…..a1000,用同样的hash函数映射第二个文件到1000个文件中，这1000个文件记为b1,b2,b3……b1000，由于使用的是相同的hash函数，所以两个文件中一样的数字会被分配到文件下标一致的文件中，分别对a1和b1求交集，a2和b2求交集，ai和bi求交集，最后将结果汇总，即为两个文件的交集
2、桶分+组内bitmap。如果这里的整数是32bit的话，直接使用bitmap的方法就能实现了。所有整数共2^32种可能，每个数用2bit来表示，“00”表示两个文件均没出现，“10”表示文件1出现过，“01”表示文件2出现过，“11”表示两个文件均出现过，共需(2^32)*2/8=1GB内存，遍历两个文件中的所有整数，然后寻找bitmap中“11”对应的整数即是两个文件的交集

3）1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数
1、将100亿个整数分成100份，这样就只需要400M的内存，将每个数加载到哈希表中，就可以知道那个数据只出现了两次或者一次。
2、100亿个整数其实也都在是42亿9千万数字之中，利用位图的扩展，用2个位表示数字出现的次数，00表示没有出现过，01表示出现过一次，10表示出现过多次，这样内存需要1G。

4）给两个文件，分别有100亿个URL，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法。
精确算法：Hash分桶法
• 将两个文件中的query hash到N个小文件中，并标明query的来源
• 在各个小文件中找到重合的query
• 将找到的重合query汇总
近似算法：BloomFilter

5）给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？
　将100G文件分成1000份，将每个IP地址哈希映射到相应文件中，在每个文件中分别求出最高频的IP，然后合并在进行比较，找出次数最多的IP地址。

阅读全文

0 0