位图的实现以及应用

来源:互联网 发布:淘宝网显示不正常 编辑:程序博客网 时间:2024/06/07 04:02

所谓位图就是用一个bit位来标记某个元素对应的value,而key即是这个元素。由于采用bit为单位来存储数据,因此在可以大大的节省存储空间。
32位机器上,一个整形,比如int a;在内存中占32bit,可以用对应的32个bit位来表示十进制的0-31个数,bitmap算法利用这种思想处理大量数据的排序与查询
优点:效率高,不许进行比较和移位,占用内存少,比如N=10000000;只需占用内存为N/8 = 1250000Bytes = 1.2M,如果采用int数组存储,则需要38M多
缺点:无法对存在重复的数据进行排序和查找
示例:申请一个int型的内存空间,则有4Byte,32bit。
输入 4:
这里写图片描述

class BitMap{public :BitMap(){}BitMap(size_t size){_table.resize((size>>5)+1);//(size/32)+1}void Set(size_t data){//将数据所在的比特位置1size_t byte = data >>5;size_t bit = data % 32;_table[byte] |= 1 << bit;}void ReSet(size_t data){//将数据所在比特位置0size_t byte = data >> 5;size_t bit = data % 5;_table[byte] &= ~(1 << bit);}bool Test(size_t data){//验证所查数据是否存在size_t byte = data >> 5;size_t bit = data % 32;//将其余位置置0,除bit位if ((1 << bit)&_table[byte])return true;return false;}private:vector<int> _table;};

应用:
1)给定100亿个整数,设计算法找到只出现一次的整数
将100亿个数分拆成1000份文件,再将每份文件里使用位图,并用两位bit表示数字出现的次数,00存出现0次的数,01存放出现1次的数,10存放出现多次的数,11舍弃,再将1000份中出现一次的数全部合并到一个文件里存放即可。

2)给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集
1、使用hash函数将第一个文件的所有整数映射到1000个文件中,每个文件有1000万个整数,大约40M内存, 内存可以放下,把1000个文件记为 a1,a2,a3…..a1000,用同样的hash函数映射第二个文件到1000个文件中,这1000个文件记为b1,b2,b3……b1000,由于使用的是相同的hash函数,所以两个文件中一样的数字会被分配到文件下标一致的文件中,分别对a1和b1求交集,a2和b2求交集,ai和bi求交集,最后将结果汇总,即为两个文件的交集
2、桶分+组内bitmap。如果这里的整数是32bit的话,直接使用bitmap的方法就能实现了。所有整数共2^32种可能,每个数用2bit来表示,“00”表示两个文件均没出现,“10”表示文件1出现过,“01”表示文件2出现过,“11”表示两个文件均出现过,共需(2^32)*2/8=1GB内存,遍历两个文件中的所有整数,然后寻找bitmap中“11”对应的整数即是两个文件的交集

3)1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数
1、将100亿个整数分成100份,这样就只需要400M的内存,将每个数加载到哈希表中,就可以知道那个数据只出现了两次或者一次。
2、100亿个整数其实也都在是42亿9千万数字之中,利用位图的扩展,用2个位表示数字出现的次数,00表示没有出现过,01表示出现过一次,10表示出现过多次,这样内存需要1G。

4)给两个文件,分别有100亿个URL,我们只有1G内存,如何找到两个文件交集?分别给出精确算法和近似算法。
精确算法:Hash分桶法
• 将两个文件中的query hash到N个小文件中,并标明query的来源
• 在各个小文件中找到重合的query
• 将找到的重合query汇总
近似算法:BloomFilter

5)给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?
 将100G文件分成1000份,将每个IP地址哈希映射到相应文件中,在每个文件中分别求出最高频的IP,然后合并在进行比较,找出次数最多的IP地址。

原创粉丝点击