Bitmap在海量无重复整数排序时的应用
来源:互联网 发布:淘宝图片水印大小 编辑:程序博客网 时间:2024/06/06 03:29
前言
bitmap
bitmap就是用一个bit位来标记某个元素对应的value的存在,而key即是这个元素。由于采用bit为单位来存储数据,因此在可以大大的节省空间开销
这里的海量数据以整数为例,整数为4字节,也就是32bit,假设数据量N(N为最大值)=100000000,由于bitmap是用一个bit来标识元素的存在,那么我们只需⌈N/8⌉个字节就可以把数据表示出来也就是12500000字节,约为13MB,比原先的N*8的存储方式少到不知道哪里去了。
对于bitmap中存储的数据进行排序:其实在存储的过程中已经完成了排序
正文
(为了方便,下文将存储bitmap的整数成为bitmap整数)
海量数据的存储
假设该数字为num,则它所对应的bit索引为:第 ⌊num/32⌋ 个bitmap整数中的第 num%32 位
排序
通过每个数字的映射,我们可以得到所需要的bitmap整数个数,我们只需对每个bitmap整数的每一位遍历,当某位为1时,就证明该位所对应的整数存在与原始数据中(其实在存储的过程中,我们通过不断插入数字标识,已经完成了排序),当我们从最低位向最高位遍历时,通过整数与bit索引的逆过程就可以的到原整数,将其一个个输出,我们就能得到原始数据的从小到大排序后的结果,具体实现可以看伪代码
//排序及还原伪代码//max为bitmap整数个数for(int i=0;i<max;i++){ for(int j=0;j<32;j++){ if(1&bitmap[i]>>j){ print i*32+j; } }}
注意
① 限于每位只有0,1两个状态,我们无法对有重复数字的海量整数如此排序
② 此种方法适用于数字之间差值比较小的情况(无限趋近于连续数据),若数字之间差值比较大(举个极端的例子:每个bitmap整数中只有一个位为1,其余全为0的情况)时,博主暂时没有想到可行解法……
阅读全文
1 0
- Bitmap在海量无重复整数排序时的应用
- bitmap对海量无重复的整数排序
- 运用bitmap解决一道海量数据处理面试题:在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。
- [海量数据处理]用2-Bitmap找出数组中不重复的整数
- 无符号整数的bitmap
- 使用bitmap对一个大小在一定范围内的无重复数据排序(比如电话号码)|在一个大小在一定范围内的数据集中查找重复数据
- bitmap 在排序中的应用
- 桶排序在海量数据中的应用
- 题目:海量数据处理,40亿个不重复的unsigned int的整数,如何判断某数是否在其中?
- bitmap位图方案解决海量数据文件排序的问题
- 海量数据去重排序--bitmap(位图法)在java中的实现的两种方法
- 一个无重复排序的js
- 2.5亿个整数中找出不重复的整数 bitmap
- 在一个环形的无重复元素的排序单向链表中插入一个元素
- matlab中生成无重复随机整数的方法
- matlab中生成无重复随机整数的方法
- matlab中生成无重复随机整数的方法
- 利用bitmap进行海量数据排序
- 第十三周周四总结
- Swift for循环语句用法
- hdu 2680 Choose the best route
- nanopi s2 驱动开发心得(一)
- 是是是
- Bitmap在海量无重复整数排序时的应用
- Spring之面向切面编程AOP(三)
- 解析新浪微博JSON数据
- Dockerfile创建镜像
- 搭建SVN版本控制系统
- mybatis 中 foreach collection的三种用法
- 【SSM】Eclipse使用Maven创建Web项目+整合SSM框架
- python中dict、tuple、set、list 等数据类型的浅显认识
- 对Virtualenv命令的认识