海量数据的处理
来源:互联网 发布:学生会网络技术部职责 编辑:程序博客网 时间:2024/05/15 05:55
对于一些处理数据类型的问题,可以利用Bit-map和双层桶法进行处理。
例:2.5亿个int数据中找出不重复的正整数的个数。(正整数的表示范围为:0-2^32-1)
我们可以使用Bit-map位图法来处理此类问题。使用2bit表示一个正整数出现0次、1次还是两次及以上,差不多占用512M内存。如果内存使用过大,可以采用双层桶法,将这2^32-1个数划分为2^8个区域(比如一个文件就是一个区域),然后将数据分离到不同的区域,在各个区域内对这些数据使用Bit-map方法。只要有足够的磁盘空间,就可以解决。
例:5亿个int数据统计中位数
采用双层桶法,将int值划分为2^16个区域,然后读取数据统计落在各个区域的数据的个数,这样我们就知道了中位数在哪个区域内,同时也知道了中位数是在这个区域内的第几大数。这样我们只需对这个区域内的数据进行处理即可。
对于一些非数据类型数据,比如网址、邮箱等,可以利用布隆过滤器法处理。
阅读全文
0 0
- 海量数据的处理
- 海量数据的处理
- 海量数据的处理
- 海量数据的处理分析
- 海量数据的处理方案
- 海量数据的处理方法
- 海量数据的处理方法
- 海量数据的处理问题
- 海量数据的处理方法
- 海量数据的处理笔记
- 海量数据的处理方法
- 海量数据的并发处理
- 处理海量数据的经验和技巧
- 处理海量数据的经验和技巧
- 处理海量数据的经验和技巧
- 转自BMY 海量数据的处理
- 处理海量数据的经验和技巧
- 处理海量数据的经验和技巧
- JVM内存划分、JVM内存分配机制、JVM垃圾回收机制
- 两个栈实现队列,两个队列实现栈
- PHP垃圾回收
- 575. Distribute Candies
- alsa编译及使用
- 海量数据的处理
- jetty 启动项目报错:java.lang.ArrayIndexOutOfBoundsException: 52264
- 另一种创建线程的方式
- subscript下标
- 前端UI框架《Angulr》入门
- numpy矩阵中添加行/列
- 简单的几种排序算法
- 如何在Eclipse下查看JDK源代码以及java源代码阅读方法
- MongoDB 副本集,偶数节点问,分片,地理空间查询