海量数据的处理笔记
来源:互联网 发布:linux添加路由 编辑:程序博客网 时间:2024/05/28 23:12
参考csdn博主July的有关文章。
可以去他主页看有关内容:
http://blog.csdn.net/v_JULY_v/article/details/6279498
http://blog.csdn.net/v_july_v/article/details/7382693
bitmap
http://blog.csdn.net/v_july_v/article/details/6685962
bloom filter
http://blog.csdn.net/v_july_v/article/details/6685894
首先,由于数据量很大,无法在内存中直接存储,传统的排序等预处理操作也无效。所以主要思想是分而治之。使用hash,将一个大文件,转换为多个小文件,对小文件进行处理,再汇总结果。
其中有些好用的技术,如bit map,bloom filter等。bit map,使用一个位的0,1来表示这个数字有没出现过。bloom filter,引入了误差率,使用m位数组,k个hash函数还做数据的对应。
还有map reduce,也是很火的技术。
当然,要进行估算,要明白一些基本的估算值:
1 G = 1024M = 2^30 Byte
1 M = 1024KB = 2^20 Byte
1 KB = 1026Byte = 2^10 Byte
1 Byte = 8 bit
一个int是32位的话,值范围是-2147483684--2147483647,也就是2^31 = 2147483648.
2^10 = 1,024
2^20 = 1,048,576 (一百万, million) (7位,6个零,一百万 M)
2^30 = 1,073,741,824 (十亿,billion) (10位,9个零,十亿 G)
2^40 = 1,099,511,627,776 (一万亿,trillion)(13位,12个零)
- 海量数据的处理笔记
- 海量数据的处理
- 海量数据的处理
- 海量数据的处理
- 海量数据的处理分析
- 海量数据的处理方案
- 海量数据的处理方法
- 海量数据的处理方法
- 海量数据的处理问题
- 海量数据的处理方法
- 海量数据的处理方法
- 海量数据的并发处理
- 处理海量数据的经验和技巧
- 处理海量数据的经验和技巧
- 处理海量数据的经验和技巧
- 转自BMY 海量数据的处理
- 处理海量数据的经验和技巧
- 处理海量数据的经验和技巧
- sql find out record one-to-one
- 倒排索引
- 2013年新年目标
- elf文件动态加载
- Hibernate一级缓存,二级缓存
- 海量数据的处理笔记
- python subprogress子进程实时输出
- HBase Error : Region is not online
- UVA 465 - Overflow (浮点数的优势)
- wordpress上线时候链接地址依然指向本地的问题
- JQuery获取浏览器窗口宽高
- 微博传播在企业品牌营销中的优势
- 散列相关
- codechef2013月赛1月 The Minimum Number Of Moves 使全部数相等的最小步数