海量数据处理全集

来源:互联网 发布:防身术 知乎 编辑:程序博客网 时间:2024/06/11 02:14
教你如何迅速秒杀掉:99%的海量数据处理面试题  http://blog.csdn.net/v_july_v/article/details/7382693#comments

 

STL容器分为两种:
1.序列式容器 (vector/list/deque/stack/queue/heap)
2.关联容器  set(集合), map(映射表) 两大类,set/map/multiset/multimap都内含一个RB-tree
  hash_set/hash_map/hash_multiset/hash_multimap都内含一个hashtable

所谓关联容器,类似关联数据库,每个元素都有一个键值(key)和一个实值(value),即所谓Key-Value对


红黑树 --- 有时间要好好了解一下

黑头黑脑,坑爹,红不过三代

 

处理海量数据问题之六把密钥

密钥一. 分而治之/hash映射 + Hash统计 + 堆/快速/归并排序


 1. 使用hash函数,将记录划分到1024个小文件中
  2.使用 hash_map或者trie树,统计出每个文件中,出现次数最多N次的字串符及相应的出现频率(堆

排序)存入一个文件,再将这些堆排序好的1024个组数据归并排序。

Trie树也称字典树,对于每一个节点,从根遍历到他的过程就是一个单词,如果这个节点被标记为红色

,就表示这个单词存在,否则不存在。


Trie树是一个DFA有限自动机,

通常是处理字符串,但是也很可以处理其他结构的有序序列,比如一串数字或者形状的排列。

trie树常用于搜索提示。如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。


TRIE树: http://blog.csdn.net/yexianyi/article/details/4092954
wiki: http://zh.wikipedia.org/wiki/Trie

hashtable优于rbtree

 

 

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 发财树叶子发黄烂根怎么办 君子兰烂根叶子发黄怎么办 四季海棠花叶子干了怎么办 海棠花叶子枯萎枝干发黑怎么办 长寿花叶尖焦了怎么办 新买的盆栽蔫了怎么办 熬中药水太多了怎么办 秋根海棠烂根怎么办 大叶海棠烂根怎么办 玻璃海棠长得很高怎么办 玫瑰海棠叶子干焦怎么办 海棠树树干生虫怎么办 天竺葵花骨朵有虫子了怎么办? 被刺梅的刺扎了怎么办 被刺梅的刺划手了怎么办 虎刺花叶子黄了怎么办 地栽月季叶子发黄怎么办 梅花浇水浇多了怎么办 深水井底下花管进水量小怎么办 盆景对节白腊树叶尖干枯怎么办 四季海棠茎软了怎么办 玫瑰海棠烂根了怎么办 格丽海棠花腌了怎么办 养殖场不能雨污分流怎么办 药店买的药贵了怎么办 神经损伤小便少尿不出来怎么办 手指夹伤出血了怎么办 手指夹破流血了怎么办 喂了宝宝熊胆粉怎么办 不小心擦伤了皮怎么办 吃了减肥药拉肚子怎么办 遇到他心通的人怎么办 被茅山术害了怎么办 鱼缸鱼身上烂了怎么办 鳄鱼龟皮肤烂了怎么办 墨水渗透进皮肤里了怎么办 中药渗透到皮肤里怎么办 甘露醇渗透到皮肤下怎么办 水银弄到眼睛里怎么办 水银粘到皮肤上怎么办 榴莲和虾同吃了怎么办