海量数据以及大数据常考的笔试面试题

来源：互联网发布：腾讯云数据库重启编辑：程序博客网时间：2024/05/22 00:17

一：位图处理海量数据

【题目1】(腾讯公司)给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

方案一：40 000 000 00 * 4 = 16 000 000 000 = 16G,把这么多数全部加载到内存中是不可能，我们可以考虑用bitmap,每一位表示相对应的数字，1表示存在，0表示不存在，只要512MB内存，从文件中读取40亿数字，设置相对应的比特位，判断要查询的那个数相对应的比特位是否为1，若为1表示存在否则表示不存在。
方案二：这里我们把40亿个数中的每一个数用32位的二进制来表示。假设这40亿个数开始放在一个文件中，然后将这40亿个数分成两类：
1.最高位为0
2.最高位为1
并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另一个>=20亿（这相当于折半了）；与要查找的数的最高位比较并接着进入相应的文件再查找。再然后把这个文件为又分成两类:
1.次最高位为0
2.次最高位为1
并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另一个>=10亿（相当于折半）；与要查找的数的次最高位比较并接着进入相应的文件再查找。
......

以此类推，就可以找到了,而且时间复杂度为O(logn)，方案2完成。

【题目2】(July整理) 在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

方案一：我们同样可以用bitmap来解决这个问题，但是现在每个数可能有三种状态，不存在，只有一个，重复存在，
所以我们想到用2个比特位来表示，00表示这个数不存在，01表示这个数存在一次，10表示这个数存在多次，需要内存：250 000 000 * 4 = 1000 000 000 = 10G/16 < 1G 从文件中读取这2.5亿个整数，如果是第一次存在则从00变成01，如果是多次存在，依旧是10，不变，最终扫描位图，输出比特位为01的整数就行。

二：哈希

【题目3】海量日志数据，提取出某日访问百度次数最多的那个IP

先提取到这一天的IP，将这一天的所有IP写到文件中，我们用哈希求模将这个文件中的IP划分到1024个小文件中，每一个小文件构建一个HashMap,Key值为IP，value值为IP出现的次数，同时记录下出现次数最多的IP和次数,在这1024个记录次数的变量中找到最大的那个对应的IP就可以。

【题目4】怎么在海量数据中找出重复次数最多的一个？

先利用哈希求模将这海量数据划分到1024个小文件中，每一个小文件构建一个HashMap,key值为数据，value值为次数，同时记录下每一个小文件中出现次数最多的数据和次数，最后在这1024个记录中找出次数最多的那个变量。

【题目5】给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每个小文件的大约为300M。
遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

【题目6】有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。
顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。

找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件（记为）。

对这10个文件进行归并排序（内排序与外排序相结合）。

三：top-k:

【题目7】100w个数中找出最大的100个数。

思路1：遍历数据，当最小堆的size小于100直接插入，当大于的时候，比较元素和堆顶元素，如果该元素比堆顶元素大，删除堆顶元素，插入这个元素，当遍历完数据的时候，堆中的元素就是要找的100个数
思路2：快速排序，paration返回一个基准，如果这个基准值不等于100就继续paration,直到基准值为100，说明前100个数都比这个基准数大，也就是要求得100个数了。

【题目8】有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

方案：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。
如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。

对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。最终取出频数最高的100个词

【题目9】寻找热门查询：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

虽然有一千万个Query，但是由于重复度比较高，因此事实上只有300万的Query，每个Query255Byte，因此我们可以考虑把他们都放进内存中去，而现在只是需要一个合适的数据结构，在这里，Hash Table绝对是我们优先的选择。所以我们放弃分而治之/hash映射的步骤，直接上hash统计，然后排序。So，

hash统计：先对这批海量数据预处理(维护一个Key为Query字串，Value为该Query出现次数的HashTable，即hash_map(Query，Value)，每次读取一个Query，如果该字串不在Table中，那么加入该字串，并且将Value值设为1；如果该字串在Table中，那么将该字串的计数加一即可。最终我们在O(N)的时间复杂度内用Hash表完成了统计；

堆排序：第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N） + N'*O（logK），（N为1000万，N’为300万）。

0 0