【备战百度实习招聘】
来源:互联网 发布:centos 彻底删除nginx 编辑:程序博客网 时间:2024/05/02 02:00
1.代码编译过程
- 在cpp文件中展开include文件。
- 将每个cpp文件编译为一个对应的obj文件。
- 连接obj文件成为一个exe文件(或者其它的库文件)
2.100W个整数中求最小的k个数,有哪些方法,优缺点
快速排序: 分区时,根据数P将数组分为两部分,设大于P的数个数为a,小于P的数的个数为b。如果,a>=k,则从这a个数取最大的k个数,若a<k,则从b个数取最大的k-a-1个。
3.两个10G的文件中,求含有相同整数,有哪些方法,优缺点
(1)快排+二分查找 (2)位图法
位图法的应用
1、给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中
首先,将这40亿个数字存储到bitmap中,然后对于给出的数,判断是否在bitmap中即可。
2、使用位图法判断整形数组是否存在重复
遍历数组,一个一个放入bitmap,并且检查其是否在bitmap中出现过,如果没出现放入,否则即为重复的元素。
3、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数
参 考的一个方法是:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)。其实,这里可以使用两个普 通的Bitmap,即第一个Bitmap存储的是整数是否出现,如果再次出现,则在第二个Bitmap中设置即可。这样的话,就可以使用简单的1- Bitmap了。
hash_map:
其基本原理是:使用一个下标范围比较大的数组来存储元素。可以设计一个函数(哈希函数,也叫做散列函数),使得每个元素的关键字都与一个函数值(即数组下标,hash值)相对应,于是用这个数组单元来存储这个元素;也可以简单的理解为,按照关键字为每一个元素“分类”,然后将这个元素存储在相应“类”所对应的地方,称为桶。
但是,不能够保证每个元素的关键字与函数值是一一对应的,因此极有可能出现对于不同的元素,却计算出了相同的函数值,这样就产生了“冲突”,换句话说,就是把不同的元素分在了相同的“类”之中。 总的来说,“直接定址”与“解决冲突”是哈希表的两大特点。
hash_map,首先分配一大片内存,形成许多桶。是利用hash函数,对key进行映射到不同区域(桶)进行保存。其插入过程是:
1. 得到key
2. 通过hash函数得到hash值
3. 得到桶号(一般都为hash值对桶数求模)
4. 存放key和value在桶内。
其取值过程是:
1. 得到key
2. 通过hash函数得到hash值
3. 得到桶号(一般都为hash值对桶数求模)
4. 比较桶的内部元素是否与key相等,若都不相等,则没有找到。
5. 取出相等的记录的value。
hash_map中直接地址用hash函数生成,解决冲突,用比较函数解决。这里可以看出,如果每个桶内部只有一个元素,那么查找的时候只有一次比较。当许多桶内没有值时,许多查询就会更快了(指查不到的时候).
由此可见,要实现哈希表, 和用户相关的是:hash函数和比较函数。这两个参数刚好是我们在使用hash_map时需要指定的参数。
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
方案1:顺序读文件中,对于每个词x,取,然后按照该值存到5000个小文件(记为)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,知道分解得到的小文件的大小都不超过1M。对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。
海量日志数据,提取出某日访问百度次数最多的那个IP。
方案1:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。
4.僵尸进程产生的原因及解决方式:
如果子进程先于父进程退出, 同时父进程又没有调用wait/waitpid,则该子进程将成为僵尸进程。通过ps命令,我们可以看到该进程的状态为Z(表示僵死)。
一般,为了防止产生僵尸进程,在fork子进程之后我们都要wait它们;同时,当子进程退出的时候,内核都会给父进程一个SIGCHLD信号,所以我们可以建立一个捕获SIGCHLD信号的信号处理函数,在函数体中调用wait(或waitpid),就可以清理退出的子进程以达到防止僵尸进程的目的。
- 【备战百度实习招聘】
- 备战百度实习:算法篇
- 百度2010暑期实习笔试面试全面备战
- 百度2010暑期实习笔试面试全面备战
- 2011百度实习招聘–笔试篇
- 蛇形矩阵(百度2016实习招聘)
- 备战校园招聘索引
- 备战春季招聘
- 股票买进卖出问题—百度实习招聘面试题
- 2012年百度校园实习招聘题目及解答
- 2016百度C++研发工程师实习招聘笔试题
- 百度实习
- 备战Android实习(Java基础知识篇)
- 备战Android实习(计算机基础篇)
- 再努力一把,走出校园,备战实习
- 百度招聘
- 百度招聘
- 实习招聘会
- C++内存管理
- zabbix-agent key属性列表
- C++作业第四章
- 安装maven 出现错误:Unsupported major.minor version 51.0(jdk版本错误)
- 《How Tomcat Works》读书笔记(五):生命周期
- 【备战百度实习招聘】
- 快速排序
- Android KEYCODE键值对应大全
- 支付宝如何设置无线授权密钥,appid的回调地址、名称,logo
- MySQL那些与日期和时间相关的函数(now() sysdate())
- Android 网络通信框架Volley简介(Google IO 2013)
- Java组合模式(Composite模式)
- session的生存周期
- Learning C++ by Creating Games With UE4(书籍)