2012.4.14腾讯暑期实习笔试

来源：互联网发布：2016上半年经济数据编辑：程序博客网时间：2024/05/20 11:19

主要以基础知识为主，前面是一些选择题，计算机的四门专业课：数据结构，计算机组成原理，操作系统和计算机网络都有涉及。除此之外还有数据库，UML，设计模式。后面是两道大的程序填空题，一道是求序列的最大和子序列（参见：第八章：算法设计技术）另一道是有关征求个人所得税程序的题。最后一道附加题涉及到高性能计算，分布式数据库，并行计算等的知识，要求给出在上海和深圳两地的数据库内容保持更新和复制的一致性问题的解决方案。

记录几个选择题中的知识点：

1.设计模式中的外观，组合，桥接，单件关系

参见设计模式介绍：设计模式

Facade（外观模式）：为子系统中的一组接口提供一个一致的界面，Facade模式定义了一个高层接口，这个接口使得这一子系统更加容易使用。

Composite（组合模式）：将对象组合成树形结构以表示“部分-整体”的层次结构。Composite使得用户对单个对象和组合对象的使用具有一致性。

Bridge（桥接模式）：将抽象部分与它的实现部分分离，使它们都可以独立地变化。

Singleton（单例模式）：保证一个类仅有一个实例，并提供一个访问它的全局访问点。

2.哈夫曼树

给定n个权值作为n个叶子结点，构造一棵二叉树，若带权路径长度达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman tree)。

基本术语

哈夫曼树又称为最优树。
1、路径和路径长度　　
在一棵树中，从一个结点往下可以达到的孩子或子孙结点之间的通路，称为路径。通路中分支的数目称为路径长度。若规定根结点的层数为1，则从根结点到第L层结点的路径长度为L-1。
2、结点的权及带权路径长度
若将树中结点赋给一个有着某种含义的数值，则这个数值称为该结点的权。结点的带权路径长度为：从根结点到该结点之间的路径长度与该结点的权的乘积。
3、树的带权路径长度
树的带权路径长度规定为所有叶子结点的带权路径长度之和，记为WPL。

哈夫曼树的构造

假设有n个权值，则构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 w1、w2、…、wn，则哈夫曼树的构造规则为：
(1) 将w1、w2、…，wn看成是有n 棵树的森林(每棵树仅有一个结点)；
(2) 在森林中选出两个根结点的权值最小的树合并，作为一棵新树的左、右子树，且新树的根结点权值为其左、右子树根结点权值之和；
(3)从森林中删除选取的两棵树，并将新树加入森林；
(4)重复(2)、(3)步，直到森林中只剩一棵树为止，该树即为所求得的哈夫曼树。

哈夫曼树的应用

1、哈夫曼编码

在数据通信中，需要将传送的文字转换成二进制的字符串，用0，1码的不同排列来表示字符。例如，需传送的报文为“AFTER DATA EAR ARE ART AREA”，这里用到的字符集为“A，E，R，T，F，D”，各字母出现的次数为{8，4，5，3，1，1}。现要求为这些字母设计编码。要区别6个字母，最简单的二进制编码方式是等长编码，固定采用3位二进制，可分别用000、001、010、011、100、101对“A，E，R，T，F，D”进行编码发送，当对方接收报文时再按照三位一分进行译码。显然编码的长度取决报文中不同字符的个数。若报文中可能出现26个不同字符，则固定编码长度为5。然而，传送报文时总是希望总长度尽可能短。在实际应用中，各个字符的出现频度或使用次数是不相同的，如A、B、C的使用频率远远高于X、Y、Z，自然会想到设计编码时，让使用频率高的用短码，使用频率低的用长码，以优化整个报文编码。
为使不等长编码为前缀编码(即要求一个字符的编码不能是另一个字符编码的前缀)，可用字符集中的每个字符作为叶子结点生成一棵编码二叉树，为了获得传送报文的最短长度，可将每个字符的出现频率作为字符结点的权值赋予该结点上，求出此树的最小带权路径长度就等于求出了传送报文的最短长度。因此，求传送报文的最短长度问题转化为求由字符集中的所有字符作为叶子结点，由字符出现频率作为其权值所产生的哈夫曼树的问题。利用哈夫曼树来设计
二进制的前缀编码，既满足前缀编码的条件，又保证报文编码总长最短。

2、哈夫曼译码

3.数据库的三范式

4.页式存储管理从虚拟地址到物理地址的转化

5.虚拟分页的置换流程

存储管理

操作系统内存管理机制

6.解决哈希冲突的线性探测法的原理

解决哈希表的冲突的方法分为：开放地址法和链地址法
其中开放地址法增量 d 可以有不同的取法，并根据其取法有不同的称呼：
(1) d i ＝ 1 ， 2 ， 3 ， …… 线性探测再散列；
(2) d i ＝ 1^2 ，－ 1^2 ， 2^2 ，－ 2^2 ， k^2， -k^2…… 二次探测再散列；
(3) d i ＝伪随机序列伪随机再散列；

7.sizeof()函数，尤其是在函数参数中定义数组的话在函数内部sizeof()数组名是作为指针来处理而不是求出数组占用的空间大小

8.数据库索引是否需要单独存储

索引分为聚簇索引和非聚簇索引两种，聚簇索引是按照数据存放的物理位置为顺序的，而非聚簇索引就不一样了；聚簇索引能提高多行检索的速度，而非聚簇索引对于单行的检索很快。

创建索引可以大大提高系统的性能。第一，通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。第二，可以大大加快数据的检索速度，这也是创建索引的最主要的原因。第三，可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。第四，在使用分组和排序子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。第五，通过使用索引，可以在查询的过程中，使用优化隐藏器，提高系统的性能。
也许会有人要问：增加索引有如此多的优点，为什么不对表中的每一个列创建一个索引呢？因为，增加索引也有许多不利的方面。第一，创建索引和维护索引要耗费时间，这种时间随着数据量的增加而增加。第二，索引需要占物理空间，除了数据表占数据空间之外，每一个索引还要占一定的物理空间，如果要建立聚簇索引，那么需要的空间就会更大。第三，当对表中的数据进行增加、删除和修改的时候，索引也要动态的维护，这样就降低了数据的维护速度。

9.B树

动态查找树比较

从B树、B+树、B*树谈到R树

10.私有IP地址的概念

公有地址（Public address）由Inter NIC（Internet Network Information Center 因特网信息中心）负责。这些IP地址分配给注册并向Inter NIC提出申请的组织机构，通过它直接访问因特网。
私有地址（Private address）属于非注册地址，专门为组织机构内部使用。
以下列出留用的内部私有地址：
A类 10.0.0.0--10.255.255.255
B类 172.16.0.0--172.31.255.255
C类 192.168.0.0--192.168.255.255

11.有关磁盘操作的计算

12.大规模数据的并发控制方案