百度笔试题7.4
来源:互联网 发布:菏泽矩阵直销软件 编辑:程序博客网 时间:2024/06/07 05:09
题目四:
http://topic.csdn.net/t/20061008/22/5068270.html
(5分)对给定的上亿条无序的url,请按照domain、site以及path分别排序,并请指出排序过程中可能会遇到的哪些问题?如何提高效率?
例如:http://www.baidu.com/path/about.html,domain、site以及path的定义分别如下:
Domain:baidu.com
Site:www.baidu.com
Path: www.baidu.com/path
Answer:
1.题目给定的是"上亿条无序的url",第一个感觉就是这么多的数据不可能同时装入到内存中,"External Sorting"是必然的了。第二个感觉就是URL的长度差别很大的,有的很长,有的却很短,选择什么样的数据结构来存放这些数据就需要考虑。定长的数据应该是不合适的,变长的数决是个选择。
2.在domain,site,path中,我们可以先对domain排序,处于同一个domain的URL可以存放在一起,这样他们有类似的数据,例如:XX.baidu.com/XXX。然后我们可以对site进行排序,最后对path进行排序。
- 百度笔试题7.4
- 百度网上笔试题
- 百度网上笔试题
- 百度网上笔试题
- 百度笔试题
- 百度网上笔试题
- 百度笔试题
- 2006百度笔试题
- 百度网上笔试题
- 百度笔试题
- 2007百度笔试题
- 百度笔试题 [软件工程师]
- 百度笔试题
- 2007百度笔试题
- 百度部分笔试题
- 08百度笔试题
- 08百度笔试题
- 百度笔试题
- Oracle 表连接方式(内连接/外连接/自连接) 详解
- Java容器类List、ArrayList、Vector及map、HashTable、HashMap的区别与用法
- 百度笔试题7.3
- control bar 的用法 转
- 哈哈,同志们好
- 百度笔试题7.4
- 百度笔试题7.5
- RAID 磁盘阵列
- 操作系统学习笔记
- 皮影
- Policies/Binary Compatibility Issues With C++
- 百度笔试题8
- mysql修改表名,列名,列类型,添加表列,删除表列
- 刘积仁:中国软件业的黄金十年(转)