百度日文图片搜索面经

来源:互联网 发布:做一个网络平台多少钱 编辑:程序博客网 时间:2024/04/28 10:42
题外话,我服了QQ!什么内容不合法,你告诉我啊!我改还不行么??
英文都不准!!!
牢骚完毕,华丽分割线:


在朋友的帮助下,今天面百度 一共面了两面,第一个人面完,喊出另外一个工程师接着面。
 
面试三点开始。我去得比较早,就在大厅里面等了个把钟头,环境看上去不错。哈哈。具体后面说。

第一面,一个哥哥,挺kind的。聊天知道貌似是浙大ACM的,而且还跟我们大组的一个博士gg是好朋友。
首先,自我介绍,稍微说了下。这里我觉得是每个人唯一可以准备得最好的了。说条理点,给人家一个立体印象会很好。然后就要“例行公事了”,开搞:
第一题, 据说中的经典算法,数组a[len],找出其中最大的三个数。写程序,写个意思就行。
第二题,貌似搞算法的人都知道,应该也是据说中的经典题。有一个单向链表。对于单链表,链表尾部是NULL。突然有一天,某人没事把尾部的指针指向了链表中间的某个元素,这样就形成了一个网球拍状的链表,一个柄,然后前面一个圈。  
  问题1:如何遍历链表(可以重复访问)(hint:简单next访问的话,会死循环在圈里的哦,所以得想点办法)
  问题2:如何确定柄和圈相接位置的元素是哪个?
第三题,开放题,关于图片搜索。
一个页面,例如http://esfang.house.sina.com.cn/n_news/news_show.php?id=20439这个link里面,有个图片。图片搜索的基本思想是候根据页面正文的内容来推测图片内容。这个页面中,除了正文上有文字,顶上、边上都有链接和广告,是与图片不相关的内容,需要过滤掉。如何过滤这些五官内容,提取正文? 请说出你的思路。方法可以不拘一格,可以多种方法并用。我扯出了六七种,应该都还蛮靠谱。

OK,就这么多面试问题。我看了下表,刚好一个小时。这个gg喊了另外一个gg来接着面。

二面开始

还是先自我介绍,让随便讲讲。很快进入主题,开始做题:
第一题: 100万行ip地址区间,已排序。给出一个ip地址,从100万行中找出该ip地址所属行。如果找不到,输出找不到即可。
已知,区间首尾两个ip的前三节的ip地址相等,只有最后一节不同。
例如:

127.0.0.3   ~  127.0.0.6
127.0.0.16 ~  127.0.0.49
.....
210.2.0.16 ~  210.2.0.233
.....
上面每个区间前三节都等。
210.2.0.16 ~  210.4.0.233这样的区间不合法,不回出现在给出的
数据中。
给出输入127.0.0.18,输出为127.0.0.16 ~  127.0.0.49。

 这个题目补充一句,最容易想到的算法就是二分查找了。可行。面试的人非得让我想出个更快的方法。没想出来,到最后结束的时候问了下他答案,也就是加快查找那些事,恩,你知道的。

第二题,你知道Cache替换算法有哪些嘛?你学过吗?
恩,我当然学过。blablabla
那么你能实现一个LRU Cache算法吗?
我走偏了。。。。。直接以为要实现一个硬件Cache LRU替换算法。。。太失误了。。。他一个搞软件的,关心硬件Cache干吗。。。
OK,软件LRU算法如何实现大家肯定都知道。
这个题目是他一个引子,后面开始才是重点。题目大意,百度贴吧这么多帖子,动不动还有“贾君鹏你妈喊你回家吃饭”的爆吧行为。如何设计一套存储系统以满足贴吧的需求。设计包括Cache、磁盘文件数据块的布局、结构、安排等等。总之,设计一个存储系统!我真有点汗。。。这个题目突然冒出来,挺不合适的吧。反正给我的感觉是太大了。
注,贴吧特征:
1、 老帖子一旦回复了,就跑到顶上了。玩bbs的同学都了解。
2、偶尔存在暴吧行为,如何抗住这种压力(这里指存储压力),如何保证这种帖子还能被正常阅读
3、很多用户只看贴吧头几页的帖子,所有针对这个特点应该可以做一些优化(Cache)。
OK,设计吧。。。反正这个题目把我搞得很不爽。我猜,他是揣着答案了,总希望我说的跟贴吧的设计相似:(

面完大概五点,说下周等消息。他直接撤了,一人在那,哈哈,正好可以乘机溜达一下百度。先电话我偶像,用她门卡到处溜了一圈,然后去百度健身房跑了半个小时的步,到了饭点,直接去百度地下食堂吃了顿饭,还凑合。OVER。
总结下,算法我有点卡,因为没有任何准备。我总觉得他们问的问题,《编程之美》上都涉及到了,并且比他们问的还深。所以,我决定开始好好看看《编程之美》了。 另外,他们都重复地问,能来实习么。不能。
 
------------------

Institute Of Comuting Technology,
Chinese Academy of Sciences.
Beijing, China

Daily Blog: http://raywill.blog.sohu.com
Tech Blog: http://blog.csdn.net/blog

 
我2偶像:http://hi.baidu.com/kern0612/profile
原创粉丝点击