搜索研发的几点感悟

来源:互联网 发布:java 执行bat脚本 编辑:程序博客网 时间:2024/04/19 12:27

文/腾讯soso杨海松

 

    杨海松,2003年博士毕业于中国科学技术大学电子工程与信息科学系通信与信息系统专业。2005年加入腾讯公司,负责腾讯搜索的相关性研发工作。通过多年的互联网和搜索领域的研究与实践,在搜索相关性和搜索引擎架构领域积累了丰富的经验,目前担任网页搜索研发中心相关性组的技术总监。

 

 

    2003年,在非典威胁刚刚解除之后,我从中国科学技术大学毕业,告别了培养我九年的母校,来到了深圳。之前的求学生涯对我而言是非常幸运的,从中考、高考,直到读研读博,一路都是免试保送。在踏入工作后,面对着充满挑战的新环境,我也像每个初出校门的毕业生一样,渴望在工作岗位上证明自己的能力,得到领导的认可。我的第一家公司是深圳的一家通信企业。选择这家公司,主要是因为当初面试的时候,面试官对我在校时的研究方向比较熟悉,我在和他交流的过程中了解到我的研究背景可能会对公司有益。遗憾的是,实际开展工作后才发现情况并不完全像预料的哪样。经过1年多的努力和尝试,我最后决定离开,虽然发展上遇到了一些问题,但是我是要感谢当时的领导,他们对我的认可和帮助更使我坚信自己可以做的更好。

    2005年初,我来到腾讯,投入腾讯自研网页搜索引擎的研发工作。最开始的尝试过程,我们遇到了很多的困难,但是这段时间的积累和团队的锻炼,为后来工作打下了坚实的基础。后来在搜索技术研发中心成立后,我们组织过两次大规模的封闭开发,在各级领导的大力支持和所有同事的共同努力下,我们搭建起来一个成形的网页搜索系统,最终这个系统在20099月正式上线,平稳替换了之前使用的google的网页搜索服务。

    回顾过去几年的网页搜索研发过程,我个人有一些比较大的感受,在这里和大家分享:

    首先,作为一个技术攻关型的团队,在倡导技术创新的同时,团队的心态必须踏实稳重,不能盲目冒进。复杂系统的演进应当是有序展开,在每次变革中逐渐积累。这样可以避免工作方向出现较大的偏离,也可以确保团队士气始终高涨,因为我们总是在不断进步。对于团队中的每个人,也应该抱有踏实内敛,稳扎稳打的心态,首先要做好团队赋予你的每一个任务,之后才会有机会给你去超越和挑战,好高骛远是不可取的。因为在一个复杂系统的研发团队中,个人成功的前提是团队成功。

    第二点,在实际工作中,资源和任务之间的矛盾总是存在的,如何充分利用现有资源,抓住主要矛盾,对于团队来说是非常重要的。在搜索引擎的研发工作中,面对的数据特征千差万别,很多问题都没有现成的解决方案,需要多角度论证。反复实验才能确定较优的方法。每一个课题都可以在一定程度上改善搜索质量,但是每个课题又都需要很多的资源投入,此时就必须做好取舍的工作,所谓舍得,有才能。每次选择都要首先确定主要矛盾,并考虑好评价效果的方法,然后才能做出正确的决定并最终实施。

    第三点,就是在实际工作中要以我为主,发挥张力我承担的主要的工作内容是相关性研发。相关性其实就是ranking(排序),要从上千万甚至数十亿级别的页面中挑选出对用户检索最有价值的topN展现给用户,是一项十分复杂而又十分有趣的工作。除了几个大规模的分布式计算系统之外,搜索引擎的相关性系统中还存在很多策略实施模块,这些模块通常会嵌入在其他的系统内部发挥作用。另外,相关性要对最终的检索质量负责,但是影响检索质量的因素很多,这些因素很多时候不是相关性能直接影响的,要请其他组的同事来配合改进。这时候就出现了很多跨模块、跨系统、跨团队的工作,经常一个问题的解决,会涉及到34个甚至更多上下游系统的联合改动,最后召集解决方案讨论会的时候,相关人站满了会议室。此时就需要有人来主动推动这个工作的进展,确保各个系统都能够按照预想的方案实施,并最终改善线上的检索质量。因此相关性团队倡导的就是以我为主,发挥张力,要主动承担责任,对最终质量负责,要敢于发起变革并推动落实,乐意承担边界模糊的工作。大家都这样要求自己,工作推进自然高效,兄弟团队之间的配合也更加默契。

    虽然我们取得了一些阶段性的成果,但是搜索引擎的质量提升永无止境,作为一个后进者,我们更要加速追赶。目前公司领导和公司所有同事都给予腾讯搜索产品极大的关注和支持,相信我们腾讯的土壤上一定能培育出成功的搜索引擎产品! 

 

    下面简单介绍一下目前我们眼中最适合腾讯发展的搜索方向——情境搜索。

    随着互联网服务的日益发展,用户对搜索引擎服务的要求也越来越高,越来越多的用户对现在搜索引擎的结果表示了不满。在提升工作效率、满足生活需求等方面,现在的搜索引擎还没有起到用户所期望的帮助作用。腾讯拥有互联网最大的用户群和各种互联网服务,用户在使用腾讯服务的过程中会随时产生信息获取的需求,如何很好的满足这些需求,对用户和腾讯公司都是十分必要的。

    情境搜索是对用户的各类数据和信息进行深入理解后,在用户使用互联网服务的各种情境下提供给用户最贴切的搜索服务。情境搜索包含7个要素(6W&1H),它强调“以人(Who)为本”,也就是以用户为中心,根据其搜索行为的时间(When)、地点(Where)、输入(What)、需求(Want)、习惯(How)、背景(Why)等因素,由情境计算得到最适合的搜索结果,再将这一结果通过用户当前的应用情境直接呈现。

    情境搜索的概念看似简单,但是具体实现时却面临重重挑战:

    首先,需要跨界的产品开发。产品的设计需要整合腾讯庞大平台的各种优势产品,提供有价值的信息给用户,这已经超越了传统搜索引擎完全基于一个搜索输入框的产品设计方式。

    其次,数据的挖掘与整合。每一个小小的情境搜索,实际上都是对用户意图的一次深入分析,并由此对专业数据和自然结果进行整合与优化。这其中,海量Hidden Web数据的获取和挖掘尤为重要,这也是整个搜索行业都在发力的方向。

    最后,苛刻到极致的用户体验。情境搜索的用户体验最核心的基础就是“顺其自然,适应需求”,如何在庞大的产品线上提供最好的交互体验,是个巨大的挑战。

    基于情境搜索的搜索引擎系统会比以往各种搜索都更贴近用户需求。基于这样一个系统,搜索对用户来说将变得无处不在,如影随形。例如,你在腾讯在线平台上关注或与好友谈论电影《阿凡达》,情境搜索将自动挖掘你最关心的内容:效果最好的影院在哪里、如何预订电影票、网友的评价如何、哪些好友支持这部影片、预告片和音乐下载……此时,你无须再打开浏览器输入检索词,一次又一次地甄选结果。情境搜索通过深入挖掘客户“情境”需求,深入地了解到你需要什么,他不仅会把需要的信息直接推送到你面前,还会整合在线预定、购买等后续服务,甚至可以帮你找到志同道合的“搜友”。

    通过情境搜索,新的搜索2.0将突破传统的搜索模式,降低互联网用户使用搜索的门槛,实现搜索引擎与用户间的无缝沟通。腾讯搜搜希望在这一方向上持续探索,不断推出更加贴近用户需求的创新应用。也欢迎所有搜索用户给我们搜搜出谋划策,帮助我们少走弯路,早日给大家提供一个深受大家喜爱的、真正贴心的搜索服务!