搜索引擎研发的困难和发展方向

来源:互联网 发布:访客网络会影响主网络 编辑:程序博客网 时间:2024/05/20 05:09

 搜索引擎研发的困难和发展方向

来源:http://FullSearch.Com 中文全文检索网 2006-2-17 14:36:30 王小川
关键词:搜索引擎发展方向
 
  今天很高兴有机会在这里做这个题为《搜索引擎研发的困难和发展方向》的报告。几年前,搜狐公司的地址在建国门附近,那是一个商业的环境;2003年,公司研发中心成立于清华同方大厦,在这里,公司可以得到更多技术力量的支持;2004年,搜狐公司整体迁入清华科技园区。依此,我们看到一种轨迹:搜狐公司本身作为一家企业,已由原先的市场导向转变成为了现在的技术驱动,与高校之间建立了紧密的合作关系。

  1.搜索与搜索引擎
  搜索与搜索引擎的区别在于,搜索引擎是一个技术上的概念,是一种以技术为核心的服务;而搜索则更偏向产业化。今天着重讲的是中文网页搜索中遇到的困难和发展方向。
  搜狗的成长道路
  2003年9月,组建团队;
  2004年8月,正式发布1.0版本;
  2005年12月,正式发布2.5版本;
   预计在2006年7月,达到业界同期领先水平。
  搜索引擎的研发与其它项目不一样。由于其直接依托于技术、技术与经营密不可分,所以一般来说,搜索引擎应由商业化公司自行研发,并投入使用。在这里就需要一个界限,限定哪些工作是研发机构来做的,哪些是企业来做的。只有明确了这个界限,才能提高工作效率,开发出技术先进而又适合市场需求的大型搜索引擎。

  2.搜索引擎面临的挑战

  (1)工程方面
  在98、99年,曾有人预测搜索引擎的开发是不可能的。由于互联网信息成指数增长,而要在如此海量的信息中作检索,根本无法做到。但如今,虽然搜索引擎的效果还不尽人意,但至少已经完成了其基本功能,在该领域跨出了一大步。
  要支持一个如此复杂的引擎,就需要一个庞大的硬件环境,例如Google在全球,就拥有不止14万台服务器。这样的大系统,在开发、测试以及硬件的维护方面都给人们带来了一定的困难,甚至是挑战。

  (2)学术研究方面
    目前,公司已和清华大学建立了合作的关系,双方可以做到优势互补。
  在搜索引擎开发过程中,海量数据的处理是现有的一大难题。在研究领域,语言模型可以做到高达97%的识别率;但在实际应用中,面对互联网海量数据,处理速度受到严重的影响,最尖端的技术成果变得无用武之地,导致开发商宁肯选择效率高而识别率低的技术。

  在进行研发工作时,往往需要互联网上海量的真实数据。这些数据的采集在高校很难完成,而在公司就很容易获得。同样的,大量的人工标注工作,也是更适合在公司来做。

  工程/运营构架的妥协是如今学术领域与工程领域之间的一大问题。例如,研究机构中研究出的优质算法,在实际应用中,会因为算法的过于精细和系统的过于庞大,导致可用性不强。

  (3)社会方面
  首先是垃圾信息的问题。在互联网中,有80%的信息是垃圾。用户搜索到的是精确信息,而公司内部需要组织团队去建立学习系统,以此来处理网上的垃圾信息。

  由于搜索引擎中,海量数据的抓取很困难,有人曾考虑将搜索引擎与各网站建立合作关系,网站自行将数据推给搜索引擎;或者每个网站都建立说明文档,说明其有用信息。但这都将严重破坏搜索引擎的公正性,使搜索结果的意义大大丧失,故没有可发展的空间。

  新生事物的产生,如Blog,也对搜索引擎的开发产生了一定影响。例如有的Blog上的信息比网站信息还要全面,而有的则全部是垃圾信息,这就给搜索引擎的检索工作带来了一定的困难。

  3.搜索引擎未来的发展方向

  (1)宽带的应用
  对互联网上的音频、视频信息的内容进行整理,有效地描述,并做到高效的存储和传输,这是搜索引擎未来发展的方向之一。

  (2)互动体验
  Google已经改变了用户在互联网上冲浪、漫游的浏览习惯,而是将用户所需信息线性排列出来。未来,导航将是互联网浏览的主要方式:搜索引擎充分理解用户所要表达的主题,将所需信息按类别依次排列,呈现给用户,并加入更多的纠错能力,列出纠错提示。

  (3)垂直化及入口占领
  未来,搜索引擎将从平行搜索转向垂直搜索,只对某一领域的信息进行精确搜索,这种细化是搜索引擎未来发展的一个方向。而所谓入口,就是指搜索将变成用户登入互联网的第一道关卡,搜索引擎的品牌和用户的习惯将直接引导市场走向。

  (4)互联网的进程
  Google不但在搜索领域占有领先地位,现在也加入了网站翻译的领域,并取得了很好的效果。之所以Google在翻译工作上能取得好的成绩,就是因为它占有着其他人所不能完备的海量信息优势。这也是搜索引擎发展的一个趋势,例如在输入法等领域,同样可以通过对于海量信息的评测,加入传统字典中所不具有的信息。

原创粉丝点击