第三代搜索引擎何去何从?

来源:互联网 发布:视觉算法是什么 编辑:程序博客网 时间:2024/04/24 09:24

这是偶在CSDN上看到的一篇有关搜索引擎的文章,
原文地址:http://news.csdn.net/news/newstopic/9/9719.shtml

一度被冷落的搜索引擎终于走到了前台,尽管如此,新一代搜索引擎取代旧搜索引擎的历史依然会继续演绎,以Google为代表的第二代搜索引擎似乎又走到了这个当口。第三代搜索引擎将向何处去?而在技术过渡的进程中,那些曾经跨过前一个关口的胜利者们,这一次是否也能取得同样的辉煌?

  很长一段时间以来,和光彩夺目的门户网站相比,搜索技术公司显得倍受冷落。尽管美国硅谷最早出现的互联网公司都是由搜索引擎技术起家的,然而他们或者偏离搜索技术的发展轨道转型为门户网站,或者干脆就已经倒闭,即使能够坚持下来的,也一直在为如何赚钱而困扰。多年来的经验似乎已经证明,搜索并不是一个有利可图的行业。

  而以Google为代表的新一代似乎正在创造奇迹。正像ebay引发了很多人在网上拍卖的想法一样,Google等搜索引擎显示的力量促使很多人动脑筋研究在网上做生意,或者通过网站宣传自己的生意,《纽约时报》甚至把这种现象称为“Google经济”。

  旧貌换新颜

  如果把搜索比喻成是一种生活方式毫不为过。人们使用它寻找旧日的歌曲电影、为论文查找有用的资料、给旅行作准备,甚至在挽救生命时也能派上用场。越来越多的公司依赖于带给客户的查询结果,越来越多的研究者依赖于通过搜索引擎获得的信息,甚至出现了新的公司形态——专业提供有偿排名提升的市场营销公司。很多人的每一天都是这样度过的:一半时间花在搜索上,另一半时间花在收发电子邮件上。

  没有几个人会记起五年以前的搜索引擎是什么样的,用起来有多么的蹩脚,但这又有什么关系?重要的是现在的搜索引擎确确实实融入了人们的生活。拉坦德拉女士就是一个很好的证明。她是一个普通人,四年来一直经营着维尔京群岛上一个租借游艇的生意,基本上是通过自己的网站做宣传。自从她的网站列在Google的免费搜索引擎上之后,每天通过Google网站到访拉坦德拉女士网站的人数多达三千多人,从Google网站进入她的网站得知其租借游船生意的客户数量占所有客户的百分之八十五。拉坦德拉女士坦率地说,她的收入几乎完全依赖于Google网站。

  WebSideStory公司最近的一项调查显示,网上冲浪的时代即将成为过去。在接受调查的上网者中,有64%的人通常是直接进入自己想去的网站,比一年前的53%高出了许多。尽管表面上看来,这一现象似乎表明了搜索引擎正在失去市场。恰恰相反,其实在很大程度上,可以说是搜索引擎越来越普及的结果。该公司的一名负责人约翰斯通指出,在上网时使用搜索引擎找到网站的网民比例也从一年前的8%提高到了13%。

  发生转变的不但是用户的态度,市场的态度也噶然声转,表现非常明显的是门户网站。就像Yahoo!,如果搜索服务没有成为其一项非常重要的收入来源,Yahoo!也不会在搜索领域方面屡有动作。不似以前,搜索服务只不过是吸引眼球的一种手段。而对于提供搜索技术的公司来说更是如此,2002年他们中的很多人已经可以对投资者大声的说,“我们挣到钱了”。

  如果说以前的搜索引擎一直是处于配角的地位,压根算不上是一个产业,现在可能就要以对待一个产业的态度来对待它。搜索服务到底创造了多少价值,现在并没有一个数据具体说明,但拉坦德拉女士的话颇有回味,“我根本没办法猜测Google带来了多少销售额,不过按我的想象,这些销售额加起来足够养活一个不小的国家了吧”。

  淘汰的历史

  这些转变最终还是归结于搜索技术的发展,而技术的前行才能不断满足大众的需要。如今,查找资料已经变得很容易,只要打开Google的搜索引擎,键入任何一个“关键字”,不到半秒,符合条件的信息就从30亿个网页中被挑选显示出来。如果没有这个工具,若想从打印出来有110英里高的资料推中提取完整有用的信息,简直是不可能完成的任务,更不要说在非常有限的时间里。现在,不仅是Google,包括其他的提供搜索服务的公司都尽力在使看起来相当繁琐的检索工作简单化。

  互联网搜索可以追溯到多年以前的情报检索课题,世界上很多所有名的大学都专门设立了该项研究课程。国内中文搜索引擎技术的领先者百度在线,其创始人及现任总裁李彦宏最早是在北京大学接触到这门科学,现在的他仍然没有离开这个领域,可以说见证了互联网搜索技术的整个变迁过程。“从1994年出现的普遍意义上的互联网搜索引擎开始,到现在已经有8年多了,实际上,这整个历史可以看成是一代搜索引擎淘汰上一代搜索引擎的历史”。

  Google的出现正好印证了这种趋势。投资者非常看好Google,“我们在几年前所公认的搜索技术已经跟不上互联网成长的脚步,我们需要一种新的搜索方式和搜索技术”。Yahoo!等在早期采用由编辑来提供索引目录的检索方式,信息量小,并容易遗漏掉许多有用的网站。“这些门户网站所提供的搜索服务所采用的并不是真正的信息搜索技术”。

  不管是哪一个搜索引擎,有一个关键性的问题必须解决:如何对搜索结果进行排序?尤其是对海量数据进行检索时,那些被排在一千位之外的信息,被读到的机会几乎为零。这个问题在情报检索领域已被研究多年,而“按照目标词语出现的次数和频率排序”是该领域多年以来形成的惯性思维,但当Internet出现以后,这种思路完全不适合于网页的排序。

  因为互联网检索还有一个更本质的因素:超链,也就是说网页是通过相互的链接指向连接的。“对‘超链’进行分析能够为检索的效率和品质找到依据”,这是李彦宏1996年为华尔街做金融新闻的检索系统时边实践边思考的结果,“完全是一种观念上的改变”。

  今天要理解这种思路并不难。然而,正如其他的技术创新刚刚出现时一样,当李彦宏向人们传递这个观念时,并未立刻获得理解和认可,直到1997年他按照这个思路做出演示版本“以事实说话”。比如检索“中国时报”网站,使用当时的搜索引擎,检索结果是“www.chinatime.com”,但这个结果是错误的。而使用他的演示版本,检索出的才是“www.chinatime.com.tw”这个正确的结果。原因很简单,因为互联网上有大量的词通过“中国时报”指向了“www.chinatime.com.tw”,说明这个网站是最相关的。而不是像过去,去数哪个网页中“中国时报”出现的次数最多,结果当然不准确。

  Google创始人佩杰和博润也看到了第一代搜索引擎的这个弊端,并在1997年公布了被称为PageRank的新算法。PageRank不仅仅考虑Web网站上的标题或文本,还考虑了与之相连接的其他网站。它将“重要性”的概念引入到搜索的世界中,“这是用来衡量该网站是否有用的指标”,佩杰表示,“我们这样进行完全排列的目的是,用户应当能够找到所希望找到的网站。这一系统基本上利用了Web本身令人眼花缭乱的复杂连接和数以百万计的网民的集体智慧”。如果其他“Rank(等级)”高的网站指向了你的网站,如Yahoo!,则该网站将获得很高的等级。

  Infoseek是当时最早嗅到互联网搜索技术即将发生转变的公司之一,在1998年4月推出了以‘超链分析’为基础的新一代搜索引擎,成为当时第一个实现这种技术的主流搜索引擎。以后的一年时间里,各路主流搜索引擎纷纷采用了类似的技术,到了2000年,几乎所有的搜索引擎都从第一代迈进了第二代。

  新一代搜索走向何处

  “不过,以‘超链’为基础的当前搜索引擎技术并非十全十美,像信息的滞后性问题,比如前几年的一些非常知名的网站,现在的知名度和影响力都下降得很厉害,有些甚至已经倒闭了,但当今的网络上仍然存在着大量的链接指向他们,当进行检索时,他们仍然出现在很靠前的序列上。所以,单单依靠‘超链’,这些问题一时是反映不出来的”。曾经为“超链分析”申请了技术专利的李彦宏说,“从一开始的Lycos、Hotbot、Altavista到后来的Google,人们喜欢的搜索引擎已经换了四、五个,除了更换搜索引擎的成本比较低的因素外,其本质就在于用户的行为发生了变化。虽然在一段时间内,你可能觉得某一个搜索引擎很好、很习惯了,其实每一个引擎的使用方法都差不多,如果发现更好的一定会换掉,这是我这么多年得出的经验”。

  第二代搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。IDC在2001年下半年公布的一份报告表明,前期被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。

  一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。

  如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。比如在某搜索引擎中查询“旅游”这个词,返回的信息超过一百万条,假定一个人3秒钟查看一个网页,就算只查看其中10%的网页,一刻不停地看下去也需要十多个小时。

  好在搜索引擎技术发展迅速,诸如智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。智能搜索可以通过对搜索内容相关性的自动学习,来提高搜索结果的准确度。不过,现在还没有一种可行的方式真正实现智能化,很难将所需信息一定显示在前两三页的搜索结果之中。

  另一个颇受瞩目的搜索技术就是将P2P技术应用到网页的检索中。通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过Web服务器,不受信息文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度(传统引擎只能达到20%~30%的网络资源)。美国一家新兴搜索引擎设计公司i5 Digital在两年前已正式推出了依据对等搜索理念的商业性搜索引擎Pandango(www.pandango.com),但至今仍未进入主流搜索引擎阵容的事实,则说明P2P搜索目前也只能称为是未来的技术。

  “P2P搜索这个理念我最早是1997年底在Infoseek听到的,当时的Infoseek里已经有人提出并开始考虑这种搜索技术了”,李彦宏表示,“各个网站上都有一个自己的小的搜索引擎,大家相互之间可以进行沟通,如果这个引擎查不到,可以通过其他的引擎查,就是这样的一个概念。但是到目前为止,它离实际的应用还差得非常远,主要是违反了关键性指标中有关速度的问题。由于有很多这种小的相互独立又相互链接的引擎,其速度与集中式管理的搜索引擎相比肯定会差很多”。

  商业应用与学术研究之间总会存在一定的距离,但这并不是表示商业界不重视对技术的追求,尤其是像Google这些已经处于该领域金字塔塔尖的公司。Google拥有一个开放性数据库,内含一百多个未来需要实施的项目,这些项目由五十位计算机科学博士负责推进。2002年6月,Google专门成立了“实验室”,以展示他们在互联网搜索领域里最新研究的技术,并发布在互联网(labs.google.com)上供公众试用,广泛收集用户的反馈意见。实验室里已经展示的项目,包括键盘检索、语音检索等等。

  或许有些人会认为,这些所谓的实验项目似乎看不出搜索引擎技术将在观念上进行大的转变,实际上,搜索引擎技术在8年多的时间里一直是以一个渐变的过程在发展。“一个搜索引擎并不是说某一方面好就能受大众喜欢,必须方方面面做到了才行”,李彦宏这么认为,“现在搜索还不能完全满足人们的需求,因为需求太多样化,很难一一满足”。这也是主流搜索引擎目前更重视在细节上下功夫的原因。

  无论如何,包括Google的佩杰在内的搜索技术领域的领先者都认为,最终的搜索引擎将是智能化的,能够理解世界上的所有事物。佩杰还是Web服务技术领域积极的参与者,他正在尝试将Web服务技术应用到搜索当中,以解决跨平台、多格式的信息检索。而我们现在所见到的,主流搜索技术把注意力集中在提升自身搜索引擎质量、扩展应用范围,比如支持图片检索、PDA等移动手持设备的检索,这些都将成为下一代技术实现过程中必不可少的步骤。

  不得不趟的资本浑水

  如果搜索技术领域又一次需要新的能“改变人们观念”的技术革新,那么,转变的重任不再只由学术领域担当,以Yahoo!、Google、MSN、AOL为代表的商业领域也必须直面。

  正如Yahoo!在2000年6月宣布用Google公司的搜索产品来替代Inktomi公司的产品,实际上是新技术代替旧技术的体现,Yahoo!用了这样一种方式使自己的搜索引擎技术成功的向下一代过渡。当然,更说明了市场竞争的残酷性,李彦宏曾对此表示,“你的公司如果在技术上没有创新,就会被其它做得好的公司替代,这就是市场竞争的游戏规则”。

  为了达到这个目的,即使清高的标榜自己是“技术创新”的公司,资本的混水也不得不去趟。

  然而,并不是所有的公司都能顺利的跨过这道关卡。“1998年之前的Infoseek可以说是当时最好的搜索引擎,最终的结局却不是那么令人欣慰。受当时互联网风潮的影响,Infoseek也陷入到资本的运作当中”,李彦宏对此一直非常感慨,“以至于忽视了技术本身的发展,做了很多力所不能及的事情,最后被迪斯尼并购,精英都先后离开了”。

  正因为如此,也才有1999年以后业界有关Google的报道中大部分是质疑其赢利模式的和关注其何时上市的;也才有了Yahoo!与Google之间若即若离的关系、百度与新浪的摩擦这样的搜索技术公司与门户网站之间的激烈碰撞。

  即使不是所有的人都对看起来可以挣到钱的、被称为搜索引擎第三定律的“自信心定律”(客户可以购买在搜索结果中的排位。即客户对自己有信心,才会花钱购买搜索结果,而花了钱的客户,也会给用户以信心。)抱支持态度,认为它更多的是商业模式上的改进,与所推崇的先进技术是相互抵触的,但它确实给以Overture、百度为代表的一批搜索引擎带来了实际的利益。“没有资金,拿什么投入到技术的创新研究当中?”有了这个前提,不难理解李彦宏为什么会把“赚到了钱”作为2002年最有感触的事情。交互媒介SiteLab的创始人戴纳·托德的话也不无道理,“任何东西都可以卖钱。作为消费者,我很震惊,但作为广告客户,我很高兴”。

  不管怎样,就像李彦宏说的那样,“这种既合作又竞争的关系恰恰说明了现在的搜索技术或者说提供搜索服务是能够赚到钱的”,相信Yahoo!如果不是看到了这一点也绝对不会收购搜索引擎巨头Inktomi,就算现在还看不到更多的好处,拥有Inktomi也肯定会使雅虎多了一种新的很有前景的收入来源,在竞争日趋激烈的市场上处于更有利的地位。况且,搜索引擎的攻城略地之势正在不断的蔓延。

原创粉丝点击