《搜主义》:GOOGLE神话的炼成

来源:互联网 发布:淘宝发布食品要备案 编辑:程序博客网 时间:2024/04/30 09:17
 
文/张远昌 <script type="text/javascript"><!--google_ad_client = "pub-7058131363132249";/* 468x15, 创建于 08-6-3 */google_ad_slot = "4187223796";google_ad_width = 468;google_ad_height = 15;//--></script> <script type="text/javascript"src="http://pagead2.googlesyndication.com/pagead/show_ads.js"></script>

    迁延蹉跎,来日无多,二十丽姝,请来吻我,衰草枯杨,青春易过。

    ——[英国剧作家]莎士比亚·W

    随着Google成功掀起的疯狂,没有人会反对“Google具有广泛的社会意义”的说法。Google改变了网民对网络的用法,让网络变得真正实用起来。那么,Google是如何做到这些的呢?

    搜索引擎的前世今生

    在搜索引擎领域,Google并不是第一个吃螃蟹的人。实际上,计算机刚被发明,专家们就想到了用它来搜索资料。

    4000年来,人类一直没有放弃编制目录、目次、索引来加速寻找资料的努力。我国古代的“结绳记事”可算搜索引擎的鼻祖。

    1962年,现代传播学的启蒙大师马萨尔·麦克而汉(Marshall McLuhan)在一本新书中第一次使用“世界村”一词,预测电子媒体将带领人类进入通讯无障碍的世界,世界也将由此变成一个村落。1969年12月,网际网络诞生,麦克而汉为我们所描述的世界村正在一步一步变成现实。

    上世纪70年代初,一门叫“信息检索”的学问逐渐兴起,人们开始使用数字化的方式储存、搜索资料。当时用户对搜索资料的需求不高,信息检索也仅处于萌芽状态,只能整批式地支持储存、索引,同时可以集中查询书目资料,包括书籍的标题、作者、主题、关键词等。这种技术被广泛运用于图书馆,实际上,也绝大部分运用于图书馆。

    时间到了70年代末。一种执行分时操作系统的计算机开始出现,同时一种可以查询内文的“全文检索”技术也开始为人们所使用。“全文检索”逐渐替代“信息检索”成为一门新学问。

    英国科学家伯纳斯·李(Tim Berners Lee)的努力在很大程度上消除了网络发展的最大障碍。1989年,伯纳斯·李发明全球信息网(WWW)并将程序无偿捐献供人使用。于是,现代网络开始出现雏形,人们可以通过HTML传播网页信息,网络上的信息开始成倍增加。

    解决了网络传播信息的障碍之后,人们迫切需要将这些浩如烟海的信息如何整理、归类从而成为便于搜索的目录。上世纪90年代初,一大批搜索引擎开始了网页抓取索引工作。其中大部分起源于学术调研项目,但那时候只抓取了网页的标题、地址和头区信息,无法索引完整的网页。1994年,华盛顿大学发明的WebCrawler成为世界上第一个能够索引完整网页的搜索引擎。后来被美国在线(AOL)收购,并成为 Lycos和InfoSeek的效仿对象。

    伯纳斯·李发明全球信息网(WWW)6年后,美国数字设备公司(Digital Equipment Corporation)的Louis Monier发明了网络蜘蛛(Web spider)软件,跟此前所有的集中式书目信息系统不同,这种软件可以自动爬行于网页间撷取网络资料。美国“数字设备公司”研究小组把这一崭新的“网络信息系统”命名为AltaVista。

    AltaVista成为第一个支持高级搜索语法的搜索引擎。AltaVista成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以及通过向量空间模型(部分关键词比对)的查询排名等关键问题。

    正式公开之前,AltaVista就已经拥有20万访问用户,1995年12月15日,AltaVista正式上线。在短短三个星期之内,到访人数由每天30万次增加到200万次。

    Altavista成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数据库中为用户返回搜索结果;Altavista小组从一开始就采用了一种模块设计技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。

    在当时许多搜索引擎之中,Altavista脱颖而出,成为网络搜索的代名词。这也是后来引导Google取得成功的关键。

    但是日新月异的网络又立即为搜索引擎制造了新难题:网络上的资料始终在不断增加,如何更好地搜索这些不断新加入的网页?

    1998年,NEC公司的斯逖文·劳伦斯(Steve Lawrence)专门做了一项实验,表明AltaVista只抓取到了当时3.2亿网页中的一部分。于是,新一款涵盖范围较大的搜索引擎Northern Light被推上了前台。AltaVista光荣“引退”。

    如今,发明AltaVista的美国数字设备公司早已经被康柏(Compaq)并购,而其后康柏有被惠普(hp)所并购。尽管残存在人们脑海中的记忆已不多,但为搜索引擎作出的贡献却无法抹灭。AltaVista引发了新一轮的网络热潮,互联网革命席卷全球。其后,各种语种、各种功能的搜索引擎层出不穷。

    Google的颠覆与创造

    Google站在前人的肩上,对搜索引擎进行了颠覆传统的修改,创造出了新的价值,同时还创造出了一家市值达845亿美元的公司,也催促使搜索成为互联网的心脏。

    截止到2005年2月16日,Google已留存、搜集整理了80亿5804万4651个网页,13亿张图像,成为搜集网页最完整的搜索引擎。而在7年前,整个网络仅有区区3亿个网页。这符合“资料多多益善。”(More data is better data.)的莫瑟定律(Mercer’s Law)。

    目前,Google在全球各地拥有6000多部红帽Linux服务器,Google用这几千台机器构成一个庞大的超级计算机,并很好的完成了一切步骤:搜集信息、整理归类、精确网络信息、处理搜索请求。尽管每天要处理1亿以上、每秒上千次的搜索查询, Google仍然能够在不到1秒的时间内对其近百亿网页进行筛选并得出搜索结果。

    以往的搜索引擎,尽管也能搜索到相关信息,但精确性却大打折扣,搜索结果往往很少能符合搜索用户的需要。Google却成功地解决了这些问题:不用空间向量模型(关键词比对),而用精确搜索(完全符合)与网页排名。这颠覆了传统上重视齐全,而不重视搜索结果精确的想法。同时也呼应了Google“快比慢好”以及“信息永远累积递增”的两个信条。

    Google通过其佩奇位阶(网页级别,PageRank)技术,越多网页所链接到的页面,将会获得更好的排名。网页上一个个的超级链接,就像一张张选票,选择出最有价值的网页,体现了Google式的网络民主:越多网页所链接到的网页,其信息越符合用户的需求。“网页排序”技术颠覆了传统搜索引擎依赖分析网页内文字的排名方式,让单一网页的所有者很难操弄网页内的文字与超级链接,影响自己网页的重要性排名。Google的首页简约典雅,但有用的信息几乎都在前几页。实际上,用户通常查看前几页的搜索结果。

    虽然Altavista具有前所未有的广泛搜索范围和快速的搜索速度,但能够把搜索范围、速度及PageRank技术完美结合起来的Google最终实现了质的飞跃。

    世界报摊

    在线世界与现实世界的区别之一,就是它比后者容易找到用户所需要的东西。比如,在Google出现以前,如果你需要寻找一篇关于人民币升值的文章,您就得去图书馆或者报摊,而且还不一定能找到你需要的文章。而通过Google搜索,问题就变得简单多了。

    而现在,人们寻找答案的方式,就是通过Google搜索。这种搜索习惯是什么时候形成的?许多人都可能难有记忆了。实际上,在Google诞生以前也有搜索公司,比如当时的雅虎,最开始就是做搜索起家的,但后来向门户网站转型了。而且,那时候的在线搜索经常搜出一大丢自己根本不想要的结果。漫无目的的操作也就形成不了习惯。

    我生活的城市广州,是一个媒体业比较发达的城市,媒体的竞争相当激烈。以前,羊城晚报具有绝对的优势,那时候下班回来买一份下午刚出版的羊城晚报,成了许多广州人的一种生活方式。但是后来,广州日报打出了“比太阳更早,比往年更好”的广告语,宣称要在太阳升起前把报纸送到千家万户。这些举措改变了许多广州人的读报习惯:由下午读报改由早上读报。于是读者猛增,势头勇不可挡,广告收入连续多年位居全国第一。

    改变用户的习惯,让消费者对你形成一种依赖,这是一个商业公司非常不容易做到的事情。产品和服务非常完美,而且全部免费,这让Google比所有搜索引擎的好用,也因此改变了网民利用网络的方式。

    而对于许多刚学会上网的人们,Google几乎成了他们进入互联网的大门,许多网站都是通过搜索而得知的。现在Google成为了搜索的代名词。早在十几年前,比尔·盖茨就向世人宣誓,“把信息技术带到每个人的指尖”。然而,信息搜索技术却被盖茨当成了不可能赢利的技术之一,他的大意成就了Google公司今天的伟业。

    此文转载自清华大学出版社新书《搜主义:GOOGLE持续成长的秘密》连载之四 张远昌著

原创粉丝点击