soso预览功能的实现

来源:互联网 发布:java多进程编程 编辑:程序博客网 时间:2024/04/28 03:49

      早看到有GOOGLE,有道,SOSO当我们搜索信息的时候他自带了个预览功能,一直好奇,今天就在SOSO搜了一下它的功能是如何实现的,看完了恍然大悟。

      我们都知道网路蜘蛛会爬去网页信息,然后收藏你的网页。大部分人想的是我如何写一个万能的算法来运算得到任何一个规则不规则网页的核心信息。然而,我们知道根本就没有万能的。所以有了SEO,很多人来优化你的网页,希望你的蜘蛛能自动捕捉到他的信息。你看,原来是双方的利益。

     SOSO的实现就是基于SEO的思想来的。比如一个规则的网页,他的设计者总会把核心内容放到最突出的位置,然后爬虫便会很快地抓到你的核心信息。就说SOSO的预览,他怎么会那么快了,首先他的蜘蛛已经在你搜索之前就完整地把那个网页放到他的数据库里了,包括URL,你在搜索的时候他会调用,然后他的蜘蛛同时也在做第二件事,就是根据那个网页的布局很快地找到核心信息,呈现给你。这样想,如果你的网页写的很烂,那你被准确抓取的概率就降低。

     我们在开发发时候,写蜘蛛的人想抓取任何网页的信息,写网页的人想被抓取,这样俩则一拍即合。

原创粉丝点击