搜索引擎的基本工作流程

来源:互联网 发布:电商html模板 仿淘宝 编辑:程序博客网 时间:2024/05/07 03:05

 本文出自http://www.wenbanana.com稻草人博客,欢迎访问!

说到搜索引擎,我们就立即想到google、baidu等这些搜索引擎。其实搜索引擎的工作原理可以基本划分为3个部分:网页搜集、预处理和查询服务。大家在使用google搜索引擎时,都有一个感觉,那就是搜索结果特别快。在不到1秒的时间里,google居然就为我们找到了几千万甚至是几十亿的搜索结果。如果大家认为在这一过程里,google用不到一秒的时间内就访问了上千万个网页,那就大错特错了。其实这些呈现出来的结果都是服务器事先访问过,然后在数据库里建立索引保存起来的。搜索引擎会根据用户提交的关键字来对数据库里保存的信息进行处理、排序,最后就以列表的形式呈现给我们,这是搜索引擎基本的工作流程。

           网页搜集

每一天,互联网上都可能会诞生成千上万个网页。就截止至2004年,网页的数量就达到40多亿,可想2013年,以爆发式增长的网页数目估计也达到几百亿了。搜索引擎在这一阶段,就是派出诸如“蜘蛛”这样的网页抓取程序来来搜集互联网上的所有网页。由于一个网页上存在多个超链接链接到另一个网页,那么这个“蜘蛛”程序就可以从一个网页爬向另一个网页,所有网页之间的连接,最终就形成像图一样结构,“蜘蛛”程序就通过遍历来访问互联网上的所有网页,然后为每一个网页建立一个索引,所有的索引信息都保存在一个大数据库上。说到底,其实就是对一个网页数据库进行维护。现在,有两种比较常见的维护方式。一种是“定期搜集”,搜索引擎会每个一周或者一个月来进行一次大规模的网页搜集,但这种方法存在一个问题,那就是数据库保存的网页信息不一定是最新的。另一种是增量搜集维护方式,就是在第一次使用定期搜集的方式搜集一批网页后,之后就只搜集新出现的网页,同时对上次搜集的网页进行更新,对于不存在了的网页就删除,这样的搜集方式就可以保证数据库的信息比较新。

          预处理

每一次访问一个页面后,搜索引擎会对这个页面的内容进行关键字提取,例如“google搜索引擎”这一内容就会被分成google和搜索引擎这两个关键字。同时,搜索引擎还会使用某种算法来衡量网页的重要程度,目前最流行的是PageRank算法。这个算法的主要思想是,一个网页被其他网页引用的次数越多,那么这个网页就越重要。就像越多公司想聘请你,那么说明你越有价值一样是相同道理的。

 

         查询服务

最后一步就是将搜索的结果以列表的形式展现给用户,关联越强的网页就越靠前显示。同时,显示的列表包括连接地址、标题以及网页摘要三部分。

 

以上就是一个搜索引擎的基本工作流程。

原创粉丝点击