做SEO的我们是必要先了解看搜索引擎的工作原里

来源:互联网 发布:工业视觉软件 编辑:程序博客网 时间:2024/05/10 22:33

搜索引擎的工作原理简单介绍

这里介绍的搜索引擎工作的过程相对于非常的皮毛,大对于大多数的SEO来说够用

搜索引擎的工作流程大体可以分成三个阶段

(一)爬行和抓取:搜索引擎通过蜘蛛来跟踪链接发现访问页面,读取页面HTML代码,来存入数椐库。

(二)预处理:索引程序对抓取来的页面数据进行文字提取,中文分词、索引,倒排索引等处理,以备排名程序调用

(三)排名:用户输入查询词后,排名程序调用索引库数椐,计算相关性,然后按一定的格式生成搜索结果页面

爬行和抓取

1. 蜘蛛

搜索引擎用来爬行和访问页面程序被叫做蜘蛛(spider)或机器人(bot)蜘蛛访问任何一个网站时都会先访问网站根目录下的robots.txt文件,如果Robots.txt文件禁止搜索引擎抓取某些文件或目录时,蜘蛛将遵守协议不抓取禁止的网页

 

介绍一些我们常用和主流的搜索引擎蜘蛛名称

Baiduspider+(百度蜘蛛)

360Sipider+(360蜘蛛)

Compatible; Yahoo! Slurp/3.0;(英文雅虎蜘蛛)

Compatible; Goolgebot/2.1(Google 蜘蛛)

Compatible; bingbot/2.0(必应蜘蛛)

Sogou+web+robot(搜狗蜘蛛)

 

2. 跟踪连接

为了抓取更多网页,搜索引擎蜘蛛会从一网页的链接跟踪到另一个网页。因为网站的架构复杂所以蜘蛛需要采取一定的的策略才能抓取网站的所在页面

最简单的抓取策略可以分为两种一个是深度,一种是广度


 

 

 

 

 

 

 

 

 

 

 

从理论上来说;无论深度还是广底优化只要给蜘蛛足够的时间,都能抓取整个互联网。是实际工作中蜘蛛的带宽和时间都不是无限的,不可能抓取所有页面,实际上最大的搜索引擎也只能爬行抓取互联网上的一小部份,所以为了照顾到尽量多的网站,一般都是深度和广度混合使用。

 

3. 吸引蜘蛛

由此可见,虽然理论上可以爬行抓取所以网页但是实际上是不行的。

所以SEO人员想要更多的网站被收录就可想方设法的吸引蜘蛛来访,蜘蛛既然不能抓取所以页面就尽量抓取重要的页面,哪些页面会被认为重要的页面呢

 

网站和页面权重高。质量高,资格老的网站会被认为权重比较高。这种网站的页面被收录的爬行的比较深,收录的也比较多

 

页面更新度,蜘蛛每次爬行都会把页面存储起来,如果第二次来爬行发现页面和第一次收录的一样,那么说明页面没有更新,多次爬行抓取后对页面更新频率有所了解,不常更新的页面蜘蛛会认粉没有必要经常抓取。如果经常更新内容蜘蛛会形影相随加频繁的访问这种页面网页上的链接就会更快的被跟踪抓取新的页面

 

导入链接无论是外部链接还是网站的内部链接想要被抓取就必须要导入链接进入页面,不然蜘蛛更本就不会知道页面的存在,高质量的导入链接也经常使页面的导出链接爬行深度增加

 

与首页的上点距离。一般一个网站的权重最高的就是首页。大部份链接也是指向首页,蜘蛛访问最频繁的页面也是首页,所以离首页点击距离最新的页面,权重比较高被抓取的机会就越大

 

URL的架构。页面的重权要在被收录后才知道,那么这前说的网站权重高还是底搜索引擎蜘蛛还没有收录是什么知道的呢?所以蜘蛛会提前做预判,除了链接、与首页距离,历史数椐等因素以后,短的URL、层次浅的URL也是被直观认为网站的权重比较高的

 

4. 地址库

为了避免重复爬行和抓取网址,搜索引擎建立一个地址库,记录已经被发现的,但还没有抓取的页面,以及已经被抓取的页面,蜘蛛在页面上发现链接后并不是马上就去访问,而是将URl存入地址库,后然统一安排抓取。

 

地址库上的URL有几个来源

1) 人式录入的种子网站

2) 蜘蛛从网页上解析出来的新的RUL与数椐库对比然后存入待访问地址库

3) 站长通过搜索引擎提交表格提交网站

4) 站长通过站长平台提交网站地图

蜘蛛会从待访问地址库中提取URL,访问并抓取页面然后这个URL待访问地址库上删除进入已访问地址库

 

 

 

5.  文件存储

搜索引擎抓取的页面数椐存入原始页面数椐库中,其中的页面数椐与用户浏览的器得到的HTML是完全一样的,每一个URL都有一个独特的文件编号

 

6.爬行复制内容检测

检测并删除复制内容通常是预处理过程进行,不过蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测,网站出现大量抄袭或转载的内容时,很可能蜘蛛不在继续爬行,这也就是为什么站长在日志里发现了蜘蛛,但页面没有被真正收录过的原因

1 0