百度蜘蛛是如何在网站上面爬行的

来源:互联网 发布:zookeeper 集群 linux 编辑:程序博客网 时间:2024/04/29 10:54
站长可能对百度蜘蛛的爬行非常好奇,今天我们来讲讲这一问题,大家平均主要是做百度优化,那么自然会关心百度蜘蛛到底是如何工作的呢,当你的网站提交了百度搜索引擎之后,接下来,蜘蛛就会寻找robots协议,按照该协议上面的规则来爬行,如果你在robots协议上面禁止蜘蛛爬行一些目录或一些文件的话,蜘蛛就不会爬行这些目录或者文件。


    一般情况下,蜘蛛会分两种情况爬行,一种是广度来爬行,比如先爬行首页,再爬行栏目页,再爬行内容页,按照一层一层这样爬行,另外一种是按照深度来爬行,从当蜘蛛在首页爬行的时候,会依次顺着链接一个一个去抓取,只有你的网站上面的链接链接越丰富,那么蜘蛛会爬得越勤快,如果内容质量好,蜘蛛会更加喜欢你的网站。


    可是,当我们去查看网站日志的时候,会发现,其实蜘蛛并不这样爬行的,好像爬行的时候没有什么规则,一会儿这个页面爬一下,一会儿那个页面爬一下。这会让看不懂,有的时候,明明蜘蛛偏偏不看待当天更新的页面,而是继续爬行一些老页面,这会让站长很担心,要是当天更新的文章被高权重网站转载了,可能自己网站上面的文章会被认为是转载的,这会让站长很纠结。其实这个问题到现在为止还存在,当蜘蛛先抓取到转载的文章的话,那么你的原创文章会被误以为是转载的。


    但我们可以想办法改进,比如在自己的网站顶部加一个网站地图功能,让蜘蛛可以快速寻找到当天更新的内容,这样更加有利于蜘蛛提高效果。
原创粉丝点击