百度蜘蛛是如何在网站上面爬行的

来源：互联网发布：zookeeper 集群 linux 编辑：程序博客网时间：2024/04/29 10:54

站长可能对百度蜘蛛的爬行非常好奇，今天我们来讲讲这一问题，大家平均主要是做百度优化，那么自然会关心百度蜘蛛到底是如何工作的呢，当你的网站提交了百度搜索引擎之后，接下来，蜘蛛就会寻找robots协议，按照该协议上面的规则来爬行，如果你在robots协议上面禁止蜘蛛爬行一些目录或一些文件的话，蜘蛛就不会爬行这些目录或者文件。

一般情况下，蜘蛛会分两种情况爬行，一种是广度来爬行，比如先爬行首页，再爬行栏目页，再爬行内容页，按照一层一层这样爬行，另外一种是按照深度来爬行，从当蜘蛛在首页爬行的时候，会依次顺着链接一个一个去抓取，只有你的网站上面的链接链接越丰富，那么蜘蛛会爬得越勤快，如果内容质量好，蜘蛛会更加喜欢你的网站。

可是，当我们去查看网站日志的时候，会发现，其实蜘蛛并不这样爬行的，好像爬行的时候没有什么规则，一会儿这个页面爬一下，一会儿那个页面爬一下。这会让看不懂，有的时候，明明蜘蛛偏偏不看待当天更新的页面，而是继续爬行一些老页面，这会让站长很担心，要是当天更新的文章被高权重网站转载了，可能自己网站上面的文章会被认为是转载的，这会让站长很纠结。其实这个问题到现在为止还存在，当蜘蛛先抓取到转载的文章的话，那么你的原创文章会被误以为是转载的。

但我们可以想办法改进，比如在自己的网站顶部加一个网站地图功能，让蜘蛛可以快速寻找到当天更新的内容，这样更加有利于蜘蛛提高效果。