百度蜘蛛是如何在网站上面爬行的
来源:互联网 发布:zookeeper 集群 linux 编辑:程序博客网 时间:2024/04/29 10:54
站长可能对百度蜘蛛的爬行非常好奇,今天我们来讲讲这一问题,大家平均主要是做百度优化,那么自然会关心百度蜘蛛到底是如何工作的呢,当你的网站提交了百度搜索引擎之后,接下来,蜘蛛就会寻找robots协议,按照该协议上面的规则来爬行,如果你在robots协议上面禁止蜘蛛爬行一些目录或一些文件的话,蜘蛛就不会爬行这些目录或者文件。
一般情况下,蜘蛛会分两种情况爬行,一种是广度来爬行,比如先爬行首页,再爬行栏目页,再爬行内容页,按照一层一层这样爬行,另外一种是按照深度来爬行,从当蜘蛛在首页爬行的时候,会依次顺着链接一个一个去抓取,只有你的网站上面的链接链接越丰富,那么蜘蛛会爬得越勤快,如果内容质量好,蜘蛛会更加喜欢你的网站。
可是,当我们去查看网站日志的时候,会发现,其实蜘蛛并不这样爬行的,好像爬行的时候没有什么规则,一会儿这个页面爬一下,一会儿那个页面爬一下。这会让看不懂,有的时候,明明蜘蛛偏偏不看待当天更新的页面,而是继续爬行一些老页面,这会让站长很担心,要是当天更新的文章被高权重网站转载了,可能自己网站上面的文章会被认为是转载的,这会让站长很纠结。其实这个问题到现在为止还存在,当蜘蛛先抓取到转载的文章的话,那么你的原创文章会被误以为是转载的。
但我们可以想办法改进,比如在自己的网站顶部加一个网站地图功能,让蜘蛛可以快速寻找到当天更新的内容,这样更加有利于蜘蛛提高效果。
一般情况下,蜘蛛会分两种情况爬行,一种是广度来爬行,比如先爬行首页,再爬行栏目页,再爬行内容页,按照一层一层这样爬行,另外一种是按照深度来爬行,从当蜘蛛在首页爬行的时候,会依次顺着链接一个一个去抓取,只有你的网站上面的链接链接越丰富,那么蜘蛛会爬得越勤快,如果内容质量好,蜘蛛会更加喜欢你的网站。
可是,当我们去查看网站日志的时候,会发现,其实蜘蛛并不这样爬行的,好像爬行的时候没有什么规则,一会儿这个页面爬一下,一会儿那个页面爬一下。这会让看不懂,有的时候,明明蜘蛛偏偏不看待当天更新的页面,而是继续爬行一些老页面,这会让站长很担心,要是当天更新的文章被高权重网站转载了,可能自己网站上面的文章会被认为是转载的,这会让站长很纠结。其实这个问题到现在为止还存在,当蜘蛛先抓取到转载的文章的话,那么你的原创文章会被误以为是转载的。
但我们可以想办法改进,比如在自己的网站顶部加一个网站地图功能,让蜘蛛可以快速寻找到当天更新的内容,这样更加有利于蜘蛛提高效果。
- 百度蜘蛛是如何在网站上面爬行的
- 如何利用蜘蛛爬行的网站
- “蜘蛛陷阱”是阻止蜘蛛程序爬行网站的障碍物
- seo -- 如何阻止百度蜘蛛对你的网站的爬行
- 浅谈百度蜘蛛的爬行
- 如何禁止搜狗蜘蛛爬行你的网站
- 合肥seo:如何引来网站蜘蛛的爬行呢?
- 利用网站日志分析百度蜘蛛爬行规律
- seo - 如何彻底阻止百度对网站的爬行
- seo - 如何彻底阻止百度对网站的爬行
- 通过HTTP状态代码查看搜索引擎蜘蛛如何爬行你的网站
- \t\t针对搜索引擎该如何“引诱”蜘蛛爬行网站
- 如何让百度蜘蛛每天抓取你网站的内容
- 如何设置apache日志记录蜘蛛爬行
- 让人迷惑的200 0 64百度蜘蛛爬行记录
- ecshop 蜘蛛爬行记录的实现
- 纯CSS3实现的蜘蛛爬行动画
- IIS日记与百度蜘蛛爬行之完全攻略
- phpcms文件命名规则
- C++:静态联编和动态联编
- PAT1001. A+B Format (20)
- win32线程池代码(WinApi/C++)
- 菜鸟和你一起学“快速排序” C++实现
- 百度蜘蛛是如何在网站上面爬行的
- 最好用的股票软件
- hdu 1556 Color the ball(线段树)
- 提高网页性能——引入javascript
- 使用 GDB 调试多进程程序
- PAT1002. A+B for Polynomials (25)
- Java程序优化的一些最佳实践
- hdu 1692 Destroy the Well of Life
- iPhone开源项目汇总(更新版)