网页不收录,都是邀请制惹的祸
来源:互联网 发布:在线视频源码 编辑:程序博客网 时间:2024/05/18 03:55
前方高能——本篇文章是攻城狮们根据日常收到的case整理而来,亲自编写,希望站长亲们给个好评哦!
平台攻城狮近日接到了百度内部用户的反馈,说lvshi.baidu.com站点的收录情况比较差,希望协助追查原因。
攻城狮追查的过程如下:
首先通过site语法检索,发现收录量确实比较少,只有11条,而且还发现一部分是死链数据。
然后根据用户反馈的部分url,检测发现这批链接在2016年12月26日当天已经就已经抓取回来了,首次抓取上是没有问题;
http://lvshi.baidu.com/help/about/story
http://lvshi.baidu.com/help/about/contact
http://lvshi.baidu.com/help/user/guide
http://lvshi.baidu.com/help/user/question
http://lvshi.baidu.com/help/user/feedback
http://lvshi.baidu.com/help/cooperation/provider
http://lvshi.baidu.com/goods?categoryid=1
http://lvshi.baidu.com/goods/33
紧接着发现这批网页都被百度爬虫判定为空短页面,从网页库中获取当时的抓取页面,检查发现这些页面抓取回来的内容是一样的,都是提示让输入邀请码。
被百度爬虫判断为空短页面,肯定是不能被百度搜索收录的。
有站长可能会问,那等网站全部开放后,是不是就可以收录了呢?对于百度爬虫来说,当对一个网站抓取后发现大面积都是低值的空短页面时,爬虫会认为这个站点的整体价值比较低,那么在后面的抓取流量分布上会降低,导致针对该站点的页面更新会比较慢,进而收录也会比较慢。这里学院君再次强调一下,不要让爬虫给站点画上不优质的标签哦,后果很严重!
那么该如何避免呢?方法其实比较简单,网站在邀请测试阶段使用robots封禁就可以。
- 网页不收录,都是邀请制惹的祸
- 如何让Google不收录我的网页(Robots)
- 网页相似度高造成百度不收录的解决方法
- 都是‘/’惹的祸
- 男人都是不完美的
- 关于百度收录减少和不被收录的原因
- 都是分词模式惹的祸——庖丁解牛分词查询不出结果问题
- 都是Gmail惹的祸。
- 都是Gmail惹的祸
- 都是咖啡惹的祸~
- 都是公款惹的祸
- 都是进步惹的祸!
- 都是"魔波"惹的祸
- 都是一句话惹的祸
- 都是内存惹的祸
- 都是base惹的祸
- 都是习惯惹的祸
- 都是包包惹的祸
- 三行搞定md5加密
- 虚表(探讨多态的原理)菱形虚拟继承
- iOS动画进阶 - 手摸手教你写ShineButton动画
- Android App引导页
- 改版工具怎么用,你知道吗?
- 网页不收录,都是邀请制惹的祸
- 移动体验大作战,冰桶算法全盘点
- maven-- web层中创建jsp时出错
- Mysql分析-show PROCESSLIST
- C++ 虚表(探索多态的原理)和菱形继承
- 这些违规落地页广告,你都知道吗?
- Jsp/Servlet及其相关技术详解复习总结
- 监听浏览器hash变化和html5 pullstate特性
- [LeetCode 27 Remove Element ]