从robots.txt开始网页爬虫之旅
来源:互联网 发布:下电视剧的软件 编辑:程序博客网 时间:2024/04/30 09:20
做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
那我们应该怎样使用robots.txt呢?
第一: robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
第二:必须遵循以下语法:
最简单的 robots.txt 文件使用三条规则:
:User-Agent: 适用下列规则的漫游器(比如百度(Baiduspider)、Google(Googlebot))
:Disallow: 要拦截的网页(可以和)
:Allow: 允许语法(Disallow结合起来使用)
接下来让我们看下实际应用。
一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们可以写以下robots.txt内容:
User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
如果你想允许所有搜索引擎访问网站的所有部分
1、你可以建立一个空白的文本文档,命名为robots.txt
2、User-agent: *
Disallow:
3、User-agent: *
Allow: /
如果你想禁止所有搜索引擎访问网站的所有部分,把上面2中改成 Disallow: / 就可以了
如果你想禁止百度 User-agent: Baiduspider
如果你想禁止除Google外的一切搜索引擎
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
注:其实并非所有的爬虫都会遵从robots.txt协议的,因为我们可以制造恶意爬虫,哈哈
- 从robots.txt开始网页爬虫之旅
- 爬虫中robots.txt
- SEO之:robots.txt
- 爬虫出现Forbidden by robots.txt
- scrapy爬虫出现Forbidden by robots.txt
- scrapy爬虫出现Forbidden by robots.txt
- 爬虫出现Forbidden by robots.txt
- 百度爬虫robots.txt文件规范
- 爬虫系列8解析robots.txt
- web之小小robots.txt
- Linux企业级项目实践之网络爬虫(29)——遵守robots.txt
- Python爬虫之爬取——解析robots.txt文件
- robots.txt。
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- robots.txt
- windows上Python开发--3.Django的基础知识
- 一路承载着自然与岁月的风霜雨露
- FregServer进程,返回BR_REPLY
- 2014百度之星资格赛第三题
- msdtc 配置
- 从robots.txt开始网页爬虫之旅
- js实现toolTip
- Bearcat pomelo game 实战 -- treasures
- apache pk nginx pk Lighttpd
- 首次安装“超市通”、“金管家”等POS软件注意事项
- SQL 检索所有存储过程中是否包含某字符
- 传世界杯互联网彩票牌照倒计时 千亿级市场将爆发争夺战
- 二维数组(矩阵)对角线输出
- Android开发:三种实现定时器的方法