python爬虫基础

来源:互联网 发布:软件验收标准模板 编辑:程序博客网 时间:2024/06/03 17:05

          • robots文件
          • sitemap文件

robots文件

robots.txt文件一般放在网站根目录下,用于规范爬虫的行为,比如规定哪些爬虫不可以爬取,或哪些网页不可以爬取等等。
如:

User-agent: badDisallow: /User-Agent:goodDisallow:User-Agent:*Disallow:/test

第一个是对于bad这个用户/代理,禁止爬取此网站所有网页
第二个是对于good这个用户/代理,允许爬取所有网页
第三个是对所有用户/代理,禁止爬取前缀为test的网页,如test.html

sitemap文件

sitemap.xml这个文件一般存放网站所有网页的地址

原创粉丝点击