python爬虫基础
来源:互联网 发布:软件验收标准模板 编辑:程序博客网 时间:2024/06/03 17:05
- robots文件
- sitemap文件
robots文件
robots.txt文件一般放在网站根目录下,用于规范爬虫的行为,比如规定哪些爬虫不可以爬取,或哪些网页不可以爬取等等。
如:
User-agent: badDisallow: /User-Agent:goodDisallow:User-Agent:*Disallow:/test
第一个是对于bad这个用户/代理,禁止爬取此网站所有网页
第二个是对于good这个用户/代理,允许爬取所有网页
第三个是对所有用户/代理,禁止爬取前缀为test的网页,如test.html
sitemap文件
sitemap.xml这个文件一般存放网站所有网页的地址
阅读全文
0 0
- python爬虫-->爬虫基础
- Python爬虫入门基础
- python爬虫基础
- Python爬虫基础
- Python爬虫基础实例教程
- python爬虫基础A
- python爬虫基础学习
- Python爬虫基础-1
- Python爬虫基础-2
- Python爬虫基础-3
- Python爬虫基础-4
- Python爬虫基础
- python爬虫基础-Cookies
- python 爬虫基础学习
- Python爬虫_基础
- [python]爬虫基础
- Python爬虫基础_0
- Python 爬虫基础Headers
- LeetCode 3Sum C++
- 前端面试指南CSS篇
- 杂谈:Gamemaker 2d游戏引擎
- Educational Codeforces Round 26 C. Two Seals
- 2017 Multi-University Training Contest
- python爬虫基础
- 如何写出高质量的代码?
- JSP九大内置对象及四个作用域
- Pixy(CMUCAM5)入门学习
- (四)linux进程通讯方式,无名、标准、有名管道
- 受限玻尔兹曼机RBM最通俗易懂的教程
- 责任链模式
- 磁盘管理
- Nginx服务器的安装教程及其相关状态命令