Python 网络爬虫--简单的爬取一些防爬取的网站
来源:互联网 发布:人工智能哪个技术 编辑:程序博客网 时间:2024/05/21 17:23
网站防采集的前提就是要正确地区分人类访问用户和网络机器人。虽然网站可以使用很多识别技术(比如验证码)来防止爬虫,但还是有一些十分简单的方法,可以让你的网络机器人看起来更像人类访问用户。
构造HTTP 请求头,可以使机器人网络爬取机器人更像一个访问用户
1.在没有使用HTTP请求头时,我们来获取CSDN一篇博客的网页内容时情况是这样的:
代码如下:
# coding utf-8import requestsdef get_content(): html = requests.get("http://blog.csdn.net/m_wbcg/article/details/70243372") return html.textprint(get_content())
结果:
<html>
<head><title>403 Forbidden</title></head>
<body bgcolor="white">
<center><h1>403 Forbidden</h1></center>
<hr><center>nginx</center>
</body>
</html>
请求被禁止掉了
2.使用HTTP请求头时。
代码如下:
# coding utf-8import requestsdef get_content(): header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36' } html = requests.get("http://blog.csdn.net/m_wbcg/article/details/70243372",headers=header) return html.textprint(get_content())
结果:
这次我们就得到了我们想得到的结果了
构造合理的HTTP请求头只是最简单的一种方法
最后推荐一篇博客:http://www.cnblogs.com/junrong624/p/5533655.html
0 0
- Python 网络爬虫--简单的爬取一些防爬取的网站
- python爬虫----简单的图片爬取
- java网络编程____最简单的爬虫(爬取网站美女图片)
- 【Python网络爬虫学习02】爬取有效的网站验证码
- Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
- Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页
- [笔记]python网络爬虫:一个简单的爬取图片并存储示例
- [笔记]python网络爬虫:一个简单的定向爬取大学排名信息示例
- 网络爬虫爬取策略,注意爬虫爬取网站的频率
- [python]简单的网络爬虫
- Python爬虫——爬取网站的图片
- 一个简单的网络爬虫---爬取网页中的图片
- Pyhon 网络爬虫--简单的爬取功能
- Python可自动登录爬取图片的网络爬虫
- python爬虫实现网络股票信息爬取的demo
- 简单的python爬虫(爬取百度百科词条)
- python简单爬虫爬取队列的实现
- Python爬虫学习笔记(1):简单的图片爬取
- WAJUEJI which home strong!
- MySQL选出指定数量的字符SUBSTRING_INDEX
- ORA-01858: 在要求输入数字处找到非数字字符 and ORA-01007: 变量不在选择列表中
- 55-比较字符串
- 练习:用脚本文件实现对虚拟机的控制
- Python 网络爬虫--简单的爬取一些防爬取的网站
- hbase多master和动态添加节点
- 移植qrencode到ARM-Linux,实现字符串生成二维码图片
- APP编译报最大方法数超65k解决方案总结
- SDUT 3360 学生信息的添加与查询
- PBOC/EMV之圈存模式的变革
- linux怎样利用scp从服务器复制到另外的服务器上
- 小米3刷机CM13
- Linux tar压缩解压缩命令详解