【python学习笔记】伪装浏览器爬取网页
来源:互联网 发布:声音对比分析软件 编辑:程序博客网 时间:2024/05/31 06:23
1、起因
伪装成功。
想要从和讯网上爬取数据,写下代码如下:
url = 'http://stockdata.stock.hexun.com/601398.shtml'resp = urllib2.urlopen(url)html = resp.read()print html
运行后提示“urllib2.HTTPError: HTTP Error 403: Forbidden”。
2、分析
通过将程序伪装成浏览器,可以解决此问题。
3、解决
将程序伪装成浏览器,需要在程序获取网页数据时填加headers。
填加headers,需要使用到Request(首字母大写)。
url = 'http://stockdata.stock.hexun.com/601398.shtml'header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}req = urllib2.Request(url, headers = header)resp = urllib2.urlopen(req)html = resp.read()print html
伪装成功。
0 0
- 【python学习笔记】伪装浏览器爬取网页
- Python伪装浏览器爬虫读取网页内容
- Python伪装浏览器爬虫读取网页内容
- python学习(三)伪装成浏览器
- 学习python爬取网页
- Python爬虫学习笔记-网页topN条目爬取
- python学习笔记(八)协程、爬取网页
- Python(17):伪装成浏览器读取网页信息
- python爬虫浏览器伪装
- python浏览器伪装技术
- 【网络爬虫】【python】网络爬虫(三):模拟登录——伪装浏览器登录爬取过程
- Python Scrapy 学习----自动爬取网页
- 爬虫学习笔记--爬取静态网页
- python爬取网页
- Python 网页爬取
- Python3伪装浏览器爬虫读取网页内容
- python爬虫伪装成浏览器访问
- Python伪装浏览器请求爬虫豆瓣小组
- 多线程初探(三)
- 自制简单发邮件jar包
- 关于iOS VPN开发[随进度更新]
- 天声人語 20160119 復活した「最強生物」
- Oculus Rift中OnGUI的处理
- 【python学习笔记】伪装浏览器爬取网页
- 亲密关系
- linux内存管理---虚拟地址、逻辑地址、线性地址、物理地址的区别
- 日经春秋 20160119
- 高并发的epoll+线程池,业务在线程池内
- C++实现约瑟夫环
- 写给程序员的 Mac OS X 入门指南
- A summary about gradient descent
- LeetCode 231 Power of Two(2的幂)