Python(17):伪装成浏览器读取网页信息
来源:互联网 发布:淘宝网半袖 编辑:程序博客网 时间:2024/06/05 14:54
我用的是Python3和urllib2,想用来读取网页页面上的内容。
但是有的时候读不了。
出现urllib2.HTTPError: HTTP Error 403: Forbidden错误是由于网站禁止爬虫,可以在请求加上头信息,伪装成浏览器访问。
import urllib headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} req = urllib.request.Request(url = 'http://www.huadu.gov.cn/xxgk/jgsz/sydw/',headers = headers) data = urllib.request.urlopen(req).read()data = data.decode('gbk')至于网页编码的话,有些网页是utf-8,有些是gbk。这个试试就好了,其他应该没什么问题。
阅读全文
0 0
- Python(17):伪装成浏览器读取网页信息
- Python伪装浏览器爬虫读取网页内容
- Python伪装浏览器爬虫读取网页内容
- Python3伪装浏览器爬虫读取网页内容
- python学习(三)伪装成浏览器
- 【python学习笔记】伪装浏览器爬取网页
- python爬虫伪装成浏览器访问
- python爬虫浏览器伪装
- python浏览器伪装技术
- Python 网络爬虫系列(二) --- 伪装成浏览器访问
- 爬虫伪装成浏览器访问
- Python伪装浏览器请求爬虫豆瓣小组
- Python伪装浏览器刷博客浏览量
- python 爬虫 伪装成 chrome
- Python爬虫设置代理IP和伪装成浏览器的方法
- Firefox修改UserAgent伪装成手机浏览器
- Python3 爬虫(二) -- 伪装浏览器
- Python3 爬虫(二) -- 伪装浏览器
- Sublime Text 3 快捷键总结(转载)
- Eclipse下常用的快捷键
- 常用的网页加载进度条
- HDU 6059 Kanade's trio(字典树)
- return continue break
- Python(17):伪装成浏览器读取网页信息
- mysql常用操作汇总
- cacti监控使用
- ACM DP 最长公共子序列Lcs
- Linux网络编程(二)TCP协议通信
- 排序算法总结篇(一)
- 常见的Java设计模式
- Java 语言基础 程序练习
- Java传统的时间格式化的线程安全问题