Python（17）：伪装成浏览器读取网页信息

来源：互联网发布：淘宝网半袖编辑：程序博客网时间：2024/06/05 14:54

我用的是Python3和urllib2，想用来读取网页页面上的内容。

但是有的时候读不了。

出现urllib2.HTTPError: HTTP Error 403: Forbidden错误是由于网站禁止爬虫，可以在请求加上头信息，伪装成浏览器访问。

import urllib  headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}  req = urllib.request.Request(url = 'http://www.huadu.gov.cn/xxgk/jgsz/sydw/',headers = headers)  data = urllib.request.urlopen(req).read()data = data.decode('gbk')

至于网页编码的话，有些网页是utf-8，有些是gbk。这个试试就好了，其他应该没什么问题。

阅读全文

0 0

Python（17）：伪装成浏览器读取网页信息
Python伪装浏览器爬虫读取网页内容
Python伪装浏览器爬虫读取网页内容
Python3伪装浏览器爬虫读取网页内容
python学习（三）伪装成浏览器
【python学习笔记】伪装浏览器爬取网页
python爬虫伪装成浏览器访问
python爬虫浏览器伪装
python浏览器伪装技术
Python 网络爬虫系列(二) --- 伪装成浏览器访问
爬虫伪装成浏览器访问
Python伪装浏览器请求爬虫豆瓣小组
Python伪装浏览器刷博客浏览量
python 爬虫伪装成 chrome
Python爬虫设置代理IP和伪装成浏览器的方法
Firefox修改UserAgent伪装成手机浏览器
Python3 爬虫（二） -- 伪装浏览器
Python3 爬虫（二） -- 伪装浏览器
Sublime Text 3 快捷键总结（转载）
Eclipse下常用的快捷键
常用的网页加载进度条
HDU 6059 Kanade's trio（字典树）
return continue break
Python（17）：伪装成浏览器读取网页信息
mysql常用操作汇总
cacti监控使用
ACM DP 最长公共子序列Lcs
Linux网络编程（二）TCP协议通信
排序算法总结篇（一）
常见的Java设计模式
Java 语言基础程序练习
Java传统的时间格式化的线程安全问题