Python(17):伪装成浏览器读取网页信息

来源:互联网 发布:淘宝网半袖 编辑:程序博客网 时间:2024/06/05 14:54

我用的是Python3和urllib2,想用来读取网页页面上的内容。

但是有的时候读不了。

出现urllib2.HTTPError: HTTP Error 403: Forbidden错误是由于网站禁止爬虫,可以在请求加上头信息,伪装成浏览器访问。

import urllib  headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}  req = urllib.request.Request(url = 'http://www.huadu.gov.cn/xxgk/jgsz/sydw/',headers = headers)  data = urllib.request.urlopen(req).read()data = data.decode('gbk')  
至于网页编码的话,有些网页是utf-8,有些是gbk。这个试试就好了,其他应该没什么问题。