程序博客网 > 投稿被怀疑数据造假

Python3伪装浏览器爬虫读取网页内容

来源：互联网发布：投稿被怀疑数据造假编辑：程序博客网时间：2024/05/17 08:01

原文链接

有些网站加了保护，CSDN、***、等等很多网站都这样，这就必须要伪装浏览器正常访问了，类似蜘蛛爬虫一样，那么只有给代码加上一个Header，再试试读取HTML。

声明：以下代码在Python 3.3中编写调试完成！

原来想这样实现:

?
1
2
3
4
`importurllib.request`
`url="http://www.oschina.net/"`
`data=urllib.request.urlopen(url).read()`
`print(data)`

后来是这样：

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
`'''`
`Created on 2013-1-27`
`@author: isaced`
`'''`
`importurllib.request`

`url="http://www.oschina.net/"`
`headers=('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11')`

`opener=urllib.request.build_opener()`
`opener.addheaders=[headers]`
`data=opener.open(url).read()`

`print(data)`

0 0

投稿被怀疑数据造假

投稿被怀疑数据造假

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子小爸爸大飞小爸爸大儿子小爸爸里的男孩小爸爸18 小爸爸在线播放小爸爸1 小爸爸同款小爸爸14 小爸爸穿帮小爸爸前女友小爸爸系列我爸爸是小爸爸什么时候拍的小爸爸10 小爸爸剧集杜卡迪小爸爸免费下载小爸爸小爸爸不小宝宝爸爸粉小狞小爸爸 xi小爸爸小爸爸在小爸爸羽绒服小爸爸综艺我的同学小爸爸李若雅小爸爸孩子爸爸变小于果小爸爸小爸爸妈妈小爸爸5 小爸爸12 小爸爸27 小爸爸剧组小爸爸姗姗小爸爸演小爸爸夏天演员表小爸爸演员表夏天 1小爸爸小爸爸评论小爸爸评价小爸爸8