Python3伪装浏览器爬虫读取网页内容
来源:互联网 发布:投稿被怀疑数据造假 编辑:程序博客网 时间:2024/05/17 08:01
原文链接
有些网站加了保护,CSDN、***、等等很多网站都这样,这就必须要伪装浏览器正常访问了,类似蜘蛛爬虫一样,那么只有给代码加上一个Header,再试试读取HTML。
声明:以下代码在Python 3.3中编写调试完成!
原来想这样实现:
1234import
urllib.request
url
=
"http://www.oschina.net/"
data
=
urllib.request.urlopen(url).read()
print
(data)
1
2
3
4
import
urllib.request
url
=
"http://www.oschina.net/"
data
=
urllib.request.urlopen(url).read()
print
(data)
后来是这样:
1234567891011121314'''
Created on 2013-1-27
@author: isaced
'''
import
urllib.request
url
=
"http://www.oschina.net/"
headers
=
(
'User-Agent'
,
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'
)
opener
=
urllib.request.build_opener()
opener.addheaders
=
[headers]
data
=
opener.
open
(url).read()
print
(data)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
'''
Created on 2013-1-27
@author: isaced
'''
import
urllib.request
url
=
"http://www.oschina.net/"
headers
=
(
'User-Agent'
,
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'
)
opener
=
urllib.request.build_opener()
opener.addheaders
=
[headers]
data
=
opener.
open
(url).read()
print
(data)
0 0
- Python3伪装浏览器爬虫读取网页内容
- Python伪装浏览器爬虫读取网页内容
- Python伪装浏览器爬虫读取网页内容
- Python3 爬虫(二) -- 伪装浏览器
- Python3 爬虫(二) -- 伪装浏览器
- Python3 爬虫--伪装
- Python3-伪装浏览器
- 爬虫的浏览器伪装
- python爬虫浏览器伪装
- python3爬虫伪装代理IP
- Python(17):伪装成浏览器读取网页信息
- 爬虫伪装成浏览器访问
- 简单Python3爬虫程序(2)进阶:伪装浏览器、超时功能、保存数据
- python3实现网络爬虫(5)--模拟浏览器抓取网页
- Python3网络爬虫:requests爬取动态网页内容
- python爬虫伪装成浏览器访问
- Python伪装浏览器请求爬虫豆瓣小组
- python3 动态网页爬虫
- BZOJ2456 Mode & zju2132 The Most Frequent Number
- 吉他泛音分析
- HDU-4394 Digital Square(DFS)
- 黑马程序员——正则表达式
- 如何高效的工作
- Python3伪装浏览器爬虫读取网页内容
- 理解PHP对象注入
- Android Nexus6 和iPhone6内置应用对比分析
- 欢迎使用CSDN-markdown编辑器
- 解决Ubuntu下无法启动Weka GUI
- 手动创建复杂格式的长微博
- leetcode N-Queens I & II N皇后问题
- 单点登录之CAS SSO从入门到精通(第二天)
- 项目管理与“三岁看老”