Python3 抓取网页资源的N种方法
来源:互联网 发布:淘宝直播安卓版可以吗 编辑:程序博客网 时间:2024/05/07 09:41
1、最简单
import urllib.requestresponse = urllib.request.urlopen('http://python.org/')html = response.read()
2、使用 Request
import urllib.requestreq = urllib.request.Request('http://python.org/')response = urllib.request.urlopen(req)the_page = response.read()
3、发送数据
#! /usr/bin/env python3import urllib.parseimport urllib.requesturl = 'http://localhost/login.php'user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'values = {'act' : 'login','login[email]' : 'yzhang@i9i8.com','login[password]' : '123456'}data = urllib.parse.urlencode(values)req = urllib.request.Request(url, data)req.add_header('Referer', 'http://www.python.org/')response = urllib.request.urlopen(req)the_page = response.read()print(the_page.decode("utf8"))
4、发送数据和header
#! /usr/bin/env python3import urllib.parseimport urllib.requesturl = 'http://localhost/login.php'user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'values = {'act' : 'login','login[email]' : 'yzhang@i9i8.com','login[password]' : '123456'}headers = { 'User-Agent' : user_agent }data = urllib.parse.urlencode(values)req = urllib.request.Request(url, data, headers)response = urllib.request.urlopen(req)the_page = response.read()print(the_page.decode("utf8"))
5、http 错误
#! /usr/bin/env python3import urllib.requestreq = urllib.request.Request('http://www.python.org/fish.html')try:urllib.request.urlopen(req)except urllib.error.HTTPError as e:print(e.code)print(e.read().decode("utf8"))
6、异常处理1
#! /usr/bin/env python3from urllib.request import Request, urlopenfrom urllib.error import URLError, HTTPErrorreq = Request("http://twitter.com/")try:response = urlopen(req)except HTTPError as e:print('The server couldn\'t fulfill the request.')print('Error code: ', e.code)except URLError as e:print('We failed to reach a server.')print('Reason: ', e.reason)else:print("good!")print(response.read().decode("utf8"))
7、异常处理2
8、HTTP 认证
9、使用代理
#! /usr/bin/env python3import urllib.requestproxy_support = urllib.request.ProxyHandler({'sock5': 'localhost:1080'})opener = urllib.request.build_opener(proxy_support)urllib.request.install_opener(opener)a = urllib.request.urlopen("http://g.cn").read().decode("utf8")print(a)
10、超时
#! /usr/bin/env python3import socketimport urllib.request# timeout in secondstimeout = 2socket.setdefaulttimeout(timeout)# this call to urllib.request.urlopen now uses the default timeout# we have set in the socket modulereq = urllib.request.Request('http://twitter.com/')a = urllib.request.urlopen(req).read()print(a)
0 0
- python3 抓取网页资源的 N 种方法
- Python3 抓取网页资源的N种方法
- python3 抓取网页资源的 N 种方法
- python3 抓取网页资源的 N 种方法
- python3 抓取网页资源的 N 种方法
- python3 抓取网页资源的 N 种方法
- python3 抓取网页资源的 N 种方法
- python3 抓取网页资源的 N 种方法
- Python 3 抓取网页资源的 N 种方法
- Python 3 抓取网页资源的 N 种方法
- Python 3 抓取网页资源的 N 种方法
- Python 3 抓取网页资源的 N 种方法
- python3.x 抓取网页资源
- 我的python学习之路----Python 3 抓取网页的 N 种方法
- 使用 Python3 抓取网页的简单范例
- Python3抓取网页图片
- Python3网页抓取urllib
- 抓取网页数据的几种方法
- 用户态程序如何判断一段虚地址空间是否有效
- 网站设计师是从哪里入手的?
- unity开发相关环境(vs、MonoDevelop)windows平台编码问题
- I2C设备驱动详述
- Java虚拟机学习 - JDK可视化监控工具
- Python3 抓取网页资源的N种方法
- VMware Workstation 安装tool
- GDB下显示完整的长字符串
- 17周项目二,3,(数组名做形参) .
- WCF异步调用中客户端关闭带来的性能问题
- git 添加本地工程到github
- Java虚拟机学习 - 对象引用强度
- svnbook官方文档
- 一些有趣的编程名言