python3使用urllib模块制作网络爬虫
来源:互联网 发布:手机科幻特效软件 编辑:程序博客网 时间:2024/05/18 09:46
urllib
urllib模块是python3的URL处理包
其中:
1、urllib.request主要是打开和阅读urls
个人平时主要用的1:
打开对应的URL:urllib.request.open(url)
用urllib.request.build_opener([handler, ...]),来伪装成对应的浏览器
import urllib#要伪装成的浏览器(我这个是用的chrome)headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')url='http://hotels.ctrip.com/'opener = urllib.request.build_opener()#将要伪装成的浏览器添加到对应的http头部opener.addheaders=[headers]#读取相应的urldata = opener.open(url).read()#将获得的html解码为utf-8data=data.decode('utf-8')print(data)
2、urllib.parse主要是用来解析url
主要方法:
urllib.parse.urlparse(urlstring)
功能:将对应的URL解析成六部分,并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)
import urllibo = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')print(o)print(o.path)print(o.scheme)print(o.port)print(o.geturl())
对应的结果:
ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html
3、构建一个新的url——urllib.parse.urljoin(base, url)
参数:base:基本的URL链接
url:另一个url
from urllib.parse import urljoina=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')print(a)
结果:http://www.cwi.nl/%7Eguido/FAQ.html
这个函数在爬虫的时候应该方便多了,我之前用的是比较笨的方法直接字符串拼接
4、异常处理 urllib.error
用 try-except来捕捉异常
主要的错误方式就两种 URLError和HTTPError
因为HTTPError是URLError的子类,所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲,找到父亲,不一定知道儿子。
try: data=urllib.request.urlopen(url) print(data.read().decode('utf-8'))except urllib.error.HTTPError as e: print(e.code)except urllib.error.URLError as e: print(e.reason)
结果:[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。
如果捕获到了HTTPError,则输出code,不会再处理URLError异常。如果发生的不是HTTPError,则会去捕获URLError异常,输出错误原因
- python3使用urllib模块制作网络爬虫
- Python3 urllib模块使用
- urllib模块爬虫在Python2在Python3中的使用
- python3网络爬虫一《使用urllib.request发送请求》
- 【Pyhton网络爬虫】网络请求使用的urllib模块
- Python3网络爬虫(三):urllib.error异常
- python3 基于urllib模块的网络编程
- Python3 urllib(网络数据获取 模块)
- Python3 urllib(网络数据获取 模块)
- Python3学习笔记 urllib模块的使用
- 【笔记】3、初学python3网络爬虫——urllib库的使用
- python3.4爬虫——urllib等模块的引用
- python3爬虫攻略(1):urllib.request使用(1)
- Python3 urllib库爬虫 基础
- python3 urllib 爬虫乱码问题解决
- python3 urllib爬虫抓取记录
- Python3学习笔记(urllib模块的使用)
- python3.x中的urllib模块
- 图像处理之二值膨胀及应用
- nginx之 nginx-1.9.7 编译安装、理论简介
- ant
- 快速入门系列--MVC--07与HTML5移动开发的结合
- 一道Java集合框架题 多种解题思路
- python3使用urllib模块制作网络爬虫
- 使用editplus将文件批量转化为utf-8格式
- 为你的spring cloud微服务添加宕机邮件通知
- 学习java的那些政策
- 004_Docker运行流程
- pyhotn3入门基础-12 迭代器
- 2. Python
- 推荐系统:概述
- Javascript模块化编程(一)