Python爬虫简单常用方法
来源:互联网 发布:宜兴俊知集团工资高吗 编辑:程序博客网 时间:2024/06/05 23:41
Q:什么是Urllib库?
A:Urllib库是Python中一个功能强大,用于操作URL,并在做爬虫项目时经常要用到的库。在Python2.X中,分为Urllib库和Urllib2库,但是在Python3.X之后合并到UrlLib中。
Q:Urllib升级合并后,常见的变化有哪些呢?
A:(1):在Python2.X中使用import.urllib2—对应的,在Python3.X中会使用import.urllib.request,urlib.error
(2):在Python2.X中使用import.urlparse—对应的,在Python3.X中会使用import.urllib.parse
(3):在Python2.X中使用import.urlopen—对应的,在Python3.X中会使用import.urllib.request.urlopen
(4):在Python2.X中使用import.urlencode—对应的,在Python3.X中会使用import.urllib.parse.urlencode
(5):在Python2.X中使用import.quote—对应的,在Python3.X中会使用import.urllib.request.quote
(6):在Python2.X中使用cookielib.CookieJar—对应的,在Python3.X中会使用http.CookieJar
(6):在Python2.X中使用cookielib.CookieJar—对应的,在Python3.X中会使用http.CookieJar
(7):在Python2.X中使用urllib2.Request—对应的,在Python3.X中会使用urllib.request.Request
常用方法
1. urllib.request.urlopen(“网址”) 返回文件对象
例如:file = urllib.request.urlopen(“https://www.baidu.com“)
此时可以通过文件对象的三种读取方法:.read(),readlines(),readline()
url.request.urlretrieve(“https://www.baidu.com“,filename=”本地文件地址”) 将爬取到的信息写入本地文件中
注意:urlretrieve执行过程中会产生一些缓存,如要清除这些缓存,可以使用urlcleanup()进行清除。如:urllib.request.urlcleanup() 。爬取的网页对象.info() 返回与当前环境有关的信息。
如:file = urllib.request.urlopen(“https://www.baidu.com“)
file.info()- 爬取的网页对象.getcode() 返回当前爬取网页的状态码
- 爬取的网页对象.geturl() 返回当前正在爬取的url地址
url乱码解决方案
Q:为什么会产生url乱码?
A:一般来说,url标准中只会允许出现一部分ASCII字符,比如数字,字母和部分符号,而其他的一些字符和汉字等等是不符合url标准,所以在url中如果有不合法字符就会产生乱码,这个就需要url编码才能解决。在urllib库中提供了urllib.request.quote()进行编码。
例如需要对网址”https://www.baidu.com“编码,可以通过下列代码实现:
urllib.request.quote(“https://www.baidu.com“)
既然存在编码,如果需要解码,可以通过urllib.request.unquote(“编码后的网址”)来进行解码。
以上是Python3.X中urllib库的简单运用
- Python爬虫简单常用方法
- python爬虫入门简单爬虫
- python常用爬虫库
- Python爬虫常用函数
- Python爬虫常用文档
- python-简单爬虫
- 简单python爬虫
- Python简单爬虫
- python 简单爬虫
- 简单python爬虫
- Python简单的爬虫
- Python简单爬虫
- python 简单爬虫实现
- python简单文本爬虫
- python超级简单爬虫
- python简单爬虫
- python简单爬虫程序
- python简单爬虫
- 华为余承东反思P10闪存门:急于表达造成不合适的回应
- mysql导出脚本自动生成word 数据字段perl工具
- 【loli的胡策】联校10.27(数学期望)
- Hibernate主键注解
- java二分查找
- Python爬虫简单常用方法
- 锂电池到底怎么才能又安全又强续航?这次研究人员用上了“冰”
- 亚马逊的机海战术?下个月或推出智能音箱新品对抗Google Home
- 百度引领AI产业增长与转型 股价长期看好
- 三星电子一季度净利暴增46%至68亿美元,为2013年以来最佳
- 杨元庆再谈转型:PC是基石,未来所有设备基于云
- HTML的类选择器
- bugku writeup web
- 单例模式简介