Python爬虫之urllib简单使用
来源:互联网 发布:2015十大网络神曲视频 编辑:程序博客网 时间:2024/05/22 01:45
1.什么是Urllib库
Urllib是一个Python提供的用于操作URL的模块
2.简单网页爬取
(1)导入urllib库
(2)使用urllib.request.urlopen打开并爬去一个网页
file=urllib.request.urlopen(url)将爬取到的网页内容赋给了file
使用file.read()读取全部内容(可以将读取到的内容写进一个html文件)
filename=urllib.request.urlretrieve(url,filename=“本地文件地址”)可以直接写入filename文件之中,该过程中会出现一些缓存,使用urllib.request.urlcleanup()清除缓存
(3)使用getcode()获取网页状态码//////////使用geturl()获取网页地址
使用urllib.request.quote()进行编码,相反urllib.request.unquote()进行解码
阅读全文
0 0
- Python爬虫之urllib简单使用
- Python爬虫之urllib简单下载内容
- Python爬虫实践(二):Urllib库的简单使用
- Python爬虫之urllib介绍
- python爬虫urllib使用B
- Python爬虫入门三之Urllib库的基本使用
- Python爬虫入门三之Urllib库的基本使用
- Python爬虫入门三之Urllib库的基本使用
- Python爬虫入门一之Urllib库的基本使用
- Python爬虫入门1之urllib库的使用
- Python爬虫入门三之Urllib库的基本使用
- Python爬虫入门三之Urllib库的基本使用
- python爬虫入门三之Urllib库的基本使用
- Python爬虫入门之Urllib库的基本使用 (三)
- Python爬虫入门三之Urllib库的基本使用
- Python爬虫入门三之Urllib库的基本使用
- Python爬虫入门三之Urllib库的基本使用
- python 爬虫之 Urllib库的基本使用
- HDU
- 蓝桥杯 算法提高 欧拉函数
- C#学习问题一:使用GDI+画图类进行图形绘制
- SVM进阶问题
- LeetCode #114
- Python爬虫之urllib简单使用
- 实现10进制转换为2进制
- 再谈java乱码:GBK和UTF-8互转尾部乱码问题分析
- 移动架构08_单例模式
- LeetCode题解 第四周
- mysql优化-索引类型
- 2017/10/1 学习日记
- ffmpeg 实现对图片逐帧的处理
- selector