python笔记10--urllib模块

来源:互联网 发布:联想win7还原软件 编辑:程序博客网 时间:2024/05/16 18:39

urllib是python内置一个上层的接口模块,可以从http或ftp上获取文件,这里讲urllib中的两个核心函数列出:

核心函数1. urllib.urlopen()

help(urllib.urlopen)会得到其参数和功能:

参数:

urlopen(url,data=None,proxies=None)

url:表示远程数据或文件的路径,一般是http或ftp这类网址

data:表示以get或者post的方式提交到url的数据

proxies:主要是用于代理的设置

功能:

Create a file-like object for the specified URL to read from

为指定的要读取的URL创建一个类文件对象(其实就是相当于返回一个句柄,为了方便下面对url的数据进行操作)

这里的返回对象有 一下常用的四种方法:

(1).read(),readline(),close(),其实就是跟文件的读写操作类似

(2).info(),返回远程服务器的相关信息

(3).getcode(),200表示成功,404表示失败

(4).geturl(),返回请求的url


核心函数2.urllib.urlretrieve()

参数:

urlretrieve(url, filename=None, reporthook=None, data=None)

url:表示远程数据或文件的路径,一般是http或ftp这类网址

filename:保存到本地的路径,如没有设置则默认返回一个由urllib临时生成的文件

reporthook:回调函数,连上服务器可显示回调信息,比如下载进度,自己通过def进行定义

data:post到服务器的数据

功能:

将远程文件下载到本地


总结:一般都是都过urlopen来获取网页信息,而后联系正则表达式进行相应文件的获取,再通过urlretrieve来进行相应的下载



0 0
原创粉丝点击