Python爬虫之urllib简单使用

来源:互联网 发布:2015十大网络神曲视频 编辑:程序博客网 时间:2024/05/22 01:45

1.什么是Urllib库

                      Urllib是一个Python提供的用于操作URL的模块

2.简单网页爬取

    (1)导入urllib库

    (2)使用urllib.request.urlopen打开并爬去一个网页

                          file=urllib.request.urlopen(url)将爬取到的网页内容赋给了file

  使用file.read()读取全部内容(可以将读取到的内容写进一个html文件)

                          filename=urllib.request.urlretrieve(url,filename=“本地文件地址”)可以直接写入filename文件之中,该过程中会出现一些缓存,使用urllib.request.urlcleanup()清除缓存

     (3)使用getcode()获取网页状态码//////////使用geturl()获取网页地址

               使用urllib.request.quote()进行编码,相反urllib.request.unquote()进行解码

原创粉丝点击