python3爬虫基础

来源：互联网发布：网络骑士哪一部最好看编辑：程序博客网时间：2024/05/21 06:18

首先介绍urllib库，用于操作url，在做爬虫时经常会用到。本文用python3进行介绍。

一：快速使用urllib爬取网页：

1.倒入相应模块：

import urllib.request

2.使用urlopen打开并爬取一个网页：

file=urllib.request.urlopen('http://www.baidu.com')

3.将网页内容读出来，赋值给data:

data=file.read()

4.把对应数据保存到本地：

f=open('E:/crawlerData/1.html','wb')f.write(data)f.close()

此时爬去的网页文件就在对应路径下了。

注意：1.常见的三种读取方式区别：

（1）file.read(),读取文件的全部内容，赋值给一个字符串变量。

（2）file.readlines():读取文件的全部内容，赋值给一个列表变量。若要读取全部内容，推荐用这种方式。

（3）file.read:读取文件的一行内容。

2.可以使用urllib.request.urlretrieve()函数直接将对应信息写入本地文件：

filename=urllib.request.urlretrieve("http://www.baidu.com",filename='E:/crawlerData/1.html')
3.返回与当前环境有关的信息：

file.info()

4.获取网页当前的状态码，若返回200为正确。

file.getcode()

5,编码：

urllib.request.quote("http://www.sina.com")Out[5]: 'http%3A//www.sina.com'

6解码：

urllib.request.unquote('http%3A//www.sina.com')Out[6]: 'http://www.sina.com'

阅读全文

0 0