python3爬虫基础
来源:互联网 发布:网络骑士哪一部最好看 编辑:程序博客网 时间:2024/05/21 06:18
首先介绍urllib库,用于操作url,在做爬虫时经常会用到。本文用python3进行介绍。
一:快速使用urllib爬取网页:
1.倒入相应模块:
import urllib.request2.使用urlopen打开并爬取一个网页:
file=urllib.request.urlopen('http://www.baidu.com')
3.将网页内容读出来,赋值给data:
data=file.read()4.把对应数据保存到本地:
f=open('E:/crawlerData/1.html','wb')f.write(data)f.close()此时爬去的网页文件就在对应路径下了。
注意:1.常见的三种读取方式区别:
(1)file.read(),读取文件的全部内容,赋值给一个字符串变量。
(2)file.readlines():读取文件的全部内容,赋值给一个列表变量。若要读取全部内容,推荐用这种方式。
(3)file.read:读取文件的一行内容。
2.可以使用urllib.request.urlretrieve()函数直接将对应信息写入本地文件:
filename=urllib.request.urlretrieve("http://www.baidu.com",filename='E:/crawlerData/1.html')
3.返回与当前环境有关的信息:
file.info()4.获取网页当前的状态码,若返回200为正确。
file.getcode()
5,编码:
urllib.request.quote("http://www.sina.com")Out[5]: 'http%3A//www.sina.com'6解码:
urllib.request.unquote('http%3A//www.sina.com')Out[6]: 'http://www.sina.com'
阅读全文
0 0
- python3爬虫基础
- python3爬虫基础学习
- Python3 爬虫基础
- Python3 urllib库爬虫 基础
- python3 爬虫 零基础快速上手(爬虫示例)
- python3 爬虫
- python3爬虫
- python3 爬虫
- Python3 爬虫
- python3 爬虫(爬取网页、图片基础)
- python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
- python3 [入门基础实战] 爬虫入门之xpath的学习
- Python3 爬虫基础系列教程(亲测有效)
- 聚沙成塔--爬虫系列(二)(python3基础语法)
- python3 爬虫基础(一本书推荐)
- python3 多线程爬虫
- 自制 Python3爬虫
- python3.4-小爬虫
- 逻辑位运算
- word试题模板设计总结
- xml文档,dom树的增删改查
- 通配符类型
- java基础之File类详解
- python3爬虫基础
- Opencv 使用 GrabCut 算法进行交互式前景提取
- 记一个段错误问题
- 输入输出练习
- 思维的局限
- 数据结构之通用树
- (144)距离场环境遮挡
- For parallel
- C++ 全局变量、局部变量、静态全局变量、静态局部变量的区别