小白自学Python3爬虫
来源:互联网 发布:2016网络最热门话题 编辑:程序博客网 时间:2024/05/16 23:32
2017.10.30
使用语言:Python3
使用IDE:pycharm
第一段程序:爬http.www.baidu.com页面
#导入uellib.request库,它是隶属于urllib的一个库,其主要功能是:#打开URL,大多数是httpimport urllib.requesturl="http://www.baidu.com"data=urllib.request.urlopen(url)#返回http.client.HTTPResponsedata=data.read()data=data.decode('Utf-8')print(data)
用Python处理简单的URL
#抓取百度上面搜索关键词为Jecvay Notes的网页import urllibimport urllib.requestdata={ }#data是一个字典data['word']='Jecvay Notes'#urlencode()把一个通俗的字符串, 转化为url格式的字符串url_values=urllib.parse.urlencode(data)#urllib.parse.urlencode()来将data转换为 ‘word=Jecvay+Notes’的字符串url="htttp://www.baidu.com/s?"full_url=url+url_valuesdata=urllib.request.urlopen(full_url)data=data.read()data=data.decode('UTF-8')print(data)
因为Python中list效率比较低,所以用collection.queue
官方介绍collection.queue使用在爬虫过程中为了不重复爬已经爬过的URL,我们将爬过的URL放到一个集合当中。2345678910from collections import dequequeue = deque(["Eric", "John", "Michael"])queue.append("Terry") # Terry 入队queue.append("Graham") # Graham 入队queue.popleft() # 队首元素出队#输出: 'Eric'queue.popleft() # 队首元素出队#输出: 'John'queue # 队列中剩下的元素#输出: deque(['Michael', 'Terry', 'Graham'])
Python中set提供了这种数据要求,set是一种具有无序、互异性的集合。
创建一个set可以使用set()或者{},但是空集合不能使用{},空的{}表示字典数据
2
3
4
5
6
7
8
9
10
fromcollectionsimportdeque
queue=deque(["Eric","John","Michael"])
queue.append("Terry") # Terry 入队
queue.append("Graham") # Graham 入队
queue.popleft() # 队首元素出队
#输出: 'Eric'
queue.popleft() # 队首元素出队
#输出: 'John'
queue # 队列中剩下的元素
#输出: deque(['Michael', 'Terry', 'Graham'])
阅读全文
0 0
- 小白自学Python3爬虫
- 小白自学Python3爬虫
- 小白Python3爬虫
- 爬虫自学笔记(Python3.6.1)
- 小白Python3爬虫3-5
- python3.4-小爬虫
- python3.3 爬虫小例子
- python3.4-小爬虫2
- 小白Python3爬虫—HTTP(二)
- 自学Python之小爬虫实例
- python3.2 多线程小爬虫一只
- python3爬虫简单小实例1.0
- python3爬虫简单小实例2.0
- 小白Python3爬虫—简介www和http(一)
- 小白 自学PHP
- python3 爬虫
- python3爬虫
- python3 爬虫
- 判断线程是否释放
- 基于开源项目搭建属于自己的技术堆栈
- SpringMVC类型转换、数据绑定详解[附带源码分析]
- spring切面表达式简单解析
- 2017/10/30计划
- 小白自学Python3爬虫
- 判断两单链表是否相交
- redis缓存和cookie实现Session共享
- linux常用知识
- 软件开发中各个字符集之间的区别
- 机器学习:决策树
- Python数据可视化
- 基于概率论的分类方法:朴素贝叶斯
- kafka安装命令记录