Python爬虫---理论基础
来源:互联网 发布:srs音效增强软件 编辑:程序博客网 时间:2024/06/06 08:43
其实爬虫没有大家想象的那么复杂,有时候也就是几行代码的事儿,千万不要把自己吓倒了。这篇就清晰地讲解一下利用Python爬虫的理论基础。
首先说明爬虫分为三个步骤,也就需要用到三个工具。
- 利用网页下载器将网页的源码等资源下载。
- 利用URL管理器管理下载下来的URL
- 利用网页解析器解析需要的URL,进而进行匹配。
网页下载器
网页下载器常用的有两个。一个是Python自带的urllib2模块;另一个是第三方控件requests。选用哪个其实差异不大,下一篇将会进行实践操作举例。
URL管理器
url管理器有三大类。
- 内存:以set形式存储在内存中
- 存储在关系型数据库mysql等
- 缓存数据库redis中
网页解析器
网页解析器一共有四类:
1.正则表达式,不过对于太复杂的匹配就会有些难度,属于模糊匹配。
2.html.parser,这是python自带的解析工具。
3.Beautiful Soup,一种第三方控件,顾名思义,美味的汤,用起来确实很方便,很强大。
4.lxml(apt.xml),第三方控件。
以上的这些全部属于结构化解析(DOM树)
什么式结构化解析(DOM)?
Document Object Model(DOM)是一种树的形式。
Beautiful Soup的语法
html网页—>创建BeautifulSoup对象—>搜索节点 find_all()/find()—>访问节点,名称,属性,文字等……
Beautiful Soup官方文档
阅读全文
0 0
- Python爬虫---理论基础
- 神经网络理论基础及 Python 实现
- 理论基础
- 理论基础
- python爬虫-->爬虫基础
- [爬虫] Python爬虫技巧
- Python爬虫
- python 爬虫
- python 爬虫
- python 爬虫
- python爬虫
- Python爬虫
- Python爬虫
- python 爬虫
- Python爬虫
- python爬虫
- python 爬虫
- python 爬虫
- Struts(5)——调用ServletAPI
- kubernetes基本术语
- HDU 6201 transaction transaction transaction
- python学习-浪费了一天
- jsp转载
- Python爬虫---理论基础
- 计算机语言(人机交互的桥梁)、java历史
- Intellij IDEA——快捷键使用(常更新)
- 折纸问题
- centos 创建ftp服务
- URAL
- PR视频字幕批量生成程序(用讯飞听见识别音频)
- 【爱奇艺2018秋季校招前端工程师(第一场)】 试题回顾
- 数据类比赛的基本处理流程和方法