2---python开发简单爬虫

来源:互联网 发布:软件授权使用说明书 编辑:程序博客网 时间:2024/05/22 06:31

学习地址:http://www.imooc.com/learn/563  慕课网

课程须知
本课程是Python语言开发的高级课程1、Python编程语法;2、HTML语言基础知识;3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值
2、爬虫技术架构
3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器
4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行
5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!
★第一章

课程介绍:

课程进行简单的爬虫讲解----不需要登录的静态网页抓取

1、爬虫简介

2、简单爬虫架构

3、URL管理器

4、网页下载器urllib2

5、网页解析器beautifulsoup

6、完整实例  爬虫百度百科

★第二章,

爬虫是什么 : 从一个url出发,自动访问他所关联的所有url,提取数据。

爬虫价值 : 爬取互联网数据为我所用,开发新产品提供更好的服务


★第三章

3-1  python简单爬虫架构


Python简单爬虫架构的动态运行流程 3-2 Python简单爬虫架构的动态运行流

3-2  python简单爬虫架构 动态运行流程 【时序图】



★第四章  url管理器和实现方法

4-1  url管理

管理待抓取url结合  和  已经抓取的url集合  ,防止重复抓取和循环抓取

url管理器支持的功能 至少5个


4-2 url管理器的实现方式

目前有三种。


★第五章 网页下载器和  urllib2  模块  

5-1 网页下载器简介          将互联网上url对应的网页下载到本地的工具


python有哪些网页下载器?




5-2  urllib2  下载器网页的三种方法

①最简洁方法:把url传递给urllib2模块的urlopen方法   urllib2.urlopen(url)









三种方法功能依次更大更强


5.3 urllib2实例代码演示

ps:我安装的是Python3.5.2  ,使用第一种urllib2.urlopen()报错,搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中,也就是整合了,参考   http://blog.csdn.net/pythonniu/article/details/51855035  ,正确用法

  1. import urllib.request  
  2. url="http://www.baidu.com"  
  3. get=urllib.request.urlopen(url).read()  
  4. print(get)  



★第六章  网页解析器和  beautifulsoup  第三方模块

6.1网页解析器简介

①正则表达式  

②Python自带 html.parser

③第三方插件  beautifulsoup  强大,能使用② 和 ④

④第三方插件   lxml


①是模糊匹配,②③④是结构化解析。DOM树 ,熟悉吧๑乛◡乛๑



6.2beautifulsoup模块简介和安装

该模块属于Python第三方模块,用于从HTML或xml提取数据。

官网 http://www.crummmy.com/software/BeautifulSoup

在线安装 beautifulsoup模块,截图如下【前提:已经有pip】


6.3beautifulsoup语法

流程:HTML网页   →创建beautifulsoup对象(生成dom树)  →搜索节点(find_all 方法 和 find方法,可以按照  名称、属性、文字  来搜索)   → 访问节点名称、属性、文字

例子


代码如下:





6.4beautifulsoup实例测试


总结:课程教程是Python 2 版本,自己是3.x版本,很多语法都不一样,后面的实例我怕没有操作,改天用3版本开始练习爬虫案例。不过总体还是从小白到 对python爬虫整体概况有所了解。