程序博客网 > 软件授权使用说明书

2---python开发简单爬虫

来源：互联网发布：软件授权使用说明书编辑：程序博客网时间：2024/05/22 06:31

学习地址：http://www.imooc.com/learn/563 慕课网

课程须知: 本课程是Python语言开发的高级课程1、Python编程语法；2、HTML语言基础知识；3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值; 2、爬虫技术架构; 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器; 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行; 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

★第一章

课程介绍：

课程进行简单的爬虫讲解----不需要登录的静态网页抓取

1、爬虫简介

2、简单爬虫架构

3、URL管理器

4、网页下载器urllib2

5、网页解析器beautifulsoup

6、完整实例爬虫百度百科

★第二章，

爬虫是什么：从一个url出发，自动访问他所关联的所有url，提取数据。

爬虫价值：爬取互联网数据为我所用，开发新产品提供更好的服务

★第三章

3-1 python简单爬虫架构

Python简单爬虫架构的动态运行流程 3-2 Python简单爬虫架构的动态运行流

3-2 python简单爬虫架构动态运行流程【时序图】

★第四章 url管理器和实现方法

4-1 url管理

管理待抓取url结合和已经抓取的url集合，防止重复抓取和循环抓取

url管理器支持的功能至少5个

4-2 url管理器的实现方式

目前有三种。

★第五章网页下载器和 urllib2 模块

5-1 网页下载器简介将互联网上url对应的网页下载到本地的工具

python有哪些网页下载器？

5-2 urllib2 下载器网页的三种方法

①最简洁方法：把url传递给urllib2模块的urlopen方法 urllib2.urlopen(url)

②

③

三种方法功能依次更大更强

5.3 urllib2实例代码演示

ps:我安装的是Python3.5.2 ，使用第一种urllib2.urlopen（）报错，搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中，也就是整合了，参考 http://blog.csdn.net/pythonniu/article/details/51855035 ，正确用法

import urllib.request
url="http://www.baidu.com"
get=urllib.request.urlopen(url).read()
print(get)

★第六章网页解析器和 beautifulsoup 第三方模块

6.1网页解析器简介

①正则表达式

②Python自带 html.parser

③第三方插件 beautifulsoup 强大，能使用② 和 ④

④第三方插件 lxml

①是模糊匹配，②③④是结构化解析。DOM树，熟悉吧๑乛◡乛๑

6.2beautifulsoup模块简介和安装

该模块属于Python第三方模块，用于从HTML或xml提取数据。

官网 http://www.crummmy.com/software/BeautifulSoup

在线安装 beautifulsoup模块，截图如下【前提：已经有pip】

6.3beautifulsoup语法

流程：HTML网页 →创建beautifulsoup对象（生成dom树） →搜索节点（find_all 方法和 find方法，可以按照名称、属性、文字来搜索） → 访问节点名称、属性、文字

例子：

代码如下：

6.4beautifulsoup实例测试

总结：课程教程是Python 2 版本，自己是3.x版本，很多语法都不一样，后面的实例我怕没有操作，改天用3版本开始练习爬虫案例。不过总体还是从小白到对python爬虫整体概况有所了解。

阅读全文

0 0

软件授权使用说明书

软件授权使用说明书

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子铁床批发铁床厂家学生双层床价格铁床批发厂家双层铁床厂家铁床厂家批发单层铁床双层铁床厂高低床铁床铁床制作铁床品牌铁床配件上下铺铁床尺寸双层铁床尺寸学生双层铁床价格上下铁床尺寸大铁床上下铺铁床图片母子铁床经典铁床儿童床尺寸儿童床滑梯铁建铁建广场铁建工程技工学校中铁铁建铁建房地产铁建重工招聘铁建大厦铁建重工待遇杨铁心铁心兰南宫铁心东方铁心傲骨铁心铁心木肠铁心傲骨铁心作品银爪铁心任务南京铁心桥二手房铁心桥社区卫生服务中心