2---python开发简单爬虫
来源:互联网 发布:软件授权使用说明书 编辑:程序博客网 时间:2024/05/22 06:31
学习地址:http://www.imooc.com/learn/563 慕课网
- 课程须知
- 本课程是Python语言开发的高级课程1、Python编程语法;2、HTML语言基础知识;3、正则表达式基础知识;
- 老师告诉你能学到什么?
- 1、爬虫技术的含义和存在价值
- 2、爬虫技术架构
- 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器
- 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行
- 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!
课程介绍:
课程进行简单的爬虫讲解----不需要登录的静态网页抓取
1、爬虫简介
2、简单爬虫架构
3、URL管理器
4、网页下载器urllib2
5、网页解析器beautifulsoup
6、完整实例 爬虫百度百科
★第二章,
爬虫是什么 : 从一个url出发,自动访问他所关联的所有url,提取数据。
爬虫价值 : 爬取互联网数据为我所用,开发新产品提供更好的服务
★第三章
3-1 python简单爬虫架构
Python简单爬虫架构的动态运行流程 3-2 Python简单爬虫架构的动态运行流
3-2 python简单爬虫架构 动态运行流程 【时序图】
★第四章 url管理器和实现方法
4-1 url管理
管理待抓取url结合 和 已经抓取的url集合 ,防止重复抓取和循环抓取
url管理器支持的功能 至少5个
4-2 url管理器的实现方式
目前有三种。
★第五章 网页下载器和 urllib2 模块
5-1 网页下载器简介 将互联网上url对应的网页下载到本地的工具
python有哪些网页下载器?
5-2 urllib2 下载器网页的三种方法
①最简洁方法:把url传递给urllib2模块的urlopen方法 urllib2.urlopen(url)
②
③
三种方法功能依次更大更强
5.3 urllib2实例代码演示
ps:我安装的是Python3.5.2 ,使用第一种urllib2.urlopen()报错,搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中,也就是整合了,参考 http://blog.csdn.net/pythonniu/article/details/51855035 ,正确用法
- import urllib.request
- url="http://www.baidu.com"
- get=urllib.request.urlopen(url).read()
- print(get)
★第六章 网页解析器和 beautifulsoup 第三方模块
6.1网页解析器简介
①正则表达式
②Python自带 html.parser
③第三方插件 beautifulsoup 强大,能使用② 和 ④
④第三方插件 lxml
①是模糊匹配,②③④是结构化解析。DOM树 ,熟悉吧๑乛◡乛๑
6.2beautifulsoup模块简介和安装
该模块属于Python第三方模块,用于从HTML或xml提取数据。
官网 http://www.crummmy.com/software/BeautifulSoup
在线安装 beautifulsoup模块,截图如下【前提:已经有pip】
6.3beautifulsoup语法
流程:HTML网页 →创建beautifulsoup对象(生成dom树) →搜索节点(find_all 方法 和 find方法,可以按照 名称、属性、文字 来搜索) → 访问节点名称、属性、文字
例子:
代码如下:
6.4beautifulsoup实例测试
总结:课程教程是Python 2 版本,自己是3.x版本,很多语法都不一样,后面的实例我怕没有操作,改天用3版本开始练习爬虫案例。不过总体还是从小白到 对python爬虫整体概况有所了解。
- 2---python开发简单爬虫
- Python开发简单爬虫
- python开发简单爬虫
- Python开发简单爬虫
- Python开发简单爬虫
- python 开发简单爬虫
- python开发简单爬虫笔记
- Python开发简单爬虫学习笔记(2)
- Python开发简单爬虫(二)
- Python开发简单爬虫(一)
- Python开发简单爬虫(笔记)
- Python 开发简单爬虫 学习笔记1
- python开发简单爬虫:准备篇
- python开发简单爬虫:实战篇
- Python开发简单爬虫--学习笔记
- Python开发简单爬虫之实战演练
- Python开发简单爬虫之爬虫介绍(一)
- python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记
- ambari-server start过程
- SSM(5)信息校验是否存在
- JS的正则表达式
- 互联网高性能开发必备技能 缓存技术
- 8.4.2 时间序列预测——使用TFLearn自定义模型——代码运行错误及解决方法
- 2---python开发简单爬虫
- 深度学习论文roadmap
- 一点幼稚的记录
- C语言笔记(符号)
- [LeetCode] Letter Combinations of a Phone Number
- Hibernate的学习之路十九(一对多的JavaBean编写和映射的配置文件的编写)
- 【题解】【UVA 11297】Census
- ps----将人物或别的东西放进小球
- 如何修改eclipse下tomcat的工程所生成的项目文件的名称