Python开发简单爬虫(笔记)
来源:互联网 发布:北京美工培训班学费 编辑:程序博客网 时间:2024/04/26 05:29
1.爬虫指的是: 一段自动抓取互联网信息的程序,其价值是互联网数据为我所用
爬虫调度端
URL管理器:管理待抓取URL集合和已抓取URL集合,原因是防止重复抓取、防止循环抓取
网页下载器:将互联网上URL对应的网页下载到本地的工具
urllib2 :Python官方基础模块
requests:第三方强大的插件
urllib2下载网页
方法1:最简洁的方法 urllib2.urlopen(url)
import urllib2
#直接请求
response=urllib2.urlopen('http://www.baidu.com');
#获取状态码,如果200表示获取成功
print respose.getcode();
#读取内容
code=response.read();
方法二:添加data,http header
import urllib2
#创建
Request=urllib2.Request(url);
#添加数据
request.add_data('a','1');
#添加http的header
request.add_header('User-Agent','Mozilla/5.0')
#发送请求获取结果
response=urlli2.urlopen(request);
http://www.imooc.com/video/10683
网页解析器
1.正则表达式:模糊化匹配
2.html.parser:结构化解析
3.Beautiful Soup:结构化解析
4.lxml:结构化解析
这次使用Beautiful Soup
-Python第三方库,用于从HTML或XML中提取数据
-官网:http://www.crummy.com/software/BeautifulSoup/
2.爬取得到百度百科Python词条相关的1000个页面数据
- Python开发简单爬虫(笔记)
- python开发简单爬虫笔记
- Python开发简单爬虫学习笔记(1)
- Python开发简单爬虫学习笔记(2)
- python开发简单爬虫——笔记(更新中)
- Python 开发简单爬虫 学习笔记1
- Python开发简单爬虫--学习笔记
- Python开发简单爬虫
- python开发简单爬虫
- Python开发简单爬虫
- Python开发简单爬虫
- python 开发简单爬虫
- Python开发简单爬虫(二)
- Python开发简单爬虫(一)
- Python开发简单爬虫之爬虫介绍(一)
- ”Python开发简单爬虫“慕课网课程学习笔记1
- python 爬虫笔记--简单静态
- Python简单爬虫开发的学习笔记整理(爬取百度百科词条)
- 数据结构基础之栈与递归
- 数组方法归纳
- Win10关闭休眠方法
- 【连通分量】BZOJ 1093: [ZJOI2007]最大半连通子图
- 【Prufer数列/组合数学】[HNOI2008][HYSBZ/BZOJ1005]明明的烦恼
- Python开发简单爬虫(笔记)
- 为什么虚拟机里面的ubuntu不能共享windows的文件. /mnt/hgfs无效
- 记录下集中谷歌搜索方法
- 计算机网络3--计算机网络结构
- ubuntu 安装 paramon 集群监控前台
- MATLAB图像处理工具箱
- [Andoird自定义View]打分控件
- JavaScript菜鸟教程Object1
- xencenter创建池和配置ha小结