Python简单爬虫

来源：互联网发布：剑灵捏脸超萌萝莉数据编辑：程序博客网时间：2024/06/08 08:03

一、什么是爬虫
爬虫：一段自动抓取互联网信息的程序。
价值：互联网数据为我所用。

二、爬虫架构

这里写图片描述

运行流程：

这里写图片描述

三、几种实现方式
这里写图片描述

四、URL管理器
定义：管理待抓取URL集合和已抓取URL集合；
防止重复抓取、防止循环抓取

五、网页下载器
1）定义：将互联网上URL对应的网页下载到本地的工具。
2）几种网页下载器：
urllib2——Python官方基础模块
requests——第三方包更强大
a）urllib2下载网页方法：最简洁方法
这里写图片描述
b）urllib2下载网页方法2：添加data、http header

c）urllib2下载网页方法3：添加特殊情景的处理器

`
#-- coding: UTF-8 --
import urllib2
import cookielib

url = “http://www.baidu.com”
print ‘第一种方法’
response1 = urllib2.urlopen(url)
print response1.getcode()
print len(response1.read())

print ‘第二种方法’
request = urllib2.Request(url)
request.add_header(“user-agent”,”Mozilla/5.0”)
response2 = urllib2.urlopen(url)
print response2.getcode()
print len(response2.read())

print ‘第三种方法’
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()`

六、网页解析器
1）定义：从网页中提取有价值数据的工具。
2）几种网页解析器：
这里写图片描述
3）结构化解析：
DOM（Document Object Model）树

Beautiful Soup：
—Python第三方库，用于从HTML或XML中提取数据
—官网：http://www.crummy.com/software/BeautifulSoup/

七、实例分析
这里写图片描述

1）目标：百度百科Python词条相关词条网页——标题和简介2）入口页：http://baike.baidu.com/view/21087.htm3）URL格式：—词条页面URL：/view/125370.htm4）数据格式：— 标题：<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1></dd>—简介：<div class="lemma-summary" label-module="lemmaSummary">***</div>5）页面编码：UTF-8

0 0