python爬虫之BeautifulSoup的用法

来源：互联网发布：欧特克软件价格编辑：程序博客网时间：2024/06/15 18:45

概念：Beautiful Soup 是什么？

Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库，它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。
目前Beautiful Soup3已经停止开发，推荐使用Beautiful Soup4

解析器

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml

解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup, “html.parser”) Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文档容错能力差 lxml HTML 解析器 BeautifulSoup(markup, “lxml”) 速度快文档容错能力强需要安装C语言库 lxml XML 解析器 BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”) 速度快唯一支持XML的解析器需要安装C语言库 html5lib BeautifulSoup(markup, “html5lib”) 最好的容错性以浏览器的方式解析文档生成HTML5格式的文档速度慢不依赖外部扩展

对象的种类

Beautiful Soup将复杂的HTML文档转换成一个复杂的树形结构，每个节点都是python对象，所有对象可以归纳为4种：tag , NavigableString , Beautfulsoup, Coment

tag : 简单的讲就是HTML中的一个个标签
NavigableString ：tag中的字符串
BeautifulSoup ：是一个文档的全部内容，大部分的时候，可以把他当做tag对象，是一个特殊的tag。因为BeautifulSoup对象并不是真正的HTML或XML的tag对象所有没有name和attribute属性，但有时查看它的.name属性是很方便的，所有BeautifulSoup对象包含了一个值为“[ducument]” 的特殊属性.name
Comment ：是一个特殊类型的 NavigableString 对象，其实输出的内容仍然不包括注释符号

遍历文档树

（1）获取子节点    .contents    列表形式    .children    返回的是一个生成器，需要遍历查看（2）获取所有子孙节点     .descendants  对所有tag的子孙节点进行递归循环，和children类似（3） 节点内容    .string     如果一个标签里面没有标签了，那么.string 就会返回标签里面的内容。    如果标签里面只有唯一的一个标签了，那么.string 也会返回最里面的内容。    如果tag包含了多个子节点，tag就无法确定，string方法应该调    用哪个子节点的内容，string的输出结果是None（4）多个内容    .strings 获取多个内容，不过需要遍历

find，find_all, select方法的使用

对于我们写爬虫基本上用的只有查找，大部分我们用的时候也就是这几个方法：find，find_all, select

find_all()讲解

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
以下是find_all()方法以及参数的用法

find_all(self, name=None, attrs={}, recursive=True, text=None,             limit=None, **kwargs)

name :
可以查找所有名字为name的tag,字符串对象会被自动忽略掉。内容可以是（字符串，正则，列表，Ture）

   Ture可以匹配任何值，下面代码查找到所有的tag，但是不会返回字符串节点,还可以传一个方法：   如果没有一个合适的过滤器，那么还可以定义一个方法，方法只接受一个元素参数，如果 这个方法返回True表示匹配成功，否者False

attrs :
规定tag中的属性，传入的是一个字典
recursive :
默认是True 查找当前tag下的所有子孙节点。如果设置False那么只查找tag的直接子节点
text :
查找节点中的内容字符串，与name参数的可选值一样。这个可以用定向查找某一个节点，获取节点的属性
limit :
限制符合搜索条件的个数，比如符合条件的有5个，但是我们设置2个那么就只返回符合条件的前两个。和sql中的limit类似。

kwarys :
如果一个指定名字的参数不是find_all()函数内置的参数，搜索时会把该参数当做指定名字tag的属性来搜索

   形式可以是: id =‘link’或 id =re.compile()。但是有些特殊的tag属性是不可以使用的。比如h5中data-*。   所以一般情况下都会在attrs中规定查找tag的属性。

看十遍不如动手做一遍，废话不多说直接实例着手。

实例

我把网页源代码放在了一个文件当中了

import sysimport codecsfrom bs4 import BeautifulSoupreload(sys)sys.setdefaultencoding('utf-8')data = codecs.open('2.html','r',encoding= 'utf-8').read()#创建beautifulSoup 对象soup = BeautifulSoup(data, 'lxml')

这里写图片描述

#获取每部小说链接li = soup.find('div',class_='listBox').find('ul').find_all('li')for i in li:    url = i.find('a',recursive=False).get('href')    print url

输出：/36171.html/36169.html/36161.html/36151.html/36148.html

这里写图片描述

limit值的设定

#获取下面页数链接dia = soup.find('div',class_='tspage').find_all('a',limit=1)print diaprint type(dia)for i in dia:    print i.get_text()   #获取节点内容    print i.get('href')   #获取节点某一属性

输出：

[<ahref="/soft/sort01/index_2.html">\u4e0b\u4e00\u9875</a>]<class 'bs4.element.ResultSet'>下一页/soft/sort01/index_2.html

这里写图片描述

text的使用

一般知道节点内容，用来获取节点属性

# 知道节点内容，获取节点属性di = soup.find('div',class_='wrap header')\    .find('a',text=u'首页').get('class')print di

输出：

['nav-cur']

这里写图片描述

recursive值的设定

# div ->  select ->optionoption = soup.find('div',class_='tspage').find_all('option',limit=2)for i in option:    print i.textoption = soup.find('div',class_='tspage').find_all('option',limit=2,recursive=False)print optionif option:    for i in option:        print i.textelse:    print u'没有找到'

输出：

第 1 页第 2 页[]没有找到

find() 用法和find_all()一样。

find(self, name=None, attrs={}, recursive=True, text=None,         **kwargs)

select()方法

css选择器—-soup.select() ,返回类型是list

select(self, selector, _candidate_generator=None, limit=None)

查找方法：

（1）通过标签名查找        tag标签（2）通过类名查找         .类名（3）通过id名查找         #id（4）组合查找（标签，类名，id组合查找，直接子标签查找）（5）属性查找（6）通过语言设置来查找    soup.select('a[href]'

multilingual_soup.select('p[lang|=en]')# [<p lang="en">Hello</p>,#  <p lang="en-us">Howdy,y'all</p>,#  <p lang="en-gb">Pip-pip, old fruit</p>]

我们在写css样式时，标签名不加任何修饰，类名前加点，id前加#，在这里我们可以利用类似的方法来筛选，通过tag标签逐层查找。

这里写图片描述

ul = soup.select(".listBox > ul > li > a")for u in ul:    print u.text

输出：

《我是大玩家》全集《仙武至尊》全集《从主播到主神》全集《都市之重返人间》全集

总结

发现我们在使用Beautiful Soup时主要使用的也就是find，find_all(),select这三个方法。写一下我用Beautiful Soup查找时的思路（1)用find定位到要查找的节点的父节点位置。（2）如果这个父节点下的所有子节点都是我们想要的，那么就用find_all查找，如果只有一个使我们想要的就用find查找（3）查找到某个节点后，获得内容用.text或string或get_text()，获取节点属性用.get()或者"节点名['属性名']"

**参考文档
Beautiful Soup 4.2.0 文档：
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id47

阅读全文

0 0