Python BeautifulSoup4 select方法执行css选择器
来源:互联网 发布:mac 好用的卸载软件 编辑:程序博客网 时间:2024/05/17 22:35
初识爬虫,使用urllib结合强大的BeautifulSoup简单写了下代码。看参考书上主要讲解了find方法的使用,但发现其是还支持css选择器语法选择,于是试验了一下。
环境为:ubuntu12.04 + pycharm2017.1.3 + python3.6 + urllib + beautifulsoup4
构造BeautifulSoup对象
首先,我是以爬取搜狗搜索的主页来试验的。其结构大概如此
编写爬虫代码如下
from urllib import requestfrom bs4 import BeautifulSouphtml = request.urlopen("https://www.sogou.com/") #执行请求bs = BeautifulSoup(html) #将请求结果传递给bs构造对象print(bs.getText) #输出整个bs的内容
代码很简单清晰,只是将bs对象构造处理直接输出其内容。当然这体现不出BeautifulSoup的强大,因为这直接通过html对象也能得到。但不要心急,接下来让我们继续试验BeautifulSoup的CSS选择器功能。
使用BeautifulSoup select方法提取内容
BeautifulSoup支持CSS选择器是令人惊喜的,这大大方便了我们对特定标签的选取。那么接下来就来试验一下。
比如现在我们需要选取搜狗主页中导航栏中导向“知乎”的链接。
分析文档结构大概有这几个比较容易区分的层级特点:
<div class="top-nav"> <ul> ... <li class="cur"><span>网页</span></li> href="http://zhihu.sogou.com/" uigs-id="nav_zhihu" id="zhihu">知乎</a></li> <li><a onclick="st(this,'40030500','pic')" href="http://pic.sogou.com" uigs-id="nav_pic" id="pic">图片</a></li> ... </ul></div>
鉴于如此的结构,我们可以使用类选择器选择“.top-nav”然后使用后代选择其选择“ul”标签和“li”标签,于是整个选择器可以写为“.top-nav ul li”,在代码中实现如下:
li = bs.select('.top-nav ul li')print("result len is", len(li))for tag in li: print(tag)
得到如下输出:
result len is 10<li><a href="http://news.sogou.com" id="news" onclick="st(this,'40030300','news')" uigs-id="nav_news">新闻</a></li><li class="cur"><span>网页</span></li><li><a href="http://weixin.sogou.com/" id="weixinch" onclick="st(this,'73141200','weixin')" uigs-id="nav_weixin">微信</a></li><li><a href="http://zhihu.sogou.com/" id="zhihu" onclick="st(this,'40051200','zhihu')" uigs-id="nav_zhihu">知乎</a></li><li><a href="http://pic.sogou.com" id="pic" onclick="st(this,'40030500','pic')" uigs-id="nav_pic">图片</a></li>...
但里面出现了“网页”这个没有链接到其他地址的项,要如何将之过滤掉呢。可以结合filter函数进行处理,如下:
def hasHttpLink(tag): """此时的tag为<li>标签,需要取得其中的<a>再来进行判断""" return tag.a is not None and tag.a.get('href').startswith("http")for tag in filter(hasHttpLink, li): print(tag)
结果中已经过滤掉“网页”这项了:
<li><a href="http://news.sogou.com" id="news" onclick="st(this,'40030300','news')" uigs-id="nav_news">新闻</a></li><li><a href="http://weixin.sogou.com/" id="weixinch" onclick="st(this,'73141200','weixin')" uigs-id="nav_weixin">微信</a></li><li><a href="http://zhihu.sogou.com/" id="zhihu" onclick="st(this,'40051200','zhihu')" uigs-id="nav_zhihu">知乎</a></li><li><a href="http://pic.sogou.com" id="pic" onclick="st(this,'40030500','pic')" uigs-id="nav_pic">图片</a></li>...
其中filter高阶函数进行过滤时还可以使用正则来进行匹配筛选。
不过一般情况下仅仅使用selector就能比较精确的获取结果集了,因此filter也不用写得很复杂。
阅读全文
0 0
- Python BeautifulSoup4 select方法执行css选择器
- Python BeautifulSoup4
- Python BeautifulSoup4 使用指南
- Python:安装BeautifulSoup4模块
- python#WS002 beautifulsoup4
- Python BeautifulSoup4的使用方法
- Python BeautifulSoup4 搜索部分
- day15 python css属性选择器
- css----标记选择器,写入方法
- python爬虫 BeautifulSoup4官方文档
- BeautifulSoup4
- BeautifulSoup4
- Jquery选择器和css选择器的3中表示方法
- CSS书写方法一 选择器详解
- CSS基础-引入方法,选择器,继承
- CSS基础-引入方法,选择器,继承
- css选择器的分组的方法
- CSS基础-引入方法,选择器,继承
- 射频识别技术漫谈(27)——CPU卡概述
- 顺时针打印矩阵
- 简单的js+css的输入框自动提示功能实现
- tcpdump
- celery trying again
- Python BeautifulSoup4 select方法执行css选择器
- 包含min函数的栈
- 用于mmgrid表格批量删除的函数
- linux_守护进程
- Spring MVC原理及用法
- iSCSI
- Happiness
- 整数与IP地址间的转换
- Spring注入中byType和byName的总结