爬虫 取得站内最大页数
来源:互联网 发布:avast淘宝激活 编辑:程序博客网 时间:2024/05/16 12:46
<li class="l_pager pager_theme_4 pb_list_pager"><span class="tP">1</span><a href="/p/4245039489?pn=2">2</a><a href="/p/4245039489?pn=3">3</a><a href="/p/4245039489?pn=4">4</a><a href="/p/4245039489?pn=5">5</a><a href="/p/4245039489?pn=6">6</a><a href="/p/4245039489?pn=7">7</a><a href="/p/4245039489?pn=8">8</a><a href="/p/4245039489?pn=9">9</a><a href="/p/4245039489?pn=10">10</a><a href="/p/4245039489?pn=2">下一页</a><a href="/p/4245039489?pn=19">尾页</a></li>
在尝试爬虫时,如何获得站内最大页数呢?即是上述xml代码中的19.
方法有如下几种:
第一:使用正则表达式
import relast_page_num = re.findall(r'<a href="/p/.*?pn=(\d+)">',first_html,re.S)print last_page_num[-1]
第二种:使用xpath方法
from lxml import etree#html指的是上述的xml代码selector = etree.HTML(html)print selector.xpath('//li[@class="l_pager pager_theme_4 pb_list_pager"]/a[last()]/@href')[0][-2:]
或者还可以这样:
from lxml import etree#html指的是上述的xml代码selector = etree.HTML(html)print selector.xpath(u'//li[@class="l_pager pager_theme_4 pb_list_pager"]/a[text()="尾页"]/@href')[0][-2:]
0 0
- 爬虫 取得站内最大页数
- asp 取得页数函数
- 问答系统--站内爬虫
- java爬虫解析提取末页数值。
- Python 爬虫笔记(由站内到站外爬虫)
- Yii CGridView中分页取得当前的页数并跳转到对应页数
- 爬虫实战--抓取糗事百科前10页数据
- 一个可以用来站内检索的简单爬虫
- 超过notes最大所能支持的页数
- DWZ (JUI) 分页判断是否超过最大页数
- 为什么pageHelper超过最大页数后还会返回数据
- 返回打印设置,取得所有打印页数(张数) (VBA)
- 用VBA取得WORD当前光标所在位置的行号列号和页数
- GridView分页数据处理,在sql存储过程中取得每页数据
- Python2 爬虫(三) -- 爬CSDN全部博文(自动获取页数)
- 【百度爬虫系列 II】关键字搜索url结果汇总(给定关键字和页数)
- ASE如何取得最大可用设备号 ?
- Java取得指定年月的最大天数
- Eclipse或MyEclipse修改生成类注释模板
- (MFC)CFont部分字体无法使用的问题
- 搭建Hadoop分布式
- struts-tags标签特殊用法
- Bestcoder #80 题解 (待补)
- 爬虫 取得站内最大页数
- 添加和处理动作(Adding and Handling Actions)
- (MFC)任务对话框CTaskDialog类
- android中的color文件
- MVC和MVP的梳理
- hbase0.98.9 Export工具使用
- __stdcall与__cdecl的区别
- ERROR: Cannot determine the location of the VS Common Tools folder.
- Java千百问_05面向对象(006)_is-a,has-a,like-a是什么