ForeSpider数据采集系统脚本的几个小方法
来源:互联网 发布:linux 内核 usleep 编辑:程序博客网 时间:2024/05/21 14:59
ForeSpider数据采集系统脚本的几个小方法
今天给大家介绍一下我平时使用前嗅forespider数据采集系统配置模板的时候用到的几种方法,以前写过一个链接抽取的教程,今天就不给大家介绍了,没看过的用户可以关注一下我以前的文章,有很多有用的教程。
首先,大家看一下这是我准备采集数据的网页:
截图中三个圈起来的地方就是我要取的三个字段,然后分别取到下面每一行,一直到结束。
像这种多行的数据又不确定行数,我们就要使用循环,先取到最上面一行,然后往下循环。一直到结束。
上图是我写的数据抽取脚本,这个数据抽取一共有3个字段,名字分别为“word”“inde”“rank”,对应脚本中“re.***”,每一行的脚本上都有绿色的注释,
解释每一行的作用。
总结一下脚本中用到的几种方法:
① DOM.FindClass:HTML文档的操作方法,通过标签class属性值查找标签节点(还有能通过标签名称和ID属性值查找标签节点的方法,本文未使用)。
② DOM.GetTextAll:获取HTML标签节点及所有子节点的可见文本。
③ next:返回标签节点的后一节点。
④ if、while:常见的判断、循环语句。
*想了解更详细的使用方法清看软件文档。
采集示例网址:http://top.chinaz.com/Html/site_ali213.net.html
大家可以根据网页源码,软件帮助文档,对照着脚本看一下,理解每一行的意思。
也可以看一下往期的文章教程,有兴趣的朋友关注一下,经常会更新教程和有意思的东西,希望大家使用的一切顺利。
阅读全文
1 0
- ForeSpider数据采集系统脚本的几个小方法
- ForeSpider数据采集系统
- ForeSpider数据采集系统关键词配置方法
- ForeSpider数据采集系统如何采集源码中看不到的数据
- 前嗅ForeSpider数据采集系统表单字段属性设置方法
- ForeSpider数据采集软件之链接抽取
- 前嗅ForeSpider采集大众点评数据教程
- 广告系统数据采集方法介绍
- TensorFlow读取自己数据集的几个小方法
- 几个小的Linux系统
- Shell脚本编写的几个小知识点
- 数据采集系统的软件滤波[转]
- 井场数据采集系统的架构演化
- 基于FPGA的数据采集系统
- 一个远程数据采集系统的实现
- filebeat采集数据的几个痛点的解决方案
- 敏捷方法中采集的度量数据
- 敏捷方法中采集的度量数据
- linux samba安装、配置及遇到问题
- leetcode07 Reverse Integer 反转整形
- HDU-1002-A + B Problem II [大数运算 | java语言]
- 车牌自动识别在智能交通系统中的应用及前景分析
- 求数组中第n大(小)的元素
- ForeSpider数据采集系统脚本的几个小方法
- 反向传播算法
- [Python]使用Selenium的webdriver访问页面(Firefox的geckodriver)
- POJ 1426 Find The Multiple(BFS+同余模定理)
- BZOJ 4827: [Hnoi2017]礼物(FFT)
- B树和B+树 以及哈希索引
- 图片加载库-Fresco
- DWR第一篇之入门示例
- Python执行时间的计算方法