对“分析网页的过程及工具”的功能记录

来源：互联网发布：数据交换与大数据编辑：程序博客网时间：2024/05/22 16:45

正则是一种基于文字匹配的查询模式，往往使用回溯算法，在文本内容很多的时候，会产生很大的运行成本。而且，在处理的过程中，很容易就因为一个小的符号的问题产生结果上的错误。

xpath是一个处理xml的工具包，针对的应用场景是处理一个结构化的xml文件。它使用节点树的概念对目标进行处理，查找一个xml文件中的信息的效率就是搜索树的效率。这样大大提高了搜索的效率，而且在进行条件查询时，能够提供//div[@class='']这种结构的条件赋值。

json是处理网页中javascrip标签中的格式化内容的处理工具。

clean的作用，是将Html中非格式化的一些标签处理格式化，比如说有一个<div>的开始标签，却漏掉了</div>标签的情形。这种情况会造成xpath执行时的错误。

因而，分析网页，抽取数据的流程是：先用htmlparser这个工具清理不规范的html数据（实际上这个工具可以处理抽取数据的功能，但比起xpath要功能上差些）；使用xpath找到符合自己所给条件的数据；对于javascript标签中的数据，用json去抽取。