对“分析网页的过程及工具”的功能记录

来源:互联网 发布:数据交换与大数据 编辑:程序博客网 时间:2024/05/22 16:45

正则是一种基于文字匹配的查询模式,往往使用回溯算法,在文本内容很多的时候,会产生很大的运行成本。而且,在处理的过程中,很容易就因为一个小的符号的问题产生结果上的错误。

xpath是一个处理xml的工具包,针对的应用场景是处理一个结构化的xml文件。它使用节点树的概念对目标进行处理,查找一个xml文件中的信息的效率就是搜索树的效率。这样大大提高了搜索的效率,而且在进行条件查询时,能够提供//div[@class='']这种结构的条件赋值。

json是处理网页中javascrip标签中的格式化内容的处理工具。

clean的作用,是将Html中非格式化的一些标签处理格式化,比如说有一个<div>的开始标签,却漏掉了</div>标签的情形。这种情况会造成xpath执行时的错误。

因而,分析网页,抽取数据的流程是:先用htmlparser这个工具清理不规范的html数据(实际上这个工具可以处理抽取数据的功能,但比起xpath要功能上差些);使用xpath找到符合自己所给条件的数据;对于javascript标签中的数据,用json去抽取。

原创粉丝点击