面向垂直搜索引擎基于表格特征的数据抽取方法

来源:互联网 发布:ping命令使用哪个端口 编辑:程序博客网 时间:2024/05/22 13:28


数据抽取技术主要采用的是网页包装的方法 , 其研究主要集中在抽取方法之上 , 主要包括直接解析、HTML结构分析和数据建模。
3种方法优缺点各异:

1、在直接解析的方法中, 手工编写的抽取程序结构简单 , 针对性强 , 但可维护性差。

2、在HTML 结构分析方法中, 解析工具基于HTML层次结构进行分析 , 可维护性好。但现今的网页编写的不规范性 , 导致其整体解析效果不佳。

3、数据建模的方法尚处于起步阶段 , 其实用性还有待进一步验证

三中方法的详细实现:

1、 直接解析HTML文档的方法、该方法利用java等高级语言,自行编写程序对网页进行直接解析、这种方法利用regex与HTML源码进行模式匹配,从而抽取出网页中的信息。该方法针对特定网页中的特定信息,有较好的实用性。但由于该方法并不涉及网页的层次结构,所有一旦网页结构发生变化,就必须对代码进行重写,导致其健壮性和可维护性差,这是该方法的主要缺点。

2、 分析HTML层次的方法。该方法主要通过现有的HTML解析工具如htmlparser,W4C,对HTML进行层次解析,转换成一个具有层次结构的HTML数,使之形成一个良好的HTML文档,在利用XML技术对其加以处理,这种采取采取解析HTML层次的抽取方法,使得其可维护性大大增加。但该方法却存在以下缺点:由于HTML结构的网页为现今的主流,加之网页开发者在开发时并没有遵从一个统一的规范,导致生成的HTML层次数效果不是很好,实用性不高。

3、 给予概念建模的方法。该方法先用ontology简历数据模型,再把可能抽取的数据项映射到ontology元素中,用户选择ontology中的元素以决定抽取对象,ontology的引入既保证了结构的一致性,又保证了数据的一致性,使得不同来源的数据都能以统一的试图呈现,方便了信息的继承和交换。

基于表格特征的数据抽取方法步骤:

1、 通过网页导航给出该表格的链接至解析器。

2、 解析器解析HTML源码中的表格元素(table)的层次结构, 利用用户输入的表格特征参数, 定位出特定表格。

3、 抽取器抽取出该特定表格的所有文本信息。

4、 包装器根据用户提供的表格特征 , 整理该表格的文本信息 , 已达到存人目标数据库的要求。当系统成功抽取一次数据以后,生成特征模式并存人特征库 ,以备下次抽取时实用 。当该表格的网页结构改变时, 只摇修改模式库里相关参数,便可实现重新抽取