面向垂直搜索引擎基于表格特征的数据抽取方法

来源：互联网发布：ping命令使用哪个端口编辑：程序博客网时间：2024/05/22 13:28

数据抽取技术主要采用的是网页包装的方法 , 其研究主要集中在抽取方法之上 , 主要包括直接解析、HTML结构分析和数据建模。
3种方法优缺点各异：

1、在直接解析的方法中, 手工编写的抽取程序结构简单 , 针对性强 , 但可维护性差。

2、在HTML 结构分析方法中, 解析工具基于HTML层次结构进行分析 , 可维护性好。但现今的网页编写的不规范性 , 导致其整体解析效果不佳。

3、数据建模的方法尚处于起步阶段 , 其实用性还有待进一步验证

三中方法的详细实现：

1、直接解析HTML文档的方法、该方法利用java等高级语言，自行编写程序对网页进行直接解析、这种方法利用regex与HTML源码进行模式匹配，从而抽取出网页中的信息。该方法针对特定网页中的特定信息，有较好的实用性。但由于该方法并不涉及网页的层次结构，所有一旦网页结构发生变化，就必须对代码进行重写，导致其健壮性和可维护性差，这是该方法的主要缺点。

2、分析HTML层次的方法。该方法主要通过现有的HTML解析工具如htmlparser,W4C,对HTML进行层次解析，转换成一个具有层次结构的HTML数，使之形成一个良好的HTML文档，在利用XML技术对其加以处理，这种采取采取解析HTML层次的抽取方法，使得其可维护性大大增加。但该方法却存在以下缺点：由于HTML结构的网页为现今的主流，加之网页开发者在开发时并没有遵从一个统一的规范，导致生成的HTML层次数效果不是很好，实用性不高。

3、给予概念建模的方法。该方法先用ontology简历数据模型，再把可能抽取的数据项映射到ontology元素中，用户选择ontology中的元素以决定抽取对象，ontology的引入既保证了结构的一致性，又保证了数据的一致性，使得不同来源的数据都能以统一的试图呈现，方便了信息的继承和交换。

基于表格特征的数据抽取方法步骤：

1、通过网页导航给出该表格的链接至解析器。

2、解析器解析HTML源码中的表格元素（table）的层次结构, 利用用户输入的表格特征参数, 定位出特定表格。

3、抽取器抽取出该特定表格的所有文本信息。

4、包装器根据用户提供的表格特征 , 整理该表格的文本信息 , 已达到存人目标数据库的要求。当系统成功抽取一次数据以后,生成特征模式并存人特征库 ,以备下次抽取时实用。当该表格的网页结构改变时, 只摇修改模式库里相关参数,便可实现重新抽取