有主题网页的信息提取算法

来源：互联网发布：网络电视频道目录编辑：程序博客网时间：2024/04/29 07:35

正文的提取：

一篇有主题网页中的正文通常是用成段的文字来描述，中间通常不会加入大量的链接，而非正文信息通常是伴随超链接出现的。基于此，我们提出了正文选取的规则（正文规则）。

正文规则：有主题网页中，如果一个内容块是 topic 类型的，则该内容块中的内容为正文的一部分。

依据正文规则，深度优先遍历标签树并以此记录 topic 类型的内容块，就得到该网页的正文，也就是该网页的主题内容。

对web上的网页，我们依据网页类型可以将它们分为 3 类：有主题网页（topic）， Hub网页（超链接聚集的门户网站），图片网页。针对三类网页的信息提取算法各不相同，因此在对网页进行深入分析之前，首先要判断网页的类型。为此，我们首先描述这三类网页的特征及判断方法，然后将对面向有主题网页的模型提取算法进行详细讨论，最后简要介绍面向Hub网页和面向图片网页的提取算法。

1.网页类型的判断方法

视觉上区分三种类型的网页是很明显的。在有主题网页中通过成段的描述文字描述了一件或多件事物，虽然也会有图片和超链接，但这些图片和超链接并不是网页的主题。图片网页中的内容是通过图片体现的，而文字仅仅是对图片的一个说明，因而文字不多。Hub网页通常不会描述一件事物，而是提供指向相关网页的超链接，因此，Hub网页中的超链接密集。

虽然时间上判断网页的类型是比较容易的，但是让计算机自动做到这一点却是不容易的。下述的良好方法可以在绝大多数情况下准确的识别网页的类型。网页都是有一定布局的，比如分左右两边或是中间和边缘。网页的作者通常将重要的内容放在网页的中间部分，而边缘部分内容的重要性相对较低，这也是符合人的浏览习惯的。因此，依据网页中间区域的内容判断网页的类型是相对合理的，而网页中内容的位置信息在本节中构造的标签树中是通过内容看的属性记录下来的。本节前面提到，在构造标签树时，语句内容块中词项数和图片数的比值以及内容块中词项数与 anchor text 中词项数的比值将网页中的内容块分为 topic ， Hub， pic 三类，基于内容的类型，我们可以使用网页中间区域 hub 内容块包含的词项数与网页中间区域包含的词项数的比值来判断网页是否为 hub 类型。同理，使用网页中间区域pic 内容块包含的词项数与网页中间区域的词项数的比值可以判断该网页是否为pic 类型。（实际效果表明，该方法判断网页类型较为准确）