网页净化技术综述

来源:互联网 发布:underscore.js .转码 编辑:程序博客网 时间:2024/04/27 18:15

网页净化技术综述

网页分块方法

       网页中的信息并不都是具有相同的重要度的,比如大字标题就要比导航条更加引人注目。网页中的不同信息由于所处的位置、占据的空间大小或者内容不同而具有不同的重要度。所以,我们可以将网页按照内容分块,利用分块的一些特征来进行网页净化,从而提高网页正文提取的质量。

基于位置关系的分块法

       利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类;实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页;这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括整个网页的语义特征。

基于文档对象模型(DOM)的分块法

       找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构;特定标签包括headingtableparagraphlist等;在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用它不能够准确地对网页中各分块的语义信息进行辨别。

基于视觉特征网页分块法(VIPS

       利用字体、颜色、大小等网页版面特征,根据一定的语义关联,将整个网页表示成一棵HTML DOM树;利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块;每个节点通过一致度(DOC)来衡量它与其它节点的语义相关性,从而将相关的分块聚集在一起;利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止了。

基于DOM的净化方法

       先将HTML 中的标签按照功能分类,然后提取出适合网页净化的标签树。将HTML 标签分为两类:一是规划网页布局的标签。网页是由若干内容块组成,而内容块是由特定的标签(容器标签)规划出。常用的容器标签有table,div等。一是属性标签。网页中除了描述布局结构的标签外,HTML 中还定义了一套标签来描述网页中的内容。比如:b标签说明它所包含的内容用粗体来显示。依据容器标签构造标签树中的结点,其他类型的标签信息作为它所在的内容块的属性。标签树构造完成后,网页净化过程就变为对标签树中结点的剪裁。

    依据内容块中词频数与图片数和超链接数的比值可以为每个内容块设定一个类型,分为主题型、多链接型、图片型三种。如果内容块中词项数与图片数的比值小于某个阐值,该内容块是图片型;如果内容块中词项数与图片数的比值小于某个阐值,该内容块就是图片型;如果内容块中作为链接导航文字出现的词项数与该块中总词项数的比值小于某个闽值,该内容块就是多链接型,否则为主题类型。

    web上的网页根据内容可以分为三类:有主题网页、目录网页和图片网页。三种网页的净化方法各不相同。在目录型网页中,大多数的内容块都是多链接型的。在网页的布局上,重要的信息通常分布在网页中间区域,而网页边缘信息的重要性相对较弱。因此,对于目录型网页,我们可以将网页中间区域的内容块作为网页的主题内容,而边缘的内容块则通过与主题内容计算相似性的方法来决定取舍。对于图片网页,由于网页中文字较少,因而传统的向量表示不够准确,在这种情况下,保留网页中间区域的图片型内容块就可以完成网页净化的功能。有主题网页的净化过程如下:首先,识别出网页中的主题内容块,然后,依据主题内容在剩余内容块中识别出与主题相关的内容块,最后剩下的内容块就是噪音内容块。主题内容块的识别是依据如下启发式规则:一篇有主题网页中的正文通常是用成段的文字来描述,中间通常不会加入大量的超链,而非正文信息通常是伴随着超链出现的。因此,在有主题网页中,如果一个内容块是主题类型的,则该内容块中的内容为网页主题内容的一部分。依据该规则,深度优先遍历DOM 树并依次记录主题类型的内容块,就得到该网页的主题内容。得到主题内容后,剩余内容块的主题相关性是通过与主题内容的才刚以性来判断的。根似性计算公式大多采用向量计算公式。因此首要的工作是内容块的特征向量表示,即表示为

   

其中,BN 为网页中内容块的总数;n 为网页中不同关键词的总数;BWeightj 为网页中内容块j 的权重,它的值由一个内容块中的重要标签来决定;BTfij 为关键词i 出现在内容块j中的词频。与主题内容相关性较小的即为噪声。

在网页采集系统里如何进行实际应用

    一般的采集系统要处理的网页类型多种多样。但是它们都是googlebaidu这类搜索引擎收录的,搜索结果中保存的摘要信息将是实现正文提取的重要依据。要向进行更准确的提取,必须加入语义计算。

    无论是什么类型的网页,它的第一个内容块必将是包含摘要信息或者是与摘要相似度最高的。

    接下来,我们将依据第一个内容块的类型得到这个主题块的类型。

    如果它是目录型,那么将此块输出作为正文即可。(目录型网页只可能有一个目录);

    如果它是图片型,那么将网页包含的所有图片型内容块与此块进行相似度,计算进行取舍。

       如果它是主题型,那么将网页包含的所有主题型内容块与此块进行相似度,计算进行取舍。

 

 
原创粉丝点击