文档摘要技术

来源:互联网 发布:linux数据库安装 编辑:程序博客网 时间:2024/06/06 00:26


中文单文档摘要技术,区别于中文多文档摘要技术。那什么又是中文单文档摘要呢?就是对单篇文章自动抽取出内容摘要。更多内容,请查询相关文档。闲言少叙,直奔主题,我是宋鹏举。

一、基于特征的方法

可以考虑如下特征来进行文档摘要的生成,包括:文章标题(比如文章标题中出现的词具有较高的权重)、段落的位置(比如文章的首段和尾段具有较高的权重)、段落的特定句子(比如段落的首句和第二句具有较高的权重)、句式的类型(比如陈述句具有较高的权重,含有大标点的句子具有较高的权中等)、文章中频繁出现的词等。该方法简单,准确率较高。

在某些场景下,文章没有清晰的段落,那么,就只能使用文章标题、句式类型、词频三类特征。下面的算法就是描述在此场景下如何生成文章摘要的。

第一步:对文章标题进行中文分词,剔除停用词和常用词,生成待选词表A。

第二步:对文章内容进行中文分词,剔除停用词和常用词,并计算每个词的权重(权重 = 词出现的次数 / 全部词出现次数的和),生成词频表B。

第三步:将待选词表A合并到词频表中。如果待选词表A中的词t在词频表B中存在,则调整词频表B中t的权重值为词频表B中的最大值;如果待选词表A中的词f在词频表B中不存在,则不处理。

第四步:使用大标点完成对句子的切分,仅保留陈述句式。

第五步:对每个陈述句进行权重计算

    判断陈述句是否包含了词频表B中的词,

    如果包含词频表B中的词,则∑词权重(将对应词的词权重进行加和)。

    句子的权重 = 词权重的和 / 句子的长度

第六步:按照依据句子的权重进行倒叙排序,获取权重较高的句子。

第七步:按照句子在文章中出现的顺序输入句子即为文档摘要。

二、基于图排序的方法

基于图排序的方法主要思路是将文章中的句子作为图的顶点,如果句子与句子具有相似度,则句子与句子之间则存在边,边的权重为句子的相似度。句子与句子的相似度定义为:两个句子的公共子串的长度 / (两个句子的长度之和 - 公共子串的长度)。同时将文章的标题也作为一个句子,作为有向图的根节点。具体算法如下:

第一步:分析每个句子,每个句子作为一个图的顶点,将句子的标题也作为图的一个根顶点。

第二步:两两计算句子见的相似度,如果相似度大于0,则将两个句子之间建立边,并设置边的权重为句子的相似度。在文章中先出现的句子作为出顶点,文章中后出现的句子作为入顶点。

第三步:从根定点出发遍历图,如果顶点与顶点之间存在边,则将句子放入候选句中。

第四步:按照句子在文章中出现的顺序输出即为文档摘要。

三、总结

以上给出了两种中文单文档自动摘要的简要算法,具有一定的适用性,哪位高手有这方面的兴趣可以一起交流。

来源:

http://www.cnblogs.com/xyz2abc/p/3522688.html


0 0
原创粉丝点击