【9月18日】面向学术文献的知识挖掘方法研究

来源:互联网 发布:空间网络音乐怎么删除 编辑:程序博客网 时间:2024/05/16 01:56

摘要

本文提出一种基于位置加权的核心知识挖掘方法,旨在以句尾知识处理粒度,抽取正文中的核心句子作为独立的知识单元。通过量化句子间的关联,将正文表示成一个以句子为节点,句子间关联为边的文本关系网络,提出了基于章节的位置加权算法,结合社会网络分析方法,挖掘出文本中的核心知识单元部分的句子。

相关概念

知识抽取 是对蕴含于文献中的知识进行识别、理解、筛选、格式化,从而把文献中的各个知识点抽取出来,是信息抽取规则的升华和深化。可以分为三类:


- 基于模式匹配 : Chunxua Zhang和Peng Jiang研究了研究了如何对韩语语料进行定义抽取;温有奎利用学术文献中创新点表述的句子结构特点对创新点进行抽取。
- 基于本体: 通过建立本体描述概念与概念之间的关系,再基于建好的本体在文档中抽取相匹配的知识内容。车海燕等提出基于本体主题的属性识别方法基于本体属性约束的三元组元素识别方法。
- 基于语义抽取:目前尚没有理想的效果。

抽取方法

构建句子复杂网络-->社会网络分析

第一步的重点是“句子关联”的定义和计算:较简单的做法是经过处理之后直接计算词的耦合,复杂点再加上语法结构–“虽然……但是……”、“如果……就……”,同样的词出现在主句和出现在从句的意义并不一样;“基于该理论……”、“因此……”,“……该方法……”等连词和代词来表现句子之间的紧密联系。


第二步“社会网络分析”:点度中心度,中介中心度和接近中心度等。
本文提出了一种章节权重计算的方法。基于各章节之间词的耦合数进行权重计算,得出

章节 权重 第一章(引言) 0.175 第二章(相关研究) 0.225 第三章(方法) 0.215 第四章(实验) 0.25 第五章(结论) 0.14

实验描述

本文的实验数据选取10篇情报学领域的文献,且均包含五个章节(故适用性并不强)。
主要的工作,一是以词袋的形式表示句子,构建句子间的相似矩阵;二是以词袋的形式表示章节,再以社会网络的分析方式计算出章节的权重。
并没有啥新意。

阅读全文
0 0
原创粉丝点击