【9月18日】面向学术文献的知识挖掘方法研究
来源:互联网 发布:空间网络音乐怎么删除 编辑:程序博客网 时间:2024/05/16 01:56
摘要
本文提出一种基于位置加权的核心知识挖掘方法,旨在以句尾知识处理粒度,抽取正文中的核心句子作为独立的知识单元。通过量化句子间的关联,将正文表示成一个以句子为节点,句子间关联为边的文本关系网络,提出了基于章节的位置加权算法,结合社会网络分析方法,挖掘出文本中的核心知识单元部分的句子。
相关概念
知识抽取 是对蕴含于文献中的知识进行识别、理解、筛选、格式化,从而把文献中的各个知识点抽取出来,是信息抽取规则的升华和深化。可以分为三类:
- 基于模式匹配 : Chunxua Zhang和Peng Jiang研究了研究了如何对韩语语料进行定义抽取;温有奎利用学术文献中创新点表述的句子结构特点对创新点进行抽取。
- 基于本体: 通过建立本体描述概念与概念之间的关系,再基于建好的本体在文档中抽取相匹配的知识内容。车海燕等提出基于本体主题的属性识别方法基于本体属性约束的三元组元素识别方法。
- 基于语义抽取:目前尚没有理想的效果。
抽取方法
构建句子复杂网络-->社会网络分析
第一步的重点是“句子关联”的定义和计算:较简单的做法是经过处理之后直接计算词的耦合,复杂点再加上语法结构–“虽然……但是……”、“如果……就……”,同样的词出现在主句和出现在从句的意义并不一样;“基于该理论……”、“因此……”,“……该方法……”等连词和代词来表现句子之间的紧密联系。
第二步“社会网络分析”:点度中心度,中介中心度和接近中心度等。
本文提出了一种章节权重计算的方法。基于各章节之间词的耦合数进行权重计算,得出
实验描述
本文的实验数据选取10篇情报学领域的文献,且均包含五个章节(故适用性并不强)。
主要的工作,一是以词袋的形式表示句子,构建句子间的相似矩阵;二是以词袋的形式表示章节,再以社会网络的分析方式计算出章节的权重。
并没有啥新意。
阅读全文
0 0
- 【9月18日】面向学术文献的知识挖掘方法研究
- Google学术查到文献直接导入endnote的方法
- Google学术查到文献直接导入endnote的方法
- 基于CAJViewer的学术文献使用技巧
- 工作流挖掘:相关问题和方法的研究(9)
- 学术数据库 文献检索
- 学术数据库 文献检索
- 学术牛人读外文文献
- 学术文献检索分类
- 面向地学数据的数据挖掘研究与实现
- 上谷歌学术的方法
- 推荐一些常用的中外学术文献数据库网站
- 荐一些常用的中外学术文献数据库网站
- 推荐一些常用的中外学术文献数据库网站
- 利用谷歌学术搜索生成规范的文献引用
- 利用谷歌学术搜索生成规范的文献引用
- 4月3日——4月9日:新闻策划与研究
- 关于数据挖掘的文献综述
- leetcode 324. Wiggle Sort II
- HDU-2017 ACM/ICPC Asia Regional Qingdao Online-1001-Apple
- eclipse中java代码的审查和格式校验插件
- 自己实现一个SQL解析引擎 功能:将用户输入的SQL语句序列转换为一个可执行的操作序列,并返回查询的结果集。 SQL的解析引擎包括查询编译与查询优化和查询的运行,主要包括3个步骤: 查询分析
- 迷茫中 我走上hadoop之路
- 【9月18日】面向学术文献的知识挖掘方法研究
- leetcode
- MapReduce架构
- 浅谈最小生成树什么的
- laravel基础教程
- HDU-6214 Smallest Minimum Cut(最小割)
- 添加信息组建表格
- 【基础中心】笔记九--复制对象和ul的全选
- oracle中跳出循环结构的exit,continue和return