[转载]文献关键词共现矩阵python实现
来源:互联网 发布:seo外包顾问服务 编辑:程序博客网 时间:2024/06/06 03:59
原文在此:http://blog.csdn.net/luotuo512/article/details/7985707
CSDN真烂,就不能提供一键转载吗?
文献关键词共现矩阵python实现
预备知识:
文章关键词
关键词是指表示文献实质意义的那些名词或词组,常出现在文献篇名或文献正文中。
关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇。科技论文的关键词是从其题名、层次标题和正文中选出来的,能反映论文主题概念的词或词组。
关键词是为了适应计算机检索的需要而提出来的,位置在摘要之后。早在1963年,美国Chemical Abstracts从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。在科学技术信息迅猛发展的今天,全世界每天有几十万篇科技论文发表,学术界早已约定利用主题概念词去检索最新发表的论文。作者发表的论文不标注关键词或叙词,文献数据库就不会收录此类文章,读者就检索不到。关键词选得是否恰当,关系到该文被检索和该成果的利用率。
共现矩阵
通过对高频主题词的词频统计分析,我们可以了解到目前某一专题领域里研究的热点。但是,仅仅对这些主题词按照出现频次由高到低的排列还不能表现出这些高频主题词之间的联系,因此我们可以采用共现分析的技术来进一步挖掘这些主题词之间的联系。主题词的共现分析是根据主题词在同一篇论文中共同出现的次数来表示主题词之间的联系。一般认为,如果两个主题词频繁在同一篇论文中同时出现,往往表明这两个主题词之间具有比较密切的联系。这就是共现分析的理论基础。
python实现
文章关键词数据获取
在cnki中检索相关论文,如“中医”,在检索结果页面选择导出,导出格式自选,本文仅分析关键词共现,所以只选择文章名和关键词。如下图。
词频统计
确定每个关键词出现的次数,称为词频。
高频词选取
所有关键词符合长尾分布,大量关键词词频为1次,词频较高的关键词才能反映出领域研究热点,词频较低的关键词体现单个文章的研究特色。词频较高的关键词才会有有意义共现矩阵。如下代码完成确定词频阈值。
高频词矩阵产生
遍历文章关键词列表,获得高频关键词矩阵。
参考文献:
关键词http://www.jcimjournal.com/homepagefiles/quesfiles/20041125576891741.htm
共现分析http://blog.sciencenet.cn/blog-82196-292267.html
csdn的文章编辑器真烂啊,为什么没有离线编辑器呢。
- [转载]文献关键词共现矩阵python实现
- 文献关键词共现矩阵python实现
- python构建关键词共现矩阵
- Python 实现共现矩阵算法
- 灰度共现矩阵
- python实现关键词提取
- 使用MapReduce实现pairs算法实现单词的共现矩阵
- python jieba实现关键词提取
- textrank 关键词提取-python实现
- (转) 基于MapReduce的ItemBase推荐算法的共现矩阵实现(一)
- 基于MapReduce的ItemBase推荐算法的共现矩阵实现
- 灰度共生(共现)矩阵的求法
- 灰度共生(共现)矩阵的求法
- OpenCV22(灰度共现矩阵/灰度共生矩阵)
- Python 实现的关键词查找小工具
- Python实现矩阵相乘
- python 实现矩阵相乘
- python 关键词
- 1043. 输出PATest(20)
- The declared package does not match the expected package
- gcc,g++,gdb的简单安装
- Mac 安装和使用MongoDB
- [arc068f]Solitaire
- [转载]文献关键词共现矩阵python实现
- 1175级数求和问题
- 9.1 构造器与垃圾收集器
- 细讲android获取流量使用情况,以及解决调用流量接口不准问题(非TrafficStats,而是NetworkStatsHistory)
- Correct Path解题方法
- Spring3中js/css/jpg/gif等静态资源无法找到(No mapping found for HTTP request with URI)问题解决
- java.sql.SQLException: ORA-28000: the account is locked
- Spring MVC学习记录(一)——网站基础知识(1)
- 哈希表处理冲突的办法