gensim
来源:互联网 发布:卫视直播软件哪个好 编辑:程序博客网 时间:2024/05/18 09:29
作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这个一款具备多种功能的神器,为了深入了解该工具的使用方法,本人将使用该工具进行一系列实战。
该系列博客共分为以下几章:
(一)Gensim简介及使用环境搭建
(二)工具自带教程分析
(三)实战演练案例之文档分类
(四)后记
一、Gensim简介及使用环境搭建
(1)简介
Gensim的作者是Radim Řehůřek,一位来自阿拉伯世界的学者。这个作品源于其博士论文《SCALABILITY OF SEMANTIC ANALYSIS IN NATURAL LANGUAGE PROCESSING》,用兴趣的同学可以到谷歌学术上查找看看,这里就不在细说。给定一篇文档,Gensim可以产生一些列与该文档相似的文档集合,这也是作者将其命名为Gensim(gensim = “generate similar”)原因。另外Gensim在Github上地址为:https://github.com/piskvorky/gensim。
(2)Gensim可以做什么?
根据Gensim的官方API描述,Gensim提供如下函数:
- interfaces – Core gensim interfaces
- utils – Various utility functions
- matutils – Math utils
- corpora.bleicorpus – Corpus in Blei’s LDA-C format
- corpora.dictionary – Construct word<->id mappings
- corpora.hashdictionary – Construct word<->id mappings
- corpora.lowcorpus – Corpus in List-of-Words format
- corpora.mmcorpus – Corpus in Matrix Market format
- corpora.svmlightcorpus – Corpus in SVMlight format
- corpora.wikicorpus – Corpus from a Wikipedia dump
- corpora.textcorpus – Building corpora with dictionaries
- corpora.ucicorpus – Corpus in UCI bag-of-words format
- corpora.indexedcorpus – Random access to corpus documents
- models.ldamodel – Latent Dirichlet Allocation
- models.ldamulticore – parallelized Latent Dirichlet Allocation
- models.ldamallet – Latent Dirichlet Allocation via Mallet
- models.lsimodel – Latent Semantic Indexing
- models.tfidfmodel – TF-IDF model
- models.rpmodel – Random Projections
- models.hdpmodel – Hierarchical Dirichlet Process
- models.logentropy_model – LogEntropy model
- models.lsi_dispatcher – Dispatcher for distributed LSI
- models.lsi_worker – Worker for distributed LSI
- models.lda_dispatcher – Dispatcher for distributed LDA
- models.lda_worker – Worker for distributed LDA
- models.word2vec – Deep learning with word2vec
- models.doc2vec – Deep learning with paragraph2vec
- models.dtmmodel – Dynamic Topic Models (DTM) and Dynamic Influence Models (DIM)
- models.phrases – Phrase (collocation) detection
- similarities.docsim – Document similarity queries
- How It Works
- simserver – Document similarity server
从上述描述我们可以总结出,除了具备基本的语料处理功能外,Gensim还提供了LSI、LDA、HDP、DTM、DIM等主题模型、TF-IDF计算以及当前流行的深度神经网络语言模型word2vec、paragraph2vec等算法,可谓是方便之至。
(二)使用环境搭建
由于Gensim使用python语言开发的,为了减少安装中的繁琐,笔者直接使用anaconda工具进行集中安装。由于anacoda提供了方便的安装命令,所以直接使用conda install gensim命令即可完成环境的搭建。在这里就不在详述,提供一篇文档供小伙伴学习:《Python科学计算环境推荐——Anaconda》
阅读全文
0 0
- GENSIM
- GENSIM
- gensim
- gensim试用
- gensim安装
- gensim introduction
- gensim工具包
- 安装gensim
- gensim word2vec
- Gensim入门教程
- Gensim 安装
- gensim Word2vec
- gensim 简介
- gensim入门
- gensim-lda
- Gensim学习
- 【gensim中文教程】开始使用gensim
- gensim做主题模型
- 解决Could not resolve host: github.com; Unknown error
- Mysql分页处理(PageHelper)
- UML基础小结
- android studio 读取assets文件夹下的文件
- 自定义对象
- gensim
- 设计一个波浪计数器
- 6.面向对象--继承
- swiper触屏滑动
- 视觉
- 51nod1640-最小生成树&二分|性质-天气晴朗的魔法
- kali Linux 第四章 实验环境
- bzoj 1833 [ZJOI2010]count 数字计数 数位dp
- Oracle:表