gensim 之 word2vec
来源:互联网 发布:3d数据图表制作软件 编辑:程序博客网 时间:2024/06/07 13:24
gensim库三大功能:
- 可扩展的统计语义
- 分析语义结构的纯文本
- 检索语义上类似的文档
word2vec是gensim的一个子模块,可以用来实现上面三大功能
word2vec的理解
下面的两篇博客对word2vec介绍的很详细
https://www.zhihu.com/question/25269336
http://www.cnblogs.com/iloveai/p/word2vec.html
我个人理解:
机器学习中,一切都是基于向量的.自然语言处理中的句子都是依赖词向量来表示.
而word2vec和lda相对应,是词向量的两种不同的模型:
- word2vec属于神经网络语言模型,根据词与其周边词汇的关系训练词向量,然后将词向量用来做nlp的任务
- lda则是一种文档主题生成模型,比如lsi模型
在gensim中使用word2vec
详细教程参见:
http://radimrehurek.com/gensim/models/word2vec.html
https://rare-technologies.com/word2vec-tutorial/
http://textprocessing.org/getting-started-with-word2vec
练习:
test8下载地址:
http://mattmahoney.net/dc/text8.zip
from gensim.models import word2vecimport gensimimport logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)#第一次使用,需要加载文档集(http://mattmahoney.net/dc/text8.zip)sentences = word2vec.Text8Corpus('/tmp/text8')model = word2vec.Word2Vec(sentences, size=200)#保存模型,以便下次直接使用model.save('/tmp/text8.model')#下次使用的时候,无需加载sentences文档集,直接读取model啦#model = word2vec.Word2Vec('/tmp/text8.model')#word2vec好玩的地方,计算相似词,woman+man+kiss+love-girl=bride>>> model.most_similar(positive=['woman','man','kiss','love'],negative=['girl'],topn=5)#结果如下[('bride', 0.6755753755569458), ('me', 0.6339389681816101), #('baby', 0.6337762475013733), ('lady', 0.6284192204475403), ('devil', 0.6243280172348022)]
也可以这样玩:
#找出不同类的词model.doesnt_match(['fuck','head','foot','hand'])#fuckmodel.doesnt_match("breakfast cereal dinner lunch".split())#cereal
还可以找两个词的相似度
word2vec也支持短语:
>>> bigram_transformer = gensim.models.Phrases(sentences)>>> model = Word2Vec(bigram_transformer[sentences], size=100, ...)
阅读全文
0 0
- gensim 之 word2vec
- gensim word2vec
- gensim Word2vec
- Gensim Word2vec 使用教程
- Gensim Word2vec简介
- gensim中使用word2vec
- Gensim Word2vec简介
- gensim word2vec 实例
- word2vec using gensim
- Gensim Word2vec 使用教程
- Gensim Word2vec 使用教程
- gensim Word2Vec 处理中文 KeyError
- gensim版word2vec的使用
- 基于 Gensim 的 Word2Vec 实践
- gensim 中文语料训练 word2vec
- 基于 Gensim 的 Word2Vec 实践
- 【word2vec】之 训练模型结果的结构探究 模型改造 python gensim
- Deep learning with word2vec and gensim
- Neutron的基本原理与代码实现
- jstl遍历集合
- thinkphp 的检测类的实例
- 不同版本oracle数据列转行
- 学习笔记脚本开发之节点与组件
- gensim 之 word2vec
- android输入金额格式化文本框金额格式控制
- 蓝桥杯 ADV-162 算法提高 题目1 最大最小值
- 微信小程序实现高亮效果
- HDU 2276 矩阵快速幂,解法:1循环矩阵31ms,2普通矩阵327ms。
- iOS-GCD定时器
- 无法识别的属性“targetFramework”解决办法
- eclipse 通过Hibernate 逆向生成实体类和映射文件
- 暑期C++03 之浅拷贝问题抛出与解决