python 下的 word2vec 学习笔记
来源:互联网 发布:php程序员要求 编辑:程序博客网 时间:2024/06/04 23:07
1.ubuntu下安装gensim
refer to: ubuntu 14.04 安装gensim
为了保证安装成功,首先升级一下easy_install工具。
- 1
- 1
之后使用easy_install进行安装,使用apt-get安装会遇到编码出错,不知为什么,使用easy_install安装成功就行了。
- 1
- 2
- 1
- 2
结果在import gensim 中还出现了点小错误,缺少了平pattern模块,所以直接pip 安装。
- 1
- 1
2.训练生成模型
安装完成之后,就来训练模型。
refer:中英文维基百科语料上的word2vec实验
模型的训练如下:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
在本次的实验中,我们的数据是保存在txt文件中的。每一行对应一个句子(已经分词,以空格隔开),我们可以直接用LineSentence把txt文件转为所需要的格式。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
关于Word2Vec(…) 模型的参数说明(refer to: gensim实现python对word2vec的训练和计算和word2vec使用说明):
LineSentence(inp):应该是把word2vec训练模型的磁盘存储文件(model在内存中总是不踏实)转换成所需要的格式;对应的格式是参考上面的例1。
size:是每个词的向量维度;
window:是词向量训练时的上下文扫描窗口大小,窗口为5就是考虑前5个词和后5个词;
min-count:设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃;
workers:是训练的进程数(需要更精准的解释,请指正),默认是当前运行机器的处理器核数。这些参数先记住就可以了。
说明一下输入语料,输入的是文本文件的格式,其中没一行表示一个文章,而且是经过分词处理的。词与词之间用空格隔开就行了。分词的工具有很多,我一般用的是结巴分词(不知道大家以后没有好的分词工具推荐)。一般来说,训练集越大,结果的泛化性越好,对于专业领域的话,最好能使用专业领域的语料来进行训练。
3.导入模型
- 1
- 2
- 3
- 4
- 5
- 6
- 1
- 2
- 3
- 4
- 5
- 6
4. 模型使用
可以参照官网上的指导迅速了解model的各种功能方法。
4.0 获取词向量
- 1
- 2
- 1
- 2
- 1
- 2
- 3
- 1
- 2
- 3
4.1 计算一个词的最近似的词,倒排序
- 1
- 2
- 3
- 1
- 2
- 3
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
4.2 计算两词之间的余弦相似度
word2vec一个很大的亮点:支持词语的加减运算。(实际中可能只有少数例子比较符合)
- 1
- 2
- 1
- 2
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
4.3 计算两个集合之间的余弦似度
当出现某个词语不在这个训练集合中的时候,会报错!!!。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 1
- 2
- 1
- 2
4.4 选出集合中不同类的词语
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
- 1
- 2
- 1
- 2
- python 下的 word2vec 学习笔记
- python 下的 word2vec 学习笔记
- python 环境下gensim中的word2vec的使用笔记
- Python Tensorflow下的Word2Vec代码解释
- word2vec学习笔记
- word2vec学习笔记[转]
- word2vec学习笔记
- word2vec学习笔记2
- word2vec学习笔记
- Word2Vec学习笔记(一)
- Word2Vec学习笔记(二)
- word2vec学习笔记
- 学习笔记之word2vec
- word2vec学习笔记[转]
- Word2vec学习笔记
- 深度学习 word2vec 笔记
- Word2Vec学习笔记
- word2vec的python应用
- Redis数据库的命令行操作
- java 语法 —— 数组
- Android 解决表情面板和软键盘切换时跳闪的问题
- js实现继承的5种方式
- 获取轮廓的最小外接矩形
- python 下的 word2vec 学习笔记
- poj2192 Zipper
- 1037. Magic Coupon (25)
- 如何实现一篇学术文章的代码?
- LeetCode Weekly Contest 47
- 字符串赋值给指针与数组的区别
- thinkphp操作mysql之SQl语句报错及解决方案
- 从神经网络到深度学习(一 )
- JRadioButton(单选按钮)组件使用