Word2vec安装使用

来源:互联网 发布:什么牌子沙发好 知乎 编辑:程序博客网 时间:2024/06/05 16:51

下载C版本的word2vec

进入文件目录下后,会有一个makefile文件,有了它就可以编译啦

$ cd /home/yinglish/download/word2vec/trunk$ make

编译完后会生成一些新的文件。
接下来如果要使用word2vec自带的词典,则运行:

$ ./demo-word.sh

它将会去下载数据text8(用空格隔开的英文单词,不包含标点符号,大概1600多万个单词)

如果想用自己的词典训练,则先把词典(我的叫test.txt,是已分词并去除标点符号的评论)放到该目录下,运行:

./word2vec -train test.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1test.txt, vectors.bin分别是输入的训练数据和输出模型不使用cbow, 默认使用skip-Gram每个单词的向量维度为200训练窗口大小为5(一个词语前后各取5个)不使用NEG而使用HSsample指采样阈值,如果一个词语在训练样本中出现的频率越大越会被采样binary为1表示结果用二进制存储,为0表示普通存储(可以打开看到词语和对应向量)

训练完后就可以看到一个vectors.bin文件啦,这就是我们的训练数据中词语及其对应向量了。

那么如何使用Word2vec的功能呢?

比如说计算词语相似度:
我们可以在该目录下看到一个叫distance的菱形可执行文件,这是我们编译后产生的,运行它

$./distance vectors.binEnter word or sentence(EXIT to break):

如果我输入“林心如”,返回:

这里写图片描述

原创粉丝点击