利用Word2Vec训练词向量过程

来源:互联网 发布:mac 数据库可视化工具 编辑:程序博客网 时间:2024/05/22 15:19

先明确一点,选用不同的词向量作为模型的初始值,效果的差异非常大!那么怎么产生一个好的词向量呢?参看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F

1、英文的词向量可以训练,也可以用Google训练好的那个模型。
2、但是中文就不行了,没有一个公布一个权威的词向量。

所以,当我们自己做试验时,就需要动手训练这个语义空间的词向量(注:不同的语义空间词向量是不同的)。那么如何训练一个好的词向量是有一定套路的。从开头那个链接文章知道:

“首先根据具体任务,选一个领域相似的语料,在这个条件下,语料越大越好。然后下载一个 word2vec 的新版(14年9月更新),语料小(小于一亿词,约 500MB 的文本文件)的时候用 Skip-gram 模型,语料大的时候用 CBOW 模型。最后记得设置迭代次数为三五十次,维度至少选 50,就可以了。”

语料对词向量的影响比模型的影响要重要得多得多得多(重要的事说三遍)

很多论文都提到语料越大越好,我们发现,语料的领域更重要。领域选好了,可能只要 1/10 甚至 1/100 的语料,就能达到一个大规模泛领域语料的效果.文章还做了实验,当只有小规模的领域内语料,而有大规模的领域外语料时,到底是语料越纯越好,还是越大越好。在我们的实验中,是越纯越好。这一部分实验数据比较丰富,原文相对清楚一些。

再说下用gensim训练词向量时遇到的坑。
1、可以直接包gensim。gensim理由Word2Vec。
2、Sentences输入的是分好的词的句子。词与词之间空格。
3、

1 0
原创粉丝点击