利用Word2Vec训练词向量过程

来源：互联网发布：mac 数据库可视化工具编辑：程序博客网时间：2024/05/22 15:19

先明确一点，选用不同的词向量作为模型的初始值，效果的差异非常大！那么怎么产生一个好的词向量呢？参看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F

1、英文的词向量可以训练，也可以用Google训练好的那个模型。
2、但是中文就不行了，没有一个公布一个权威的词向量。

所以，当我们自己做试验时，就需要动手训练这个语义空间的词向量（注：不同的语义空间词向量是不同的）。那么如何训练一个好的词向量是有一定套路的。从开头那个链接文章知道：

“首先根据具体任务，选一个领域相似的语料，在这个条件下，语料越大越好。然后下载一个 word2vec 的新版（14年9月更新），语料小（小于一亿词，约 500MB 的文本文件）的时候用 Skip-gram 模型，语料大的时候用 CBOW 模型。最后记得设置迭代次数为三五十次，维度至少选 50，就可以了。”

语料对词向量的影响比模型的影响要重要得多得多得多（重要的事说三遍）

很多论文都提到语料越大越好，我们发现，语料的领域更重要。领域选好了，可能只要 1/10 甚至 1/100 的语料，就能达到一个大规模泛领域语料的效果.文章还做了实验，当只有小规模的领域内语料，而有大规模的领域外语料时，到底是语料越纯越好，还是越大越好。在我们的实验中，是越纯越好。这一部分实验数据比较丰富，原文相对清楚一些。

再说下用gensim训练词向量时遇到的坑。
1、可以直接包gensim。gensim理由Word2Vec。
2、Sentences输入的是分好的词的句子。词与词之间空格。
3、

1 0