利用Word2Vec训练词向量过程
来源:互联网 发布:mac 数据库可视化工具 编辑:程序博客网 时间:2024/05/22 15:19
先明确一点,选用不同的词向量作为模型的初始值,效果的差异非常大!那么怎么产生一个好的词向量呢?参看文章http://licstar.net/archives/tag/%E8%AF%8D%E5%90%91%E9%87%8F
1、英文的词向量可以训练,也可以用Google训练好的那个模型。
2、但是中文就不行了,没有一个公布一个权威的词向量。
所以,当我们自己做试验时,就需要动手训练这个语义空间的词向量(注:不同的语义空间词向量是不同的)。那么如何训练一个好的词向量是有一定套路的。从开头那个链接文章知道:
“首先根据具体任务,选一个领域相似的语料,在这个条件下,语料越大越好。然后下载一个 word2vec 的新版(14年9月更新),语料小(小于一亿词,约 500MB 的文本文件)的时候用 Skip-gram 模型,语料大的时候用 CBOW 模型。最后记得设置迭代次数为三五十次,维度至少选 50,就可以了。”
语料对词向量的影响比模型的影响要重要得多得多得多(重要的事说三遍)
很多论文都提到语料越大越好,我们发现,语料的领域更重要。领域选好了,可能只要 1/10 甚至 1/100 的语料,就能达到一个大规模泛领域语料的效果.文章还做了实验,当只有小规模的领域内语料,而有大规模的领域外语料时,到底是语料越纯越好,还是越大越好。在我们的实验中,是越纯越好。这一部分实验数据比较丰富,原文相对清楚一些。
再说下用gensim训练词向量时遇到的坑。
1、可以直接包gensim。gensim理由Word2Vec。
2、Sentences输入的是分好的词的句子。词与词之间空格。
3、
1 0
- 利用Word2Vec训练词向量过程
- word2vec 词向量训练
- 使用预训练的word2vec词向量
- 使用预训练的word2vec词向量
- 利用 word2vec 训练的字向量进行中文分词
- 利用 word2vec 训练的字向量进行中文分词
- 利用 word2vec 训练的字向量进行中文分词
- word2vec 过程理解&词向量的获取
- Windows下使用Word2vec继续词向量训练
- Windows下使用Word2vec继续词向量训练
- word2vec词向量训练及中文文本相似度计算
- Windows下使用Word2vec继续词向量训练
- Windows下使用Word2vec继续词向量训练
- word2vec (四) 动手训练一个词向量空间
- word2vec词向量训练及中文文本相似度计算
- 用Word2vec训练中文wiki,构造词向量并做词聚类
- 基于python的gensim word2vec训练词向量
- word2vec词向量训练及gensim的使用
- 1月14日(作业)
- 每天一个linux命令:tar命令
- 1月16日
- 哈夫曼编码
- 每天一个linux命令:chgrp命令
- 利用Word2Vec训练词向量过程
- 每天一个linux命令: chown命令
- 1月16日(作业)
- 1月16日(作业2)
- Visual Studio 常用快捷键速查(未整理)
- 1月17日
- RDD详解
- C++容器类的介绍和例子源代码
- Activity大全