word2vec浅析

来源：互联网发布：淘宝大熊哥佛牌怎么样编辑：程序博客网时间：2024/05/30 20:09

word2vec是google在2013年公布的开源工具包，可以用来将word vector化。原理如下

word2vec中的数学原理详解（一）目录和前言

简单来说：

为了实现文章或者一段话的情感分析，有以下几种方法：

1. 简单分为正向情感和负向情感，比如 good 就+1， bad就-1

2. 利用bags of words , 认为词是独立的，缺点是不考虑上下文的联系

3. 利用word2vec，考虑上下文

该方法可以在捕捉语境信息的同时压缩数据规模。Word2Vec实际上是两种不同的方法：Continuous Bag of Words (CBOW) 和Skip-gram。CBOW的目标是根据上下文来预测当前词语的概率。Skip-gram刚好相反：根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初，每个单词都是一个随机 N 维向量。经过训练之后，该算法利用 CBOW 或者 Skip-gram 的方法获得了每个单词的最优向量。

参考

源文档<http://www.open-open.com/lib/view/open1444351655682.html>

其中有Emoji 推文的情感分析：将40000条推文分成乐观与悲观两种类型，word2vec转换成300维的向量，做8/2分的logistic回归训练。

所以利用word2vec的一般步骤是，先有大量的文本，比如百度百科、wiki百科、新闻上的文本，构成txt文档；

第二步，利用分词工具对文本进行分词；

第三步，分词后的结果用word2vec做训练，无监督训练出词的向量。

所以文本量越大越权威，肯定得到的词向量就更合理，可解释。

实例：

1. 用分词工具ansj和word2vec训练新闻数据

http://www.ppvke.com/Blog/archives/44422

走捷径，利用wiki百科中文的文本：

训练好的中文词向量http://www.cnblogs.com/Darwin2000/p/5786984.html

另一个：

http://download.csdn.net/download/eastmount/9434889

阅读全文

0 0