word2vec浅析

来源:互联网 发布:淘宝大熊哥佛牌怎么样 编辑:程序博客网 时间:2024/05/30 20:09

word2vec是google在2013年公布的开源工具包,可以用来将word vector化。原理如下

word2vec中的数学原理详解(一)目录和前言


简单来说:

为了实现文章或者一段话的情感分析,有以下几种方法:

1.    简单分为正向情感和负向情感,比如 good 就+1, bad就-1

2.    利用bags of words , 认为词是独立的,缺点是不考虑上下文的联系

3.    利用word2vec,考虑上下文

该方法可以在捕捉语境信息的同时压缩数据规模。Word2Vec实际上是两种不同的方法:Continuous Bag of Words (CBOW) 和Skip-gram。CBOW的目标是根据上下文来预测当前词语的概率。Skip-gram刚好相反:根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机 N 维向量。经过训练之后,该算法利用 CBOW 或者 Skip-gram 的方法获得了每个单词的最优向量。

参考

源文档<http://www.open-open.com/lib/view/open1444351655682.html>

其中有Emoji 推文的情感分析:将40000条推文分成乐观与悲观两种类型,word2vec转换成300维的向量,做8/2分的logistic回归训练。

 

所以利用word2vec的一般步骤是,先有大量的文本,比如百度百科、wiki百科、新闻上的文本,构成txt文档;

第二步,利用分词工具对文本进行分词;

第三步,分词后的结果用word2vec做训练,无监督训练出词的向量。

所以文本量越大越权威,肯定得到的词向量就更合理,可解释。

实例:

1.    用分词工具ansj和word2vec训练新闻数据

http://www.ppvke.com/Blog/archives/44422


 走捷径,利用wiki百科中文的文本:

训练好的中文词向量http://www.cnblogs.com/Darwin2000/p/5786984.html


另一个:

http://download.csdn.net/download/eastmount/9434889

 


 

原创粉丝点击