word2vec浅析
来源:互联网 发布:淘宝大熊哥佛牌怎么样 编辑:程序博客网 时间:2024/05/30 20:09
word2vec是google在2013年公布的开源工具包,可以用来将word vector化。原理如下
word2vec中的数学原理详解(一)目录和前言
简单来说:
为了实现文章或者一段话的情感分析,有以下几种方法:
1. 简单分为正向情感和负向情感,比如 good 就+1, bad就-1
2. 利用bags of words , 认为词是独立的,缺点是不考虑上下文的联系
3. 利用word2vec,考虑上下文
该方法可以在捕捉语境信息的同时压缩数据规模。Word2Vec实际上是两种不同的方法:Continuous Bag of Words (CBOW) 和Skip-gram。CBOW的目标是根据上下文来预测当前词语的概率。Skip-gram刚好相反:根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机 N 维向量。经过训练之后,该算法利用 CBOW 或者 Skip-gram 的方法获得了每个单词的最优向量。
参考
源文档<http://www.open-open.com/lib/view/open1444351655682.html>
其中有Emoji 推文的情感分析:将40000条推文分成乐观与悲观两种类型,word2vec转换成300维的向量,做8/2分的logistic回归训练。
所以利用word2vec的一般步骤是,先有大量的文本,比如百度百科、wiki百科、新闻上的文本,构成txt文档;
第二步,利用分词工具对文本进行分词;
第三步,分词后的结果用word2vec做训练,无监督训练出词的向量。
所以文本量越大越权威,肯定得到的词向量就更合理,可解释。
实例:
1. 用分词工具ansj和word2vec训练新闻数据
http://www.ppvke.com/Blog/archives/44422
走捷径,利用wiki百科中文的文本:
训练好的中文词向量http://www.cnblogs.com/Darwin2000/p/5786984.html
另一个:
http://download.csdn.net/download/eastmount/9434889
- word2vec浅析
- word2Vec浅析
- word2vec浅析
- word2vec
- word2vec
- word2vec
- Word2Vec
- word2vec
- Word2Vec
- Word2Vec
- word2vec
- word2vec
- word2vec
- word2vec
- word2vec
- word2vec
- word2vec
- word2vec
- java工具类
- 精选10款超酷的HTML5/CSS3菜单
- Android Studio编译后安装apk报错:The APK file does not exist on
- first day
- 持续集成篇-- SonarQube代码质量管理平台的安装
- word2vec浅析
- 【备忘】使用 Docker Machine 创建虚拟机的脚本及参数
- BootStrap 模态框禁用ESC关闭、禁用点击空白处关闭
- Android进阶之路
- Swift-使用 R.swift 优雅的使用资源文件
- java数组元素倒序的三种方法
- Nginx + uwsgi + Django 简单上线配置
- weblogic项目可以没有web.xml文件?
- js学习笔记