词的向量表示
来源:互联网 发布:mac shell sleep 编辑:程序博客网 时间:2024/04/27 21:18
Vector Representations of Words
自然语言处理不同于图像或音频处理。在图像处理中,像素点的强度值(如果是256色的强度值为0-255)是可以表示成High Dimension的 Data Vector Set。同样音频的功率密度
的强度值也是可以表示成 Data Vector Set。在自然语言处理中,每个词的传统表示都是离散的,简单的说,就是词和词之间不存在任何的关联。 比如”男孩” 和”女孩” 两个词,传统
的index的方法无法告诉我们这两个词都属性集合”孩子”或者是”人类”,他们的关系就比”男孩”和”城市”或”女孩”和”小鸟”更加紧密。
Word Embeddings
Vector Space Models (空间向量模型) 将词语表示成(embedding)在一个连续空间向量中的向量集合,语义更加相近的词汇被映射的数据点就会更加接近,比如’国王’和’王后’,‘北京’和‘天津’。
向量的间的距离是否更加接近取决于我们用来训练的上下文。在空间向量模型的研究上大概分为:基于语义分析的方法(例如LDA,SVD),基于预测的向量表示法(NNLM)。基于语义分析的方法大致
是:计算某词汇与其邻近词汇在一个大型语料库中共同出现的频率及其他统计量,然后将这些统计量映射到一个语义向量中。基于预测的表示法则试图直接从某词汇的邻近词汇对其进行预测,在此过程
中不断利用已经学习到的词和词之间的近似关系,不断完善,构建整体中每一个embedding word vector.
Word2vector
Word2vec是mikolov 发明的一种高效word embeddings learning的预测模型, 从中诞生的最主要的两种向量模型是:连续词袋模型(CBOW)及Skip-Gram模型:
CBOW: 简单来说就是利用上下文的词汇来预测目标词 比如:我爱北京天安门。假设目标词是’北京’,则CBOW用’我’,’爱’,‘天安门’来预测’北京’。
Skip-Gram 是它的一个可逆过程:通过目标词来预测上下文中的词汇。比如:我爱北京天安门。假设目标词是’中国’,则Skip-Gram 是用’北京’ 来预测上下文的’我’,’爱’,‘天安门’
- 词的向量表示
- 词的向量表示
- 词的向量表示
- 向量 向量的表示
- TensorFlow-9-词的向量表示
- 矩阵行列式的向量表示
- 集合的位向量表示
- 正弦信号的向量表示
- 向量的表示及协方差矩阵
- 【计算几何】点与向量的表示
- 向量的表示及协方差矩阵
- Tensorflow教程-字词的向量表示
- 协方差矩阵的向量表示推导
- 斯坦福大学深度学习与自然语言处理第三讲:高级的词向量表示
- 斯坦福大学深度学习与自然语言处理第三讲:高级的词向量表示
- 位向量表示法
- Python 向量表示
- 赛码网刷题之向量表示
- Axios请求配置参数详解
- 第二周第2次课
- LeetCode #23
- LeetCode-48-Rotate Image 矩阵旋转90
- Json转换利器Gson之实例五-实际开发中的特殊需求处理(手动解析-TypeToken)
- 词的向量表示
- 冒泡、选择、插入排序(JAVA)
- HGDB表空间之间移动数据
- 设计模式之Singleton模式
- HDU 2955|Robberies|01背包|概率
- Unity通过修改摄像头的投影矩阵,让画面得到镜像效果
- 基本数据类型及运算
- 互联网公司笔试常见陷阱
- java 实现httpGet Post Put Delete请求并返回结果