Content Tree Word Embedding for document representation
来源:互联网 发布:电工鞋 绝缘鞋 知乎 编辑:程序博客网 时间:2024/05/17 21:48
一 简介
该篇论文是对文本向量进行建模,不过采取的是比较简单的方法,就是将文本中所有词的向量求平均作为该文本的向量表示。不过词向量并不是简单的用word2vec或其他词向量模型生成,而是借助了content tree,在预训练好的词向量的基础上对词向量进行进一步的更新,在更新后的词向量的基础上求平均以表示文本。
二 content tree的创建
content tree就是以树形结构去表示一个文本。其假设文本的第一个词作文树的root,第二个词作为root的子节点。随后将计算文本中出现的词与树中的词的皮尔逊系数,将系数最大的词作为新词的parent节点。算法如下图所示。
通过上述算法得到content tree后,下一步要做的就是对词向量的更新。
词向量更新
其初始词向量是由其他词向量模型,如word2vec和Glove等训练而成。不过为了得到高质量的文本向量,虽然只是平均运算,但是对词向量进行了基于content tree的更新。词向量的更新利用的是当前词向量与parent向量的加权平均值,计算方式如下
由上式可知,词向量的更新是一个迭代的过程,如下所示
在得到新的词向量后,去平均值作为文本向量。如下所示
整个的算法流程如下图所示
阅读全文
0 0
- Content Tree Word Embedding for document representation
- Embedding label structures for fine-grained features representation
- word embedding
- word embedding
- word embedding
- Content Type working with Document Word
- word representation
- Word Representation
- 多任务学习“Embedding Label Structures for Fine-Grained Feature Representation”
- 理解GloVe模型(Global vectors for word representation)
- Word Embedding (NLP)简述
- word embedding简要介绍
- Word Embedding与Word2Vec
- TextMining Word Embedding
- Word Embedding Topic Discussing
- Word Embedding与Word2Vec
- 深度学习word embedding
- Word Embedding中Embedding的解释
- CrashRpt
- 深度学习之循环神经网络
- Java中的初始化过程
- Z
- 线段树
- Content Tree Word Embedding for document representation
- 命名空间,重载,指针与引用
- CentOs下yum不能使用的解决办法
- EasyPlayerPro(Windows)开发系列之解决ffmpeg接口调用卡住的问题
- C语言中宏定义方法
- 校内的hu测(10.5)
- 动态规划:01背包
- 深入hibernate的三种状态
- 深度学习(参数选择)