[论文研读]主题词向量
来源:互联网 发布:nginx lua 变量 编辑:程序博客网 时间:2024/05/16 08:07
简介
简单来讲,就是把通过LDA训练出的主题,作为词向量的一部分参与训练,对比了三种在目标/约束上有差别的模型,在词的相似度和文档分类上的效果。
文章全名:Topical Word Embeddings
模型
总体框架是这样,先用LDA得到每个词在具体某个句子(Context/Document)中的主题zi,这里没有细讲,我猜测应该是取最大的主题,这样得到一个词-主题对<wi,zi>,新的词向量便以skip-gram为框架,围绕<wi, zi>来展开
一共有三个模型:
1、TWE-1 原有的词向量固定不动,把主题映射到单独的向量空间,用主题来预测词
2、TWE-2 把<wi, zi>看作一个“虚拟词”,向量和目标都以虚拟词为单位进行,剩下的和标准skip-gram做法一样
3、TWE-3 第二个模型的做法会使得“虚拟词”维度一下增高为mxn倍,可能有过于稀梳的问题,第三个模型仍然以虚拟词为预测目标,但对向量空间作了约束,最终向量由词向量和主题向量拼接而成[w,z]
其目标函数与TWE-2一致
结果
三者中最简单的模型,即TWE-1在相似度和文本分类任务中均胜出,很好地诠释了什么叫“少即是多”
评价与讨论
因为项目上用到词向量,并且发现高频词的一词多义问题比较困扰,一直在尝试找出合适的解决方案,主题模型当前的主要思路,具体的实现方案还在考虑之中。这篇文章怎么说都比较Trick,效果也许还行,但模型显然不够简洁,不够优雅,有拼凑之嫌。
阅读全文
0 0
- [论文研读]主题词向量
- [论文研读]非对称统计词向量(GloVe)
- 论文研读1
- 如何研读一篇论文?
- 如何研读一篇论文?
- 研读论文的得失总结
- 基础ANN相关论文研读
- 知识图构建--论文研读
- 顶级会议论文研读集
- 研读论文的得与失
- 研读《Selective Search for Object Recognition》论文
- 研读论文的得与失 --转载
- P2P流媒体技术三篇论文研读笔记(CoolStreaming)
- 【论文研读】事件与时间序列的关联
- 论文研读《JOTS: Joint Online Tracking and Segmentation》
- 论文研读--Weakly Supervised Object Localization with Progressive Domain Adaptation
- 论文研读--Stacked Attention Networks for Image Question Answering
- 论文研读--LocNet: Improving Localization Accuracy for Object Detection
- GHOST 系统 X86/X64 官方原版2017
- php生成不重复的随机数
- 云栖精选8月刊丨最全2016云栖大会资料大放送!技术精彩值得打call!
- 网页在浏览器中的title前面的小图标小ico
- 编写README.md文档
- [论文研读]主题词向量
- c++构造函数的调用顺序
- CORS 跨域 实现思路及相关解决方案
- Json转换利器Gson之实例三-Map处理(上)--(LinkedHashMap)--(手动解析-TypeToken)
- Get the Containers
- Javamail配置阿里云邮箱发送邮件
- 高精度板子
- Python Queue的使用
- PullAndTab组合横排滑动上落下提