论文解读: Topic Modeling of Short Texts: A Pseudo-Document View
来源:互联网 发布:java接收post请求数据 编辑:程序博客网 时间:2024/06/07 13:38
16年北航的一篇论文 : Topic Modeling of Short Texts: A Pseudo-Document View
看大这篇论文想到了上次面腾讯的时候小哥哥问我短文档要怎么聚类或者分类。当时一脸懵逼。
short texts : 短文本,一般指的是文档的平均单词数量比较小(10左右)的文档这类文档由于co-occurance的单词数目的限制,用普通的主题模型效果不好。
那么要怎么办呢? 生成pseudo-document 即伪文档。
伪文档是真实文档的某种结合,论文里边提到了三个点: topic selectors, smoothing prior, weak smoothing。 举个例子如下:
第二层的是pseudo-document , 第三层是原始的文档,平均每个文档的单词数目较少。
pseudo-document 已经生成了,那么主题模型变成什么样子了?
针对每个topic 得到每个topic的分布
针对每个伪文档dl, 得到每个dl的分布
对于短文档ds, 首先找到对应的伪文档l, 再根据dl的分布得到主题topic, 根据主题t的分布得到单词w
pseudo-document 的数量是实验过程中人为指定的,数目对模型的好坏是有一定的影响的。
1 0
- 论文解读: Topic Modeling of Short Texts: A Pseudo-Document View
- #Paper Reading# Robust Word-Network Topic Model for Short Texts
- Long texts in SAP BW: Modeling
- 论文读书笔记-using topic keyword clusters for automatic document clustering
- 论文阅读——Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling
- 论文笔记:LSTM, GRU, Highway and a Bit of Attention: An Empirical Overview for Language Modeling in Speec
- 用GibbsLDA做Topic Modeling
- Topic modeling LDA by Blei
- LTM(Lifelong Topic Modeling)介绍
- A Short Synopsis of ASP.NET ViewState
- A Short History of MS-DOS
- 【论文阅读】A Correlated Topic Model Using Word Embeddings
- Topic Model 相关论文
- Add a pseudo instruction
- 可视化系列论文【INFUSE: Interactive Feature Selection for Predictive Modeling of High Dimensional Data】
- 输入法论文阅读一:Effects of Language Modeling and its Personalization on Touchscreen Typing Performance
- 论文笔记:Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
- Topic modeling made just simple enough
- 闪动的TextView
- 2017年实习笔试面试经验总结
- 编译原理实验-带变量的中缀转后缀以及错误处理
- Ximmerse SDK
- 添加quartz定时任务
- 论文解读: Topic Modeling of Short Texts: A Pseudo-Document View
- powerDesigner15 连接Oracle11g服务(非本机,局域网服务器),逆向工程
- 【读书笔记】机器学习实战-4.6节 朴素贝叶斯过滤垃圾邮件
- 数组与指针的理解
- jasper报表工具的使用
- 基于全注解的SpringMVC+Spring4.2+hibernate4.3框架搭建
- mongodb php 增删改查
- Node Express listen和http createServer区别
- 用深度神经网络对Iris数据集进行分类的程序--tensorflow