#Paper Reading# Leveraging Multi-Domain Prior Knowledge in Topic Models

来源：互联网发布：伐木累软件老板编辑：程序博客网时间：2024/06/11 01:44

论文题目：Leveraging Multi-Domain Prior Knowledge in Topic Models
论文地址：http://www.ijcai.org/Proceedings/13/Papers/306.pdf

论文大体内容：
现在的主题模型主要有LDA[1]，NMF[2]以及基于这两大类的一系列改进模型，但大部分都是仅针对一个dataset。作者提出，我们人的学习过程是一个迭代学习的过程，像以前学习到的知识，对我们现在面临的问题会是一个很好的solution。因此，作者提出一个叫MDK-LDA（LDA with Multi-Domain Knowledge）的模型，能够根据之前topic model学习到的知识，指导下一次的学习。

1、作者提出使用s-set来表示单词的集合，这个集合中的单词在这个领域中含有相同的语义。这个先验知识就类似于must-link，就是必连关系。而本文中，作者不使用cannot-link的关系，即必不连。

2、作者将LDA模型改进，具体的framework如图。
这里写图片描述

3、具体伪代码如图。
这里写图片描述

4、Baseline：作者对比了3个baseline，包括：
①LDA[1]，最原始、基本的LDA算法，使用狄利克雷分布计算主题概率的非监督式主题模型；
②LDA with GPU[3]，在LDA中使用GPU（generalized Pólya urn[5]）模型进行改进处理；
③DF-LDA[4]，基于knowledge base的主题模型，使用了must-link与cannot-link的方法；

5、Dataset：作者使用了Amazon网站上的评论数据集，包括“Watch,” “Camera,” “Cellphone,” “Computer,” “Food” and “Personal Care”共6个领域各500个评论。经过一系列预处理并将每个评论按句子拆分，让每个句子看作单独的文档进行处理。

6、参数设置：使用了1000次Gibbs迭代，并设置α=1，β=0.1，主题数量设定为T=15。

7、作者按照 Watch → Camera → Cellphone → Computer → Food → Personal Care 这个顺序进行实验，分别验证相近主题下先验知识的作用，以及主题语义差距大的情况下先验知识的表现。作者还对比了仅使用以前的知识，仅使用当前的知识，同时使用以前的知识和当前的知识，3种情况下模型的表现。

8、实验结论：作者发现，MDK-LDA模型比baseline的效果好很多，而对于在相近主题下，使用以前的知识+当前的知识表现得最好，而在主题语义差距大的情况下，如果加入以前的知识，会相当于给模型加入了noise，导致仅使用当前的知识比同时使用以前的知识+当前的知识的表现要好。

9、思考：
我们人类学习东西，其实是一个渐进，迭代的过程，而且一项知识，会适用于各个地方，比如今天学习到的数学知识，明天能用它来学习物理，从而一步一步提高自己的知识储备，从而在新环境、新问题下能够想出一个适用的解决方案。而我们学习、使用Machine Learning的目标，就是要让机器能够跟人一样思考、学习。所以，跨领域学习，迁移学习，持续性学习必将是Machine Learning的下一步。

参考资料：
[1]、http://www.jmlr.org/papers/v3/blei03a.html
[2]、http://papers.nips.cc/paper/1861-alg
[3]、http://dl.acm.org/citation.cfm?id=2145462
[4]、http://dl.acm.org/citation.cfm?id=1553378
[5]、https://en.wikipedia.org/wiki/P%C3%B3lya_urn_model

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！

0 0