NMF（non-negative matrix factorization）相关论文[1]

来源：互联网发布：sql外键级联删除编辑：程序博客网时间：2024/05/16 10:15

部分非负矩阵分解论文的总结，在做相关工作的童鞋的可以互相交流下~！

Guan N, Tao D, Luo Z, et al. Online non-negative matrix factorization with robust stochastic approximation[J]. IEEE Transactions on Neural Networks & Learning Systems, 2012, 23(7):1087.

Motivation：
由于NMF的分解过程需要将所有的数据集放在内存中，不适用于数据流的处理。该论文提出了一种高效的在线rsa-nmf算法，近似更新结果。
创新：
在线增量更新，对于l1-regularized and l2-regularized 也做了扩展。

理论性较强。实验：人脸识别、图像标注

Chen Y, Zhang H, Wu J, et al. Modeling Emerging, Evolving and Fading Topics Using Dynamic Soft Orthogonal NMF with Sparse Representation[C]// IEEE International Conference on Data Mining. IEEE, 2016:61-70.

NMF类似于LSI，可以探测文本当中潜在的话题，为了动态捕获和跟踪这些潜在的话题，此论文提出一种基于软正交约束（Soft Orthogonal）的矩阵分解方法，来动态模拟话题的emerging/evolving/fading过程。
话题的三个过程如图

论文confused me 的地方：
1.为什么正交约束能保证分解的结果可以准确地模拟话题的变迁？为什么加了软正交约束后topic的F1值会有提升？
思考后自己解答：
加入约束后，保证分解的数据更偏向于你约束的目标。聚类来看的话，距离更近。

2.论文用20newsgroup做实验，micro-averaged F1作为评测指标，性能有所提升。文章其实用的是聚类的方法，groundtruth是label过的标签，可是20news数据集并没有分了100类，怎么做的实验？
3.矩阵分解的output是U，和V，怎么模拟出现和消亡？

这是一篇B的论文，与此论文相似的是下面的这一篇很经典的paper

Vaca C K, Mantrach A, Jaimes A, et al. A time-based collective factorization for topic discovery and monitoring in news[C]// International Conference on World Wide Web. 2014:527-538.

这篇论文的贡献在以下几点：
1.提出了一个联合矩阵的模型，以及求解方法；论文做了一个假设：上一个time-slot的数据对于下一个时间段的数据是具有影响的，从而建立了联合矩阵的模型即，用上一个时间段的数据去预测下一个时间段的数据。
2.加入了一个时间片状态矩阵M模拟话题的强度，通过强度的矩阵来表现话题的演化过程。非常巧妙。
3.给出了相关理论证明和源其代码TopicDiscoveryJPP

将模型应用，通过比较状态矩阵表现追踪的过程，这点不太明白。

0 0