Canonical Trends 论文理解

来源：互联网发布：童年阴影知乎编辑：程序博客网时间：2024/05/01 15:38

论文题目：Canonical Trends: Detecting Trend Setters in Web Data

摘要：网络给我们提供了大量的信息，其中某一些信息被广泛的复制，转载或改述，这种现象被称之为趋势。web数据挖掘背景下的核心问题就是发现那些能够首次引领趋势的网络资源（如某一新闻事件）。论文中提出了一种简单，高效的方法来发现那些主导未来网络资源的趋势性资源，或者赶在其他网站之前识别那些发布与之相关的信息的网络资源。作者从有影响力的科技新闻提要中收集的真实数据，并验证了其方法。

1.介绍：

方法简述：首先从各个web 网站中抽取一系列时间序列的特征项，然后对于每一个web资源在特征空间中学习学习一个卷积，这个卷积能够预测所有其他感兴趣的web资源的内容。

我们在每个网站上提取一系列的bag-of-word 特征，然后仅仅利用某一个web source在之前t-ξ时刻的信息来预测所有新闻网站在时刻t的全部信息。我们发现某一些网站能够较好的预测未来科技新闻范围的时间动态，而其他的网站不行。预测的表现可以表征为某一个网站在多大程度上被认作是trend setter，从而可以利用这一标准来对网站进行排名：一个网站越能预测出其他网站的未来信息，它就越有影响力。

2.相关工作

在这里论述了几个关于web数据图形时间动态分析的可选方法， (Sun et al., 2007)论文中利用通信网路图中的时间动态来把图中的节点部分分离，并形成多个组。该方法在不同的时间点抽取图的邻接矩阵，然后试图压缩时间序列的连接。这是通过发现时间上相同的连接模式并组合来实现的。该方法和本文中的方法不同，不能直接对比。但是有一个共同点值得注意：如果一个web source 能过完美的预测其他网站的内容，那么我们就可以只关注此节点，忽略网络中的其他web source节点。从而本文中方法的表述可以看做是另一种完美的压缩图的方法。

其他关于网络数据图的方法研究了重要事件的扩散，所以称之为病毒(Leskovec et al., 2009; Yang
& Leskovec, 2010; Gomez Rodriguez et al., 2011）。在(Leskovec et al., 2009; Yang & Leskovec, 2010)中，作者侧重于博客和新闻媒体的N-gram 的扩散。其中讲到的方法跟我们的有点类似，我们的目标就是发现某一节点，它能够最大化其他所有web source的解释方差（explained variance）。我们使用的是线性模型，一个确定性的优势是我们把它扩展到了非线性依赖。

本文方法的假设是:我们独立的分析单一web source的动态变化。

本文中的方法利用所有的数据集，自动学习相关特征。另外，它也充分考虑到了不同特征之间的依赖关系，并建立了web sources 之间的完整的多远时空动态模型。

其他读者给该paper的评论：http://icml.cc/discuss/2012/623.html