时间序列相似性搜索总结

来源:互联网 发布:banner.js 韩顺平 编辑:程序博客网 时间:2024/06/05 19:06

前言

前段时间一直在看时间序列相似性搜索(Time Series Similarity Search)的相关论文,现在终于放暑假了,开心度假中,也正好对那段时间读的论文做些总结。

首先来说明一下什么是时间序列(Time Series,以下简称时序),时序就是按相等的时间采样的数据点构成的序列,数据点是几维的就叫几维时序。实际中一般以一维和二维时序居多。与时序类似的关键词还有轨迹(trajectory),按我的理解他们的区别就是轨迹不一定是等时间间隔采样的,而时序一般是指按等时间间隔采样的序列。

其实时序数据挖掘是一个比较热门的研究领域,因为现实生活中很多东西都能看做时序,比如股票的波动数据,病人的心电图数据等,或者更复杂的采样时间间隔不等的轨迹,也能通过等间隔插值的方法近似成时序然后进行处理。 因此时序能描述的东西是很多的,对它的研究也进行了很长时间了,现在依然非常热门。

回到主题,那么时序搜索有什么用呢?如果能在历史的数据中找到与现在相似的时序,这可能能帮助我们预测时序未来的走势。此外,时序相似性搜索也是很多其他时序数据挖掘的基础,比如时序数据的分类和聚类等。

正文

下面开始说明怎样进行时序相似性搜索,我们的目的是给定一个时序查询Q,然后从一个时序数据库中返回与Q最相似的时序。

数据预处理

首先,由于时序是典型的高维数据,数据点可能相当多(你想啊,心电图可能几毫秒就采样一个点,这存下来几年的数据得有多少,当然,一条时序具体有多少个点还得看你怎么分割这些数据),我们需要预处理,需要将原始数据以一种合适的方式来呈现,以方便后期的处理,这种技术叫做时序呈现(time series representation),其实也就是维度缩减技术,目的是压缩数据但是保留主要信息。这类技术包括离散傅里叶变换(DFT),离散小波变换(DWT),主成分分析(PCA),奇异值分解(SVD),PAA,SAX等,这些东西可以在一些综述中找到,如09年的一篇综述“高效时序相似搜索技术“。

另外,为了减少平移和缩放对相似性的影响,我们需要对原始数据进行标准化,常用的方法是z标准化(Z-score),就是每个数据点减去平均值,再除以偏标准差。公式为

xμσ

其中μ表示平均值,σ表示标准差。
对每一维数据经过这样处理后,每一维数据的平均值就变为0,标准差为1.
至此,数据预处理部分完毕。

相似性测量

为了比较两个时序,我们需要一种评价方法来测量他们的相似性。最简单的,可以用欧氏距离(Euclidean Distance,以下简称ED)来测量。公式为

ED(S,Q)=i=1n(SiQi)2

但是欧式距离的缺点也很明显,一是它只能测量长度相等的时序,二是它对噪声是敏感的,因为个别很远的偏离平均值的点可能对结果造成很大的影响。
为了克服这些缺点,人们又发明出了其他更好的测度。比如动态时间规整(dynamic time warping,DTW),最长公共子序列(LCSS)等。
他们的公式为LCSS&DTW公式
公式中dist为点与点之间的距离计算函数,一般选用欧氏距离。
推荐一篇论文”Experimental comparison of representation methods and distance measures for time series data”,这篇论文通过实验比较分析了不同的数据呈现技术以及时序测量技术。有很多论文认为DTW是最好的测量,原因一是DTW不需要设定参数,二是DTW虽然是平方算法,但是它有很多能线性计算的下界,利用下界可以进行剪枝,据”Addressing Big Data Time Series: Mining Trillions of Time Series Subsequences under Dynamic Time Warping”称,利用多种下界进行剪枝,在大规模数据集中剪枝率能达到99.9999%,也就是说实际计算DTW效率基本可以达到线性。三是利用DTW可以快速的计算子序列相似性,所谓子序列相似性就是给定序列S,Q,找到S的子序列使得它与Q的相似性最大。利用SPRING算法计算子序列相似性与计算全序列相似性的代价是一样的,具体可以参见论文”Stream Monitoring under the Time Warping Distance”

论文”Addressing Big Data Time Series: Mining Trillions of Time Series Subsequences under Dynamic Time Warping”给出了可以用于工业进行时序相似性搜索的方法,基本思想是结合DTW的多种下界进行剪枝。关于DTW的下界可以参考论文”Boundary-based lower-bound functions for dynamic time warping
and their indexing”

0 0
原创粉丝点击