时序数据挖掘综述

来源:互联网 发布:kindle 安装软件 编辑:程序博客网 时间:2024/05/03 20:14

本文主要是对时序数据挖掘当前研究的综述,翻译原文(Esling2012)索引为:

Esling P, Agon C. Time-series data mining. ACM computing surveys (CSUR). 2012, 45(1): 12.

摘要:根据时间进行的测量存在于大部分科学领域中.由这些观测值组织而成的数据,我们称之为时间序列数据.挖掘时间序列数据的目的是,从这些数据模型中挖掘出所有有意义的知识.尽管人类自身能够处理这些任务,但对于电脑来说这还是个复杂的问题.该论文综述了基于时间序列数据挖掘的技术.第一部分描述了引起大部分研究者兴趣的相关任务综述.考虑到在大多数情况下,时间序列任务依赖于执行时的相同组件,我们根据这些常见的方面划分该论文,将其命名为表示技术、距离测量和索引方法.相关文献的研究根据每一个方面进行了归类.健壮性的四种类型将被形式化,基于距离的任何类型将被分类.最终,研究提出了多种研究趋势和方式,以供未来进行探索研究.我们希望这篇文章能够提供关于时间序列数据挖掘研究领域的一个广泛而深入的理解.

简介

时间序列由根据时间顺序测量的数值组成.时间序列数据挖掘源自于人们希望根据自己的能力去可视化数据模型的需求.人们依靠复杂的方法去执行这些任务.实际上,为了得到概念模型我们可以忽略小的波动,我们也可以快速地根据模型之间的相似性来区分不同的时间模型.主要的时间序列相关任务包括,基于内容的查询、异常检查、模式识别、预测、聚类、分类和分割.尽管最近几年对这一主题进行了大量的研究,但是Antunes和Oliveira[2001]注意到,由于一些实际问题的困难或是提出一些新方法的关注度,这一研究推进速度很慢.然而,随着越来越多的时间序列数据挖掘技术的成熟,这一观点似乎已经变得过时.目前,在很多研究领域中,时间序列分析覆盖了广泛的实际生活问题.这里列举了很多实例,像经济预测[Song and Li 2008],入侵检测[Zhong et al. 2007],基因表达分析[Lin et al. 2008],医学诊断[Burkom et al. 2007],和水理学研究[Ouyang et al. 2010].

时间序列数据挖掘存在很多复杂方面.最显著的难来自时间序列数据的高维度性和定义一个基于人类感知的相似测量值的形式.随着信息数字化资源的快速增多,时间序列挖掘算法必须能够匹配越来越庞大的数据集.这些限制向我们展示了三个涉及到的主要问题.

—数据表示.如何表示一个时间序列的基本形状特征?这个表示满足那些不变地属性?一个表示技术通过降低维度的同时保留它的必要特性来导出形状概念.

—相似性检测.如何区分或匹配任意两个时间序列?如何标准化两个时间序列之间的认知距离?这一检测应该能够建立基于认知标准的相似性概念.因此,尽管他们在数学上是不一致的,这一测量能够辨识出在认知上相似的对象.

—索引方法.如何组织大型的时间序列数据集,使其能够更加快速地查询?换句话说,应用哪种索引机制?这个索引技术应该能够提供最小的空间消耗和计算复杂度.

这些运行组件代表了时间序列数据挖掘系统的核心部分.然而,只有这些组件是不详尽的,因为很多任务需要应用更多特殊组件.而且,对于很多任务来说,一些组件也是无用的.预测就是一个最典型需要更多先进分析过程的例子,因为预测与统计分析更加相关.它可能需要时间序列表示技术和相似性的概念(大部分用了检测预测准确度),然而模型选择和统计学习也是预测系统的核心.因此,我们将分析大多数时间序列挖掘任务中普遍存在的组件,在相关任务中发现的另外一些组件我们也做了简要说明.

0 0