时间序列模型的选择思路——学习笔记

来源：互联网发布：乾隆身世知乎编辑：程序博客网时间：2024/06/07 01:32

本文大量参考了预测类问题与时间序列

时间序列的四个特性

时间序列：某个物理量对时间的函数。

拿到一个时间序列，可以从四个角度去认识和挖掘它：

1：随机vs确定

可由外界的变化而确定，也可以是因为有复杂的原因，结果不确定。要先想想时间序列是否可以重复。有概率空间的概念。

2：无记忆vs历史依赖

无记忆：只和上一时刻相关，没有复杂记忆（马尔科夫过程）；有记忆：与之前很多的时刻都相关，有复杂的历史依赖。

3：线性vs非线性

影响序列的因素之间是否相互独立。若独立，则可以拆分为各因素的叠加，称之为线性；若不独立，相互之间有影响，则为非线性，问题会复杂的多。

4.问题的维度

时间序列的观测值的维度。高维时是否该降维，低维时是否该投影到高维。

选用预测模型的方向

考虑完以上几个特性之后，可以考虑选用相应的模型。

比如：若线性，则各因素可以叠加，选用LR就不错；若无记忆，则HMM就很好。若有记忆、非线性、纬度高，那么可以考虑用神经网络。

举例

1.股市预测

巨大的随机性（因素太多，很难考虑全）、很强的历史依赖、非线性、单维度的时间序列。

2.备件预测

备件的需求量（在保期内的损坏量）是随机的、历史依赖的、线性的（多个电脑机型的该备件的在保损坏量的时间序列的叠加。它与电脑的在保量序列（电脑销售量结合保期转换为在保量序列）密切相关）、一维向量。这就需要对与该备件相关的每款电脑的销售量做预测。每款电脑的销售量序列是一个随机的、历史依赖的、非线性的（销售趋势，产品阶段，季节影响，随机波动等因素。因素间并不独立，会有影响，不能直接叠加）、一维度向量（是否降维或者投影到高维）。

总结

电脑销量预测是随机、历史依赖强、可以假设成线性的、单维度。可以试试分解、ARIMA两种方式建模。预测效果应该还可以。或者用点神经网络模型，也不是不可以。但如果直接对在保期内的损坏量直接进行这两种方式的建模，我认为很难保证效果。因为不知道每一时刻参与备件的机型有几种，所以找出来的模式可能很难在后续中重现。如果模型能准确的把某一时刻各个机型的量分解开来（一维变成多维），不用我自己去找有几台相应的机型，再去分别预测，那就太好了，这种傻瓜式模型估计就只有神经网络能办到吧。至于是否能很好的分解，是否需要大量的数据，目前还不了解，这个坑先留着吧。

综上所以比较靠谱的方案是：先对几个电脑销量做预测（做一个转换得到在保量的数量），再对这几个型号的数据做线性回归（找出损坏率的因素）。或者上神经网络模型，但是个人感觉要确定在历史和将来的时间段中，参与进来的机型个数是不变的，这样效果才能稳定吧。

阅读全文

0 0