时间序列分析

2024-05-15

1. 时间序列分析


时间序列分析

2. 数据分析之时间序列分析

顾名思义,时间序列就是按照时间顺利排列的一组数据序列。时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。该技术有以下三个基本特点:
  
 1.假设事物发展趋势会延伸到未来;
  
 2.预测所依据的数据具有不规则性;
  
 3.不考虑事物发展之间的因果关系。
  
 对时间序列进行分析的最终目的,是要通过分析序列进行合理预测,做到提前掌握其未来发展趋势,以此为业务决策提供依据。
                                          
  移动平均法和指数平滑法的局限 
  
 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料逐项推移,依次计算包含一定项数的序时平均值,以反映长期趋势。但这种方法不适合预测具有复杂趋势的时间序列。指数平滑法是移动平均法的改进方法,通过对历史数据的远近不同赋予不同的权重进行预测。但在实际应用中,指数平滑法的预测值通常会滞后于实际值,尤其是所预测的时间序列存在长期趋势时,这种滞后的情况更加明显。
  
 在实际进行时间序列预测时,遇到的数据会比较复杂,所以我们需要用到更专业的预测方法来对数据进行合理预测。通常情况下一个时间序列包含四种因素,它们会通过不同的组合方式影响时间序列的发展变化。
                                          
 时间序列四种因素有两种组合方式。
  
 1.四种因素相互独立,即时间序列是由四种因素直接叠加而形成的,可用加法模型表示:
  
 Y=T+S+C+I
  
 2.四种因素相互影响,即时间序列是综合四种因素而形成的,可用乘法模型表示:
  
 Y=T×S×C×I,通常遇到的时间序列都是乘法模型。其中,原始时间序列值和长期趋势可用绝对数表示,季节变动、循环变动和不规则变动则用相对数(通常是变动百分比)表示。
  
 当我们需要对一个时间序列进行预测时,需要将上述四种因素从时间序列中分解出来。原因是:
  
 1.把因素从时间序列中分解出来后,就能克服其他因素的影响,仅考量某一种因素对时间序列的影响;
  
 2.分解这四种因素后,也可以分析他们之间的相互作用,以及它们对时间序列的综合影响;
  
 3.当去掉某些因素后,就可以更好地进行时间序列之间的比较,从而更加客观地反映事物变化发展规律;
  
 4.分解这些因素后的序列可以用于建立回归模型,从而提高预测精度。
  
 通常情况,我们会考虑进行季节因素的分解,也就是将季节变动因素从原时间序列中去除,并生成由剩余的三种因素构成的序列来满足后续分析需求。
  
 如果时间序列图的趋势随着时间的推移,序列的季节波动变得越来越大,则建议使用乘法模型;如果序列的季节波动能够基本维持恒定,则建议使用加法模型。
  
 时间序列的预测步骤主要分为四步:
  
 (1)绘制时间序列图观察趋势;
  
 (2)分析序列平稳性并进行平稳化;
  
 (3)时间序列建模分析;
  
 (4)模型评估与预测;
  
 平稳性是指时间序列的所有统计性质都不会随着时间的推移而发生变化,对于一个平稳的时间序列来说,需要具有以下特征:
  
 (1)均数和方差不随时间变化;
  
 (2)自相关系数只与时间间隔有关,与所处的时间无关。
  
 相关系数是用来量化变量之间的相关程度。自相关系数研究的是一个序列中不同时期的相关系数,也就是时间序列计算其当前期和不同滞后期的一系列相关系数。
  
 目前主流的时间序列预测方法都是针对平稳的时间序列进行分析的,但是实际上,我们遇到的大多数时间序列都不平稳,所以在分析时,需要首先识别序列的平稳性,并且把不平稳的序列转换为平稳序列。一个时间序列只有被平稳化处理过,才能被控制和预测。
  
 将时间序列平稳化的方式有很多,基础的方法是差分,因为这个方法有助于我们解读时间序列模型。差分,就是指序列中前后相邻的两期数据之差。
                                          
 ARIMA模型是时间序列分析中常用的一种模型,其全称为求和自回归移动平均模型。该模型形式为:ARIMA(p,d,q)(P,D,Q)。该模型有6个参数,前3个参数(p,d,q)针对季节性变化后的序列,后三个参数(P,D,Q)主要用来描述季节性变化,两个序列是相乘的关系,因此,该模型也称为复合季节模型。
                                          
 其中:p,是指移除季节性变化后的序列所滞后的p期,取值通常为0或1,大于1的情况较少;d,是指移除季节性变化后的序列进行了d阶差分,取值通常为0、1或2;q,是指移除季节性变化后的序列进行了q次移动平均,取值通常为0或1,很少会超过2。大写的P,D,Q的含义相同,只是应用在包含季节性变化的序列上。本例中,该模型可解读为,对移除季节因素的序列和包含季节因素的序列分别进行一阶差分和一次移动平均,综合两个模型而构建出的时间序列模型。
                                          
 模型拟合度主要通过R平方或平稳的R平方来评估模型拟合优度,以及在比较多个模型的情况下,通过比较统计量从而找到最优模型。本例中,由于原始序列具有季节变动因素,所以,平稳的R平方则更具参考意义。该值等于32.1%,所以,该时间序列模型的拟合效果一般。
                                          
 模型统计提供了更多的统计量用以评估时间序列的数据拟合效果。本例中,虽然平稳的R平方值为32.1%,但是“杨-博克斯Q(18)”统计量的显著性(P值)=0.706,大于0.05(此处的显著性(P值)>0.05是期望得到的结果),则接受原假设,认为这个序列的残差符合随机序列分布,同时也没有离群值的出现,这些也都反映出数据的拟合效果还是可以接受的。

3. 时间序列分析

时间序列 概念 :同一现象在不同时间上的相继观察值排列而成的数列
  
 形式上由现象所属的时间和现象在不同时间上的观察值两部分组成
  
 排列的时间可以是年、季度、月...
  
 
  
  
 时间序列的 分类 :
  
 1.绝对数序列:
  
 一系列绝对数按时间顺序排列而成;最基本的表现形式;反映在不同时间上所达到的绝对水平(时期序列,一段时期内总量的排序、时点序列,某一瞬间时点上总量的排序)
  
 2.相对数序列:一系列相对数按时间顺序排列而成
  
 3.平均数序列:一系列平均数按时间顺序排列而成
  
 
  
  
 时间序列的 编制原则 :
  
 时间长短一致
  
 总体范围一致
  
 指标内容一致
  
 计算方法和口径一致
  
 
  
  
  一、时间序列的对比分析 
  
    
  
  水平分析: 
  
 1.发展水平:现象在不同时间上的观察值;说明现象在某一时间上所达到的水平;
  
 2.平均发展水平:现象在不同时间上取值的平均数,又称序时平均;说明现象在一段时间内所达到的一般水平;(不同序列的类型选择不同的计算方法-时期、连续时点(逐日排序)、不等距时点(加权)、等距时点(不等距的特例));
  
 #相对数:两个绝对数相除
  
 #相对数的序时平均数:分子的平均数与分母的平均数相除
  
 3.增长量:报告期水平与基期水平之差,说明现象在观察期内增长的绝对数量
  
 分为逐期增长量(报告期水平与前一期水平之差)与累计增长量(报告期水平和某一固定时期水平之差)--各逐期增长量之和等于最末期的累计增长量
  
 4.平均增长量:各逐期增长量的平均数,等于逐期增长量之和/逐期增长量个数(也就是观察值个数-1)
  
 
  
  
  速度分析: 
  
 1.发展速度:报告期水平与基期水平之比,说明现象在观察期内相对的发展变化程度,
  
 分为环比发展速度(报告期水平和前一期水平之比)与定期发展速度(报告期与某一固定时期水平之比)--各环比发展速度之积等于最末期定期发展速度;
  
 2.增长速度(增长率):增长量与基期水平之比,说明现象的相对增长程度,
  
 等于发展速度-1;分为环比增长速度和定基增长速度;
  
 3.平均发展速度:观察期内各环比发展速度的平均数,说明现象在整个观察期内平均发展变化的程度(几何法算平均数)
  
 4.平均增长速度:等于平均发展速度-1
  
 
  
  
  二、时间序列的趋势分析 
  
 可以采用移动平均、最小二乘法等...
  
 
  
  
  三、季节变动分析 
  
 季节变动:现象在一年内随着季节更换形成的有规律变动;各年变化强度大体相同,且没年重现;
  
 扩展:对一年内由于社会、政治、经济、自然因素影响,形成的以一定时期为周期的有规则的重复变动;
  
 测定目的:确定现象过去的季节变化规律,消除时间序列中的季节因素;
  
 分析原理:将季节变动规律归纳为一种典型的季节模型;季节模型由季节指数所组成;季节指数的平均数等于100%;根据季节指数与其平均数的偏差程度测定季节变动的程度;
  
 
  
  
 季节指数:1.反映季节变动的相对数;2.以全年或季资料的平均数为基础计算的;3.平均数等于100%;4.指数越远离其平均数季节变动程度越大;5.同期平均法和趋势剔除法
  
 
  
  
 同期平均法:
  
 根据原时间序列通过简单平均计算季节指数
  
 假定时间序列没有明显的长期趋势和循环波动
  
 步骤:1.计算同期平均数;2.计算全部数据总季的平均数;3.计算季节指数S=同期平均数/总季平均数
  
 
  
  
 趋势剔除法:
  
 先将时间序列中长期趋势予以消除,在计算季节指数
  
 步骤:1.计算移动平均趋势值Y;2.从序列中剔除趋势值Y/T;3.按上述方法计算季节指数
  
 四项移动平均后再进行二项移动平均(四项做年的去掉季节,二项更为稳定)
  
 
  
  
 季节变动的调整:将季节变动剔除,方法是江源时间序列除以相应的季节指数
  
 
  
  
  四、循环波动分析 
  
 循环波动:近乎规律性的从低到高再从高至低的周而复始的变动;不同于趋势变动,他不是朝着单一方向的持续运动,而是涨落相间的交替波动;不同于季节波动,其变化无固定规律,变动周期多在一年以上,且周期长短不一
  
 目的是探索现象活动的规律性
  
 
  
  
 测定方法:采取剩余法
  
 计算步骤:1.先消除趋势值,求得无长期趋势数据资料;2.再消去季节变动(原始数据/季节指数),求得循环及不规则波动相对数;3.将结果移动平均,以消除不规则波动,即得循环波动值

时间序列分析

4. 时间序列分析

时间序列顾名思义即是通常在连续时间上采集的序列数据。例如股票指数数据、营收数据和天气数据等。时间序列分析是利用已知数据使用合适的模型拟合时间序列同时估算相应模型的参数。时间序列分析的模型与方法体现了我们对于时间序列自然属性的理解。同时这些模型方法也能够用于对时间序列进行预测和模拟。
  
 与信号分析类似,时间序列分析的方法也有时间域和频率域的方法;有单变量和多变量方法;有线性方法和非线性方法;连续序列和离散序列。
  
 一般时间序列可以依据变化特征分解为四个部分,即趋势(trend)、季节性(seasonal)、周期性(cyclical)和不规则(irregular)部分。
  
 构建时间序列预测模型的一种重要是方法使用随机过程理论。这与地质统计的分析方法是相同的,只是分析对象不同:时间序列为时间点上的数据而地质统计为空间点上的数据。这里认为时间序列上的数据点为随机变量,整个时间序列为一个随机函数。描述不同时间点上的数据之间的关系,同样要使用自协方差、自相关函数。同时二者同样实在稳态假设之下进行分析,应用中也需要对于数据进行去除趋势等处理使之满足稳态条件。时间序列分析中的自回归模型(AR)相当于地质统计中的简单克里金。

5. 时间序列分析

 在R中生成时间序列的前提是我们将分析对象转成时间序列函数对象,包括观测值、起始时间、种植时间、及周期(月、季度、年)的结构。这些都能通过ts( )函数实现。
   R语言中,对时间序列数据进行分析处理时,使用差分函数要注意:差分函数diff()不带参数名的参数指滞后阶数,也就是与滞后第几阶的数据进行差分。如果要指定差分的阶数,则一定要使用带名称的参数:diff=2。
   例如: sample表示样本数据。
   1、diff(sample,2)表示是对滞后2阶的数据进行差分,一阶差分,等同于: diff(sample,lag=2)
   2、diff(sample,diff=2)才是表示二阶差分
   意:在函数中尽量避免使用没有命名的参数。在《时间序列分析及应用-R语言(第2版)》中,P315,描述到: 我们得到的教训就是,除非完全了解相关参数的位置,否则使用未命名参数是非常危险的。
   截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF);
   拖尾是ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。
    拖尾 :始终有非零取值,不会在k大于某个常数后就恒等于零(或在0附近随机波动)
    截尾 :在大于某个常数k后快速趋于0为k阶截尾
    AR模型:自相关系数拖尾,偏自相关系数截尾; 
    MA模型:自相关系数截尾,偏自相关函数拖尾; 
    ARMA模型:自相关函数和偏自相关函数均拖尾。 
   根据输出结果, 自相关函数图拖尾,偏自相关函数图截尾 ,且n从2或3开始控制在置信区间之内,因而可判定为AR(2)模型或者AR(3)模型。

时间序列分析

6. 时间序列的分析方法

(一)指标分析法
通过时间序列的分析指标来揭示现象的发展变化状况和发展变化程度。
(二)构成因素分析法
通过对影响时间序列的构成因素进行分解分析,揭示现象随时间变化而演变的规律。

7. 时间序列的分析方法

(一)指标分析法通过时间序列的分析指标来揭示现象的发展变化状况和发展变化程度。(二)构成因素分析法通过对影响时间序列的构成因素进行分解分析,揭示现象随时间变化而演变的规律。

时间序列的分析方法

8. 时间序列分析的具体算法

用随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。由于在多数问题中,随机数据是依时间先后排成序列的,故称为时间序列。它包括一般统计分析(如自相关分析、谱分析等),统计模型的建立与推断,以及关于随机序列的最优预测、控制和滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则着重研究数据序列的相互依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,用x(t)表示某地区第t个月的降雨量,{x(t),t=1,2,…}是一时间序列。对t=1,2,…,T,记录到逐月的降雨量数据x(1),x(2),…,x(T),称为长度为T的样本序列。依此即可使用时间序列分析方法,对未来各月的雨量x(T+l)(l=1,2,…)进行预报。时间序列分析在第二次世界大战前就已应用于经济预测。二次大战中和战后,在军事科学、空间科学和工业自动化等部门的应用更加广泛。就数学方法而言,平稳随机序列(见平稳过程)的统计分析,在理论上的发展比较成熟,从而构成时间序列分析的基础。频域分析  一个时间序列可看成各种周期扰动的叠加,频域分析就是确定各周期的振动能量的分配,这种分配称为“谱”,或“功率谱”。因此频域分析又称谱分析。谱分析中的一个重要是统计量,称为序列的周期图。当序列含有确定性的周期分量时,通过I(ω)的极大值点寻找这些分量的周期,是谱分析的重要内容之一。在按月记录的降雨量序列中,序列x(t)就可视为含有以12为周期的确定分量,所以序列x(t)可以表示为 ,它的周期图I(ω)处有明显的极大值。当平稳序列的谱分布函数F(λ)具有谱密度ƒ(λ)(即功率谱)时,可用(2π)-1I(λ)去估计ƒ(λ),它是ƒ(λ)的渐近无偏估计。如欲求ƒ(λ)的相合估计(见点估计),可用I(ω)的适当的平滑值去估计ƒ(λ),常用的方法为谱窗估计即取ƒ(λ)的估计弮(λ)为 ,式中wt(ω)称为谱窗函数。谱窗估计是实际应用中的重要方法之一。谱分布F(λ)本身的一种相合估计可由I(ω)的积分直接获得,即 。 研究以上各种估计量的统计性质,改进估计方法,是谱分析的重要内容。时域分析  它的目的在于确定序列在不同时刻取值的相互依赖关系,或者说,确定序列的相关结构。这种结构是用序列的自相关函0,1,…)来描述的,为序列的自协方差函数值,m=Ex(t)是平稳序列的均值。常常采用下列诸式给出m,γ(k),ρ(k)的估计: ,通(k)了解序列的相关结构,称为自相关分析。研究它们的强、弱相合性及其渐近分布等问题,是相关分析中的基本问题。模型分析  20世纪70年代以来,应用最广泛的时间序列模型是平稳自回归-滑动平均模型 (简称ARMA模型)。其形状为: 式中ε(t)是均值为零、方差为σ2的独立同分布的随机序列;和σ2为模型的参数,它们满足:   对一切|z|≤1的复数z成立。p和q是模型的阶数,为非负整数。特别当q=0时,上述模型称为自回归模型;当p=0时, 称为滑动平均模型。根据x(t)的样本值估计这些参数和阶数,就是对这种模型的统计分析的内容。对于满足ARMA模型的平稳序列,其线性最优预测与控制等问题都有较简捷的解决方法,尤其是自回归模型,使用更为方便。G.U.尤尔在1925~1930年间就提出了平稳自回归的概念。1943年,Η.Β.曼和Α.瓦尔德发表了关于这种模型的统计方法及其渐近性质的一些理论结果。一般ARMA模型的统计分析研究,则是20世纪60年代后才发展起来的。特别是关于p,q值的估计及其渐近理论,出现得更晚些。除ARMA模型之外,还有其他的模型分析的研究,其中以线性模型的研究较为成熟,而且都与ARMA模型分析有密切关系。回归分析  如果时间序列x(t)可表示为确定性分量φ(t)与随机性分量ω(t)之和,根据样本值x(1),x(2),…,x(T)来估计φ(t)及分析ω(t)的统计规律,属于时间序列分析中的回归分析问题。它与经典回归分析不同的地方是,ω(t)一般不是独立同分布的,因而在此必须涉及较多的随机过程知识。当φ(t)为有限个已知函数的未知线性组合时,即 ,式中ω(t)是均值为零的平稳序列,α1,α2,…,αs是未知参数,φ1(t),φ2(t),…,φs(t)是已知的函数,上式称为线性回归模型,它的统计分析已被研究得比较深入。前面叙述的降雨量一例,便可用此类模型描述。回归分析的内容包括:当ω(t)的统计规律已知时,对参数α1,α2,…,αs进行估计,预测x(T+l)之值;当ω(t)的统计规律未知时,既要估计上述参数,又要对ω(t)进行统计分析,如谱分析、模型分析等。在这些内容中,一个重要的课题是:在相当广泛的情况下,证明 α1,α2,…,αs的最小二乘估计,与其线性最小方差无偏估计一样,具有相合性和渐近正态分布性质。最小二乘估计姙j(1≤j≤s)不涉及ω(t)的统计相关结构,是由数据x(1),x(2),…,x(T)直接算出,由此还可得(t)进行时间序列分析中的各种统计分析,以代替对ω(t)的分析。在理论上也已证明,在适当的条件下,这样的替代具有满意的渐近性质。由于ω(t)的真值不能直接量测,这些理论结果显然有重要的实际意义。这方面的研究仍在不断发展。时间序列分析中的最优预测、控制与滤波等方面的内容见平稳过程条。近年来多维时间序列分析的研究有所进展,并应用到工业生产自动化及经济分析中。此外非线性模型统计分析及非参数统计分析等方面也逐渐引起人们的注意。

最新文章
热门文章
推荐阅读