SPSS-数据分析之时间序列分析

2024-05-14

1. SPSS-数据分析之时间序列分析

当数据与时间息息相关,常具有周期性的变化规律,此时,时间序列分析是一个很好的发现分析及预测其发展变化的统计方法,接下来简要分享统计分析软件SPSS中时间序列分析的操作。
  
 问:什么是时间序列?
  
 答:时间序列是时间间隔不变的情况下收集的不同时间点数据集合。
  
 问:那时间序列分析又是什么?
  
 答:时间序列分析是通过研究历史数据的发展变化规律来预测事物的未来发展的统计学方法。公司营业额、销售额,人口数量,股票等方面的变化预测皆可通过此统计方法。
  
 SPSS中的操作
  
 首先,对数据进行 预处理: 
  
 1.查看数据是否有缺失,若有,不便后续处理,则需进行替换缺失值。
  
 转换→替换缺失值→选择新变量→输入新变量名称、选择替换缺失值方法。
  
 
  
                                          
 
  
                                          
 2.定义日期
  
 数据→定义日期和时间
  
 
  
                                          
 
  
                                          
 3.平稳性检验(平稳性指的是期望不变,方差恒定,协方差不随时间改变)
  
 检验方法:时序图检验、自相关图检验等。可通过创建时间序列实现数据的平稳化
  
 转换→创建时间序列
  
 
  
                                          
 结果(例:运行中位数——跨度为1,则等于原数据)
  
 
  
                                          
 数据预处理后对数据进行分析研究——序列图、谱分析、自相关等。
  
 1.序列图:分析→时间序列预测→序列图→根据需要选择变量、时间轴标签等。
  
 
  
                                          
 
  
                                          
 结果(例):可观察数据的大致波动情况。
  
 
  
                                          
 2.谱分析:分析→时间序列预测→谱分析→根据需要选择变量、图表。
  
 
  
                                          
 结果(例)
  
 对于周期变化的数据,主要用于侦测系统隐含的周期或者节律行为;
  
 对于非周期的数据,主要用于揭示系统演化过程的自相关特征。
  
 
  
                                          
 3.自相关:分析→时间序列预测→自相关→选择变量及其他。
  
 
  
                                          
 结果:
  
 
  
                                          
 
  
                                          
 解读:直条高低代表自相关系数的大小,横轴1-16代表自相关的阶数,上下线之间是不具有统计学意义的,偏自相关是去除自相关系数的关联性传递性之后,用偏自相关系数考察剩余的相关性是否还存在。
  
 关于SPSS时间序列分析的简要介绍就结束啦!
  
  END 
  
 文 | FM

SPSS-数据分析之时间序列分析

2. 时间序列分析与SAS应用的介绍

SAS软件是国际上流行的统计分析的标准软件,本教材只介绍与时间序列有关的程序编写和结果分析。本教材主要介绍时间序列的概念、奇异点的诊断、自相关分析、偏自相关分析、时序模型的识别、时序模型参数的估计、预测以及多元时间序列分析。《时间序列分析与SAS应用》既可作为数学与信息专业、统计专业、经济管理专业以及工程方面的本科生教材,也可以作为科技工作者的参考书。

3. 时间序列分析与SAS应用的内容简介

时间序列分析是数理统计的一个分支。它是一种利用具有“时间特性”的观测数据,根据研究对象的特征发掘内在规律性建立动态模型,并对之进行模式识别、参数估计,然后以此为依据对未来的行为进行科学的预测和控制的统计方法,在工程技术、经济管理、气象学、地球物理学等方面有着广泛的应用。

时间序列分析与SAS应用的内容简介

4. 时间序列的分析模型

时间数列的组合模型1 加法模型:Y=T+S+C+I (Y,T 计量单位相同的总量指标)(S,C,I 对长期趋势产生的或正或负的偏差)2 乘法模型:Y=T·S·C·I(常用模型) (Y,T 计量单位相同的总量指标)(S,C,I 对原数列指标增加或减少的百分比)

5. SPSS时间序列 频谱分析

SPSS时间序列:频谱分析
一、频谱分析(分析-预测-频谱分析)
“频谱图”过程用于标识时间序列中的周期行为。它不需要分析一个时间点与下一个时间点之间的变异,只要按不同频率的周期性成分分析整体序列的变异。平滑序列在低频率具有更强的周期性成分;而随机变异(“白噪声”)将成分强度分布到所有频率。不能使用该过程分析包含缺失数据的序列。
1、示例。建造新住房的比率是一个国家/地区经济的重要晴雨表。有关住房的数据开始时通常会表现出一个较强的季节性成分。但在估计当前数字时,分析人员需要注意数据中是否呈现了较长的周期。
2、统计量。正弦和余弦变换、周期图值和每个频率或周期成分的谱密度估计。在选择双变量分析时:交叉周期图的实部和虚部、余谱密度、正交谱、增益、平方一致和每个频率或周期成分的相位谱。
3、图。对于单变量和双变量分析:周期图和频谱密度。对于双变量分析:平方一致性、正交谱、交叉振幅、余谱密度、相位谱和增益。
4、数据。变量应为数值型。
5、假设。变量不应包含任何内嵌的缺失数据。要分析的时间序列应该是平稳的,任何
非零均值应该从序列中删除。
平稳.要用ARIMA模型进行拟合的时间序列所必须满足的条件。纯的MA序列是平稳
的,但AR和ARMA序列可能不是。平稳序列的均值和方差不随时间改变。
二、频谱图(分析-预测-频谱分析)
1、选择其中一个“频谱窗口”选项来选择如何平滑周期图,以便获得谱密度估计值。可用的平滑选项有“Tukey-Hamming”、“Tukey”、“Parzen”、“Bartlett”、“Daniell(单元)”和“无”。
1.1、Tukey-Hamming.权重为Wk = .54Dp(2 pi fk) + .23Dp(2 pi fk + pi/p) + .23Dp (2pi fk - pi/p),k = 0, ..., p,其中p是一半跨度的整数部分,Dp是阶数p的Dirichlet内核。
1.2、Tukey.权重为Wk = 0.5Dp(2 pi fk) + 0.25Dp(2 pi fk + pi/p) + 0.25Dp(2 pi fk -pi/p),k = 0, ..., p,其中p是一半跨度的整数部分,Dp是阶数p的Dirichlet内核。
1.3、Parzen.权重为Wk = 1/p(2 + cos(2 pi fk))(F[p/2] (2 pi fk))**2,k=0, ... p,其中p是一半跨度的整数部分,而F[p/2]是阶数p/2的Fejer内核。
1.4、Bartlett.谱窗口的形状,窗口上半部分的权重按如下公式计算:Wk =Fp(2*pi*fk),k = 0, ...p,其中p是半跨度的整数部分,Fp是阶数p的Fejer内核。下半部分与上半部分对称。
1.5、Daniell(单元).所有权重均等于1的频谱窗口形状。
1.6、无.无平滑。如果选择了此选项,则频谱密度估计与周期图相同。
2、跨度.一个连续值范围,在该范围上将执行平滑。通常使用奇数。较大的跨度对谱密度图进行的平滑比较小的跨度程度大。
3、变量中心化.调整序列以使在计算谱之前其均值为0,并且移去可能与序列均值关联的较大项。
4、图。周期图和谱密度对单变量分析和双变量分析均可用。其他所有选项仅对双变量分析可用。
4.1、周期图.针对频率或周期绘制的未平滑谱振幅图(绘制在对数刻度中)。低频率变动是平滑序列的特征。均匀地分布在所有频率上的变动则表示“白噪音”。
4.2、平方一致性.两个序列的增益的乘积。
4.3、正交谱.交叉周期图的虚部,是两个时间序列的异相频率成分的相关性的测量。成分的异相为pi/2弧度。
4.4、交叉振幅.余谱密度平方和正交谱平方之和的平方根。
4.5、谱密度.已进行平滑而移去了不规则变动的周期图。
4.6、余谱密度.交叉周期图的实部,是两个时间序列的同相频率分量的相关性的测量。
4.7、相位谱.一个序列的每个频率成分提前或延迟另一个序列的程度的测量。4.8、增益.用一个序列的谱密度除以跨振幅的商。这两个序列都有自己的获得值。

SPSS时间序列 频谱分析

6. 时间序列建模分析

时序数据的特点:
   1.时间序列数据依赖于时间,但不一定是时间的严格函数。
   2.时间序列数据每时刻上的值具有一定的随机性,不可能完全准确地用历史值去预测。
   3.时间序列数据前后时刻(但不一定是相邻时刻)的数值往往具有相关性。
   4.从整体上看,时间序列往往会呈现出某种趋势性或出现周期性变化的现象。
  
 分类:
   按研究对象分类:一元时间序列和多元时间序列。
   按时间参数分类:离散时间序列和连续时间序列。
   按统计特性分类:平稳时间序列和非平稳时间序列。
   按分布规律分类:高斯型时间序列和非高斯型时间序列
  
 1.统计时序分析
   1. 频域分析
   2. 时域分析
  
 2.平稳时间序列检验
   什么是平稳时间序列?这就需要我们从概率统计的角度来定义。一般来讲,平稳时间序列有两种定义,分别是:严平稳时间序列和宽平稳时间序列。其中,严平稳要求序列所有的统计性质都不会随着时间的推移而发生变化。宽平稳则认为只要保证序列 [二阶矩]( https://en.wikipedia.org/wiki/Moment_(mathematics)  平稳,就代表序列稳定。显然,严平稳比宽平稳的条件严格。严平稳是对序列联合分布的要求,以保证序列所有的统计特征都相同。
  
 关于序列平稳性的检验,一般有两种方法,分别是:图检验和假设检验。图检验是根据时序图和自相关图显示的特征作出判断,因其操作简便而运用广泛。简单来讲,如果一张时序图呈现出明显的增长和下降趋势,那么就一定不平稳。
                                          
 3.自相关图
  
 4.纯随机性检验
   怎样判断一个平稳序列是否随机呢?这就会用到纯随机性检验。纯随机性检验的过程中,一般会涉及到两个统计量,分别是:Q 统计量和 LB 统计量(Ljung-Box)。但由于 LB 统计量是 Q 统计量的修正,所以业界通常所称的 Q 统计量也就是 LB 统计量。
  
 Python 中,我们可以利用 statsmodels 统计计算库中的 acorr_ljungbox() 函数计算 LB 统计量,该函数默认会返回 LB 统计量和 LB 统计量的 P 值。如果 LB 统计量的 P 值小于 0.05,我们则认为该序列为非随机序列,否则就为随机序列。
  
 5.ARMA介绍及建模
   ARMA 模型的全称是自回归移动平均模型,它是目前最常用的拟合平稳序列的模型。ARMA 模型一般又可以被细分为 AR 自回归模型,MA 移动平均模型和 ARMA 三类。

7. 基于SPSS的时间序列分析(转载自某大神)

应用背景: 
  
 通过分析序列进行合理预测,做到提前掌握未来的发展趋势,为业务决策提供依据,这也是决策科学化的前提。
  
  时间序列分析: 
  
 时间序列就是按时间顺序排列的一组数据序列。
  
 时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。
  
  分析工具: 
  
 SPSS
  
  实践案例:通过历史数据预测未来数据,所涉及的都是最简单的实践,抛砖引玉,重在方法,不论多复杂的数据,方法是一样的。 
  
 如已知前几年每月的销售量,预测未来的销售量。
  
 一、时间序列分析简介
  
 时间序列分析有 三个基本特点 :
  
 假设事物发展趋势会延伸到未来
  
 预测所依据的数据具有不规则性
  
 不考虑事物发展之间的因果关系
                                          
 并不是所有的时间序列都一定包含四种因素,如以年为单位的诗句就可能不包含季节变动因素。
  
 四种因素通常有 两种组合方式: 
  
 四种因素相互独立,即时间序列是四种因素直接叠加而成的,可用加法模型表示:  Y=T+S+C+I 
  
 四种因素相互影响。即时间序列是四种因素相互综合的结果,可用乘法模型表示: Y=T*S*C*I 
  
 其中,原始时间序列值和长期趋势可用绝对数表示;季节变动、循环变动、不规则变动可用相对数(变动百分比)表示。
  
 二、季节分解法
  
 当我们对一个时间序列进行预测时,应该考虑将上述四种因素从时间序列中分解出来。
  
  为什么要分解这四种因素? 
  
 分解之后,能够克服其他因素的影响,仅仅考量一种因素对时间序列的影响。
  
 分解之后,也可以分析他们之间的相互作用,以及他们对时间序列的综合影响。
  
 当去掉这些因素后,就可以更好的进行时间序列之间的比较,从而更加客观的反映事物变化发展规律。
  
 分解之后,序列可以用来建立回归模型,从而提高预测精度。
  
 所有的时间序列都要分解这四种因素吗?
  
 通常情况下,我们考虑进行季节因素的分解,也就是将季节变动因素从原时间序列中去除,并生成由剩余三种因素构成的序列来满足后续分析需求。
  
  为什么只进行季节因素的分解? 
  
 时间序列中的长期趋势反映了事物发展规律,是重点研究的对象;
  
 循环变动由于周期长,可以看做是长期趋势的反映;
  
 不规则变动由于不容易测量,通常也不单独分析。
  
 季节变动有时会让预测模型误判其为不规则变动,从而降低模型的预测精度
  
 综上所述:当一个时间序列具有季节变动特征时,在预测值钱会先将季节因素进行分解。
  
  步骤: 
  
 定义日期标示变量:即先将序列的时间定义好,才能分析其时间特征。
  
 了解序列发展趋势:即序列图,确定乘性还是加性
  
 进行季节因素分解
  
 建模
  
 分析结果解读
  
 预测
  
  1、定义日期标示变量 
  
 时间序列的特点就是数据根据时间点的顺序进行排列,因此分析之前,SPSS需要知道序列的时间定义,然后才能进行分析时间特征。
                                                                                  
 根据源数据的格式进行选择,并输入第一个个案的具体数值。
                                          
 此时会在源文件中生成三个新的变量。
  
  2、了解序列发展趋势 
  
 完成日期标示变量的定义之后,需要先对时间序列的变化趋势有所了解,便于选择合适的模型。即通过序列图,确定模型是乘性还是加性。
                                                                                  
 变量为”销售数据“,时间轴标签为”DATE–“,也就是我们自定义的时间。
                                          
 数据销量序列图
  
  如何根据序列图来判断模型的乘性或加性? 
  
 如果随着时间的推移,序列的季节波动变得越来越大,则建议使用乘法模型。
  
 如果序列的季节波动能够基本维持恒定,则建议使用加法模型。
  
 本例很明显:随着时间变化,销售数据的季节波动越来越大,那么使用乘法模型会更精确。
  
  3、进行季节因素分解 
                                                                                  
 变量为”销售数据“,且根据序列图我们知道时间序列模型为乘性。
  
 提示您会新生成四个变量
                                                                                  
  ERR(误差序列): 从时间序列中移除季节因素、长期趋势、和循环变动之后留下的序列,也就是原始序列中的不规则变动构成的序列。
  
  SAS(季节因素校正后序列): 是移除原始序列中的季节因素后的校正序列。
  
  SAF(季节因子): 是从序列中分解出的季节因素。其中的变量值根据季节周期的变动进行重复,如本例中季节周期为12个月,所以这些季节因子没12个月重复一次。
  
  STC(长期趋势和循环变动趋势): 这是原始序列中长期趋势和循环变动构成的序列。
                                          
 如图,周期为12个月,季节因子12个月循环一次。
  
 完成季节因素分解后的序列和原始序列之间有什么差异?
  
 通过回执序列图的方法把原始序列和除去季节因子的三个序列(误差序列、季节因素校正后序列、长期无视和循环变动序列)进行比较。
                                                                                  
 要做四个序列图,会有四个变量:
  
  原始序列 :使用变量”销售数据“;
  
  误差序列 :使用变量”ERR“;
  
  季节因素校场后序列 :使用变量”SAS“
  
  长期趋势和循环变动序列 :使用变量”STC“
                                          
 蓝色线:原始序列
  
 紫色线:长期趋势和循环变动序列
  
 浅棕色:季节因素校正后序列
  
 绿色线:误差序列(不规则变动)
  
 因为误差序列数值非常小,所以长期趋势和循环变动序列(长期趋势+循环变动)与季节因素校正后序列(长期趋势+循环变动+不规则变动,即误差)能够基本重合。
  
 在单独做”季节因子SAF“的序列图:
                                          
 因为是做”季节因子“的序列图,所以只有一个变量”季节因子SAF“
                                          
 我们看出:季节因素的周期是12个月,先下降,然后上升到第一个顶点,再有略微的下降后,出现明显的上升趋势,到第七个月时达到峰值,然后一路下跌,直到最后一个月份有所回升,之后进入第二个循环周期。
  
 通过对原始序列的季节分解,我们更好的掌握了原始序列所包含的时间特征,从而选用适当的模型进行预测。
  
 三、专家建模法
  
 时间序列的预测步骤有四步:
  
 绘制时间序列图观察趋势
  
 分析序列平稳性并进行平稳化
  
 时间序列建模分析
  
 模型评估与预测
  
 平稳性主要是指时间序列的所有统计性质都不会随着时间的推移而发生变化。
  
 对于一个平稳的时间序列,具备以下特征:
  
 均数和方差不随时间变化
  
 自相关系数只与时间间隔有关,与所处的时间无关
  
 自相关系数是研究序列中不同时期的相关系数,也就是对时间序列计算其当前和不同滞后期的一系列相关系数。
  
 平稳化的方法——差分。
  
 差分就是指序列中相邻的两期数据之差。
  
 一次差分=Yt-Yt-1
  
 二次差分=(Yt-Yt-1)-(Yt-1-Yt-2)
  
 具体的平稳化操作过程会有专家建模法自动处理,我们只需要哼根据模型结果独处序列经过了几阶差分即可。
  
 时间序列分析操作:
                                                                                  
 要分析所有变量,所以选择”销售数据“。
  
 【专家建模器】–【条件】,勾选”专家建模器考虑季节性模型“。
                                          
 勾选”预测值“,目的是生成预测值,并保存模型。
  
  时间序列分析结果解读 
                                          
 该表显示了经过分析得到的最优时间序列模型及其参数,最优时间U型猎魔性为ARIMA(0,1,1)(0,1,1)
  
 求和自回归移动平均模型ARIMA(p,d,q)(P,D,Q)
  
 p:出去季节性变化之后的序列所滞后的p期,通常为0或1,大于1的情况很少;
  
 d:除去季节性变化之后的序列进行了d阶差分,通常取值为0,1或2;
  
 q:除去季节性变化之后的序列进行了q次移动平均,通常取值0或1,很少会超过2;
  
 P,D,Q分别表示包含季节性变化的序列所做的事情。
  
  因此本例可解读为:  对除去季节性变化的序列和包含季节性变化的序列分别进行了一阶差分和一次移动平均,综合两个模型而建立出来的时间序列模型。 
                                          
  该表主要通过R方或平稳R方来评估模型拟合度,以及在多个模型时,通过比较统计量找到最优模型。 
  
 由于原始变量具有季节性变动因素,所以平稳的R方更具有参考意义,等于32.1%,拟合效果一般。
                                          
  该表提供了更多的统计量可以用来评估时间序列模型的拟合效果。 
  
 虽然平稳R方仅仅是32.1%,但是”杨-博克斯Q(18)“统计量的显著性P=0.706,大于0.05(此处P>0.05是期望得到的结果),所以接受原假设,认为这个序列的残差符合随机分布,同时没有离群值出现,也都反映出数据的拟合效果还可以接受。
  
  时间序列应用预测: 
                                                                                  
 未来一年是到2016年12月,手动输入即可。
                                          
 这是未来一年的销售趋势。
  
 如果想从全局来观察预测趋势,可以在把这一年的趋势和以前的数据连接起来
                                                                                  
 此时的变量应该是”原始的销售数量“和”2016年的预测销售数量“。
  
 结果如下:
                                          
 也可以在表中查看具体的数值:

基于SPSS的时间序列分析(转载自某大神)

8. SPSS里进行时间序列分析定义时间为年月日怎么操作

按Excel中的格式录入时间后,切换至“变量视图”界面,点击“类型”,会跳出“变量类型”对话框,类型选择“日期”,可以调整成你需要的时间格式即可。

SPSS,“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”,但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。
SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。

发展历史
SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。
2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。如今SPSS的最新版本为25,而且更名为IBM SPSS Statistics。迄今,SPSS公司已有40余年的成长历史。