基于SPSS的时间序列分析（转载自某大神）

2024-05-14

1. 基于SPSS的时间序列分析（转载自某大神）

应用背景： 
  
 通过分析序列进行合理预测，做到提前掌握未来的发展趋势，为业务决策提供依据，这也是决策科学化的前提。
  
  时间序列分析： 
  
 时间序列就是按时间顺序排列的一组数据序列。
  
 时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。
  
  分析工具： 
  
 SPSS
  
  实践案例：通过历史数据预测未来数据，所涉及的都是最简单的实践，抛砖引玉，重在方法，不论多复杂的数据，方法是一样的。 
  
 如已知前几年每月的销售量，预测未来的销售量。
  
 一、时间序列分析简介
  
 时间序列分析有 三个基本特点 ：
  
 假设事物发展趋势会延伸到未来
  
 预测所依据的数据具有不规则性
  
 不考虑事物发展之间的因果关系
                                          
 并不是所有的时间序列都一定包含四种因素，如以年为单位的诗句就可能不包含季节变动因素。
  
 四种因素通常有 两种组合方式： 
  
 四种因素相互独立，即时间序列是四种因素直接叠加而成的，可用加法模型表示：  Y=T+S+C+I 
  
 四种因素相互影响。即时间序列是四种因素相互综合的结果，可用乘法模型表示： Y=T*S*C*I 
  
 其中，原始时间序列值和长期趋势可用绝对数表示；季节变动、循环变动、不规则变动可用相对数（变动百分比）表示。
  
 二、季节分解法
  
 当我们对一个时间序列进行预测时，应该考虑将上述四种因素从时间序列中分解出来。
  
  为什么要分解这四种因素？ 
  
 分解之后，能够克服其他因素的影响，仅仅考量一种因素对时间序列的影响。
  
 分解之后，也可以分析他们之间的相互作用，以及他们对时间序列的综合影响。
  
 当去掉这些因素后，就可以更好的进行时间序列之间的比较，从而更加客观的反映事物变化发展规律。
  
 分解之后，序列可以用来建立回归模型，从而提高预测精度。
  
 所有的时间序列都要分解这四种因素吗？
  
 通常情况下，我们考虑进行季节因素的分解，也就是将季节变动因素从原时间序列中去除，并生成由剩余三种因素构成的序列来满足后续分析需求。
  
  为什么只进行季节因素的分解？ 
  
 时间序列中的长期趋势反映了事物发展规律，是重点研究的对象；
  
 循环变动由于周期长，可以看做是长期趋势的反映；
  
 不规则变动由于不容易测量，通常也不单独分析。
  
 季节变动有时会让预测模型误判其为不规则变动，从而降低模型的预测精度
  
 综上所述：当一个时间序列具有季节变动特征时，在预测值钱会先将季节因素进行分解。
  
  步骤： 
  
 定义日期标示变量：即先将序列的时间定义好，才能分析其时间特征。
  
 了解序列发展趋势：即序列图，确定乘性还是加性
  
 进行季节因素分解
  
 建模
  
 分析结果解读
  
 预测
  
  1、定义日期标示变量 
  
 时间序列的特点就是数据根据时间点的顺序进行排列，因此分析之前，SPSS需要知道序列的时间定义，然后才能进行分析时间特征。
                                                                                  
 根据源数据的格式进行选择，并输入第一个个案的具体数值。
                                          
 此时会在源文件中生成三个新的变量。
  
  2、了解序列发展趋势 
  
 完成日期标示变量的定义之后，需要先对时间序列的变化趋势有所了解，便于选择合适的模型。即通过序列图，确定模型是乘性还是加性。
                                                                                  
 变量为”销售数据“，时间轴标签为”DATE–“，也就是我们自定义的时间。
                                          
 数据销量序列图
  
  如何根据序列图来判断模型的乘性或加性？ 
  
 如果随着时间的推移，序列的季节波动变得越来越大，则建议使用乘法模型。
  
 如果序列的季节波动能够基本维持恒定，则建议使用加法模型。
  
 本例很明显：随着时间变化，销售数据的季节波动越来越大，那么使用乘法模型会更精确。
  
  3、进行季节因素分解 
                                                                                  
 变量为”销售数据“，且根据序列图我们知道时间序列模型为乘性。
  
 提示您会新生成四个变量
                                                                                  
  ERR（误差序列）： 从时间序列中移除季节因素、长期趋势、和循环变动之后留下的序列，也就是原始序列中的不规则变动构成的序列。
  
  SAS（季节因素校正后序列）： 是移除原始序列中的季节因素后的校正序列。
  
  SAF（季节因子）： 是从序列中分解出的季节因素。其中的变量值根据季节周期的变动进行重复，如本例中季节周期为12个月，所以这些季节因子没12个月重复一次。
  
  STC（长期趋势和循环变动趋势）： 这是原始序列中长期趋势和循环变动构成的序列。
                                          
 如图，周期为12个月，季节因子12个月循环一次。
  
 完成季节因素分解后的序列和原始序列之间有什么差异？
  
 通过回执序列图的方法把原始序列和除去季节因子的三个序列（误差序列、季节因素校正后序列、长期无视和循环变动序列）进行比较。
                                                                                  
 要做四个序列图，会有四个变量：
  
  原始序列 ：使用变量”销售数据“；
  
  误差序列 ：使用变量”ERR“；
  
  季节因素校场后序列 ：使用变量”SAS“
  
  长期趋势和循环变动序列 ：使用变量”STC“
                                          
 蓝色线：原始序列
  
 紫色线：长期趋势和循环变动序列
  
 浅棕色：季节因素校正后序列
  
 绿色线：误差序列（不规则变动）
  
 因为误差序列数值非常小，所以长期趋势和循环变动序列（长期趋势+循环变动）与季节因素校正后序列（长期趋势+循环变动+不规则变动，即误差）能够基本重合。
  
 在单独做”季节因子SAF“的序列图：
                                          
 因为是做”季节因子“的序列图，所以只有一个变量”季节因子SAF“
                                          
 我们看出：季节因素的周期是12个月，先下降，然后上升到第一个顶点，再有略微的下降后，出现明显的上升趋势，到第七个月时达到峰值，然后一路下跌，直到最后一个月份有所回升，之后进入第二个循环周期。
  
 通过对原始序列的季节分解，我们更好的掌握了原始序列所包含的时间特征，从而选用适当的模型进行预测。
  
 三、专家建模法
  
 时间序列的预测步骤有四步：
  
 绘制时间序列图观察趋势
  
 分析序列平稳性并进行平稳化
  
 时间序列建模分析
  
 模型评估与预测
  
 平稳性主要是指时间序列的所有统计性质都不会随着时间的推移而发生变化。
  
 对于一个平稳的时间序列，具备以下特征：
  
 均数和方差不随时间变化
  
 自相关系数只与时间间隔有关，与所处的时间无关
  
 自相关系数是研究序列中不同时期的相关系数，也就是对时间序列计算其当前和不同滞后期的一系列相关系数。
  
 平稳化的方法——差分。
  
 差分就是指序列中相邻的两期数据之差。
  
 一次差分=Yt-Yt-1
  
 二次差分=(Yt-Yt-1)-(Yt-1-Yt-2)
  
 具体的平稳化操作过程会有专家建模法自动处理，我们只需要哼根据模型结果独处序列经过了几阶差分即可。
  
 时间序列分析操作：
                                                                                  
 要分析所有变量，所以选择”销售数据“。
  
 【专家建模器】–【条件】，勾选”专家建模器考虑季节性模型“。
                                          
 勾选”预测值“，目的是生成预测值，并保存模型。
  
  时间序列分析结果解读 
                                          
 该表显示了经过分析得到的最优时间序列模型及其参数，最优时间U型猎魔性为ARIMA（0，1，1）（0，1，1）
  
 求和自回归移动平均模型ARIMA（p,d,q）(P,D,Q)
  
 p：出去季节性变化之后的序列所滞后的p期，通常为0或1，大于1的情况很少；
  
 d：除去季节性变化之后的序列进行了d阶差分，通常取值为0，1或2；
  
 q：除去季节性变化之后的序列进行了q次移动平均，通常取值0或1，很少会超过2；
  
 P，D，Q分别表示包含季节性变化的序列所做的事情。
  
  因此本例可解读为：  对除去季节性变化的序列和包含季节性变化的序列分别进行了一阶差分和一次移动平均，综合两个模型而建立出来的时间序列模型。 
                                          
  该表主要通过R方或平稳R方来评估模型拟合度，以及在多个模型时，通过比较统计量找到最优模型。 
  
 由于原始变量具有季节性变动因素，所以平稳的R方更具有参考意义，等于32.1%，拟合效果一般。
                                          
  该表提供了更多的统计量可以用来评估时间序列模型的拟合效果。 
  
 虽然平稳R方仅仅是32.1%，但是”杨-博克斯Q（18）“统计量的显著性P=0.706，大于0.05（此处P>0.05是期望得到的结果），所以接受原假设，认为这个序列的残差符合随机分布，同时没有离群值出现，也都反映出数据的拟合效果还可以接受。
  
  时间序列应用预测： 
                                                                                  
 未来一年是到2016年12月，手动输入即可。
                                          
 这是未来一年的销售趋势。
  
 如果想从全局来观察预测趋势，可以在把这一年的趋势和以前的数据连接起来
                                                                                  
 此时的变量应该是”原始的销售数量“和”2016年的预测销售数量“。
  
 结果如下：
                                          
 也可以在表中查看具体的数值：

2. SPSS时间序列应用时间序列模型

SPSS时间序列：应用时间序列模型
一、应用时间序列模型（分析-预测-应用模型）
“应用时间序列模型”过程从外部文件加载现有的时间序列模型，并将它们应用于活动数据集。使用此过程，可以在不重新建立模型的情况下获得其新数据或修订数据可用的序列的预测值。模型是使用时间序列建模器过程生成的。
1、示例。假定您是一家大型零售店的库存经理，您负责管理5,000种产品。您曾使用专家建模器创建了一些模型，用来预测每种产品在未来三个月的销售情况。您的数据仓库每个月都会使用实际销售数据进行刷新，您希望使用这些数据来生成每月更新预测值。通过?应用时间序列模型?过程，您可以使用原有模型，然后只需重新估计模型参数以说明新数据即可实现此预测。
2、统计量。拟合优度测量：平稳的R方、R方(R2)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对误差百分比(MAPE)、最大绝对误差(MaxAE)、最大绝对误差百分比(MaxAPE)、标准化BIC准则。残差：自相关函数、偏自相关函数、Ljung-Box Q。图。跨所有模型的摘要图：平稳的R方、R方(R2)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对误差百分比(MAPE)、最大绝对误差(MaxAE)、最大绝对误差百分比(MaxAPE)、标准化BIC准则的直方图；残差自相关和偏自相关的箱图。单个模型的结果：预测值、拟合值、观察值、置信区间的上限和下限、残差自相关和偏自相关。
二、统计量（分析-预测-应用模型-统计量）
1、比较模型的统计量。这组选项控制如何显示包含所有模型的统计量的表。每个选项分别生成单独的表。可以选择以下选项中的一个或多个：
1.1、拟合优度。固定的R方、R方、均方根误差、平均绝对误差百分比、平均绝对误差、最大绝对误差百分比、最大绝对误差以及标准化的BIC准则的摘要统计量和百分位数表。
1.2、残差自相关函数(ACF)。所有估计模型中残差的自相关摘要统计和百分位表。此表只在重新估计模型参数时可用（?模型?选项卡上的根据数据重新估计）。
1.3、残差部分自相关函数(PACF)。所有估计模型中残差的部分自相关摘要统计和百分位表。此表只在重新估计模型参数时可用（?模型?选项卡上的根据数据重新估计）。
2、个别模型的统计量。这组选项控制如何显示包含每个模型的详细信息的表。每个选项分别生成单独的表。可以选择以下选项中的一个或多个：
2.1、参数估计。显示每个模型的参数估计值的表。为指数平滑法和ARIMA模型显示不同的表。如果存在离群值，则它们的参数估计值也将在单独的表中显示。
2.2、残差自相关函数(ACF)。按每个估计模型的延迟显示残差自相关表。该表包含自相关的置信区间。此表只在重新估计模型参数时可用（?模型?选项卡上的根据数据重新估计）。
1.3、残差部分自相关函数(PACF)。按每个估计模型的延迟显示残差部分自相关表。该表包含部分自相关的置信区间。此表只在重新估计模型参数时可用（?模型?选项卡上的根据数据重新估计）。
3、显示预测值。显示每个模型的模型预测值和置信区间的表。
三、图表（分析-预测-应用模型-图表）
序列。选择（选中）此选项可获取每个模型的预测值的图。只有在重新估计模型参数时（?模型?选项卡上的根据数据重新估计），观察值、拟合值、拟合值的置信区间以及自相关才可用。可以选择在图中包含以下一项或多项：
◎观察值。相依序列的观察值。
◎预测值。预测期的模型预测值。
◎拟合值。估计期的模型预测值。
◎预测值的置信区间。预测期的置信区间。
◎拟合值的置信区间。估计期的置信区间。
残差自相关函数(ACF)。显示每个估计模型的残差自相关图。
残差部分自相关函数(PACF)。显示每个估计模型的残差部分自相关图。
四、输出过滤（分析-预测-应用模型-输出过滤）
1、最佳拟合模型。选择（选中）此选项将在输出中包含最佳拟合模型。选择拟合优度测量并指定要包含的模型数。选择此选项不妨碍同时选择最差拟合模型。如果同时选择两者，则输出将由最差拟合模型和最佳拟合模型组成。
1.1、模型的固定数量。指定为n个最佳拟合模型显示结果。如果指定的数量超过模型的总数，则显示所有模型。
1.2、占模型总数的百分比。指定为其拟合优度值在所有模型的前n个百分比范围内的模型显示结果。
2、最差拟合模型。选择（选中）此选项将在输出中包含最差拟合模型。选择拟合优度测量并指定要包含的模型数。选择此选项不妨碍同时选择最佳拟合模型。如果同时选择两者，输出将由最佳拟合模型和最差拟合模型组成。
2.1、模型的固定数量。指定为n个最差拟合模型显示结果。如果指定的数量超过模型的总数，则显示所有模型。
2.2、占模型总数的百分比。指定为其拟合优度值在所有模型的后n个百分比范围内的模型显示结果。3、拟合优度。选择用于过滤模型的拟合优度测量。缺省值为固定的R方。

3. SPSS-数据分析之时间序列分析

当数据与时间息息相关，常具有周期性的变化规律，此时，时间序列分析是一个很好的发现分析及预测其发展变化的统计方法，接下来简要分享统计分析软件SPSS中时间序列分析的操作。
  
 问：什么是时间序列？
  
 答：时间序列是时间间隔不变的情况下收集的不同时间点数据集合。
  
 问：那时间序列分析又是什么？
  
 答：时间序列分析是通过研究历史数据的发展变化规律来预测事物的未来发展的统计学方法。公司营业额、销售额，人口数量，股票等方面的变化预测皆可通过此统计方法。
  
 SPSS中的操作
  
 首先，对数据进行 预处理： 
  
 1.查看数据是否有缺失，若有，不便后续处理，则需进行替换缺失值。
  
 转换→替换缺失值→选择新变量→输入新变量名称、选择替换缺失值方法。
  
 
  
                                          
 
  
                                          
 2.定义日期
  
 数据→定义日期和时间
  
 
  
                                          
 
  
                                          
 3.平稳性检验（平稳性指的是期望不变，方差恒定，协方差不随时间改变）
  
 检验方法：时序图检验、自相关图检验等。可通过创建时间序列实现数据的平稳化
  
 转换→创建时间序列
  
 
  
                                          
 结果（例：运行中位数——跨度为1，则等于原数据）
  
 
  
                                          
 数据预处理后对数据进行分析研究——序列图、谱分析、自相关等。
  
 1.序列图：分析→时间序列预测→序列图→根据需要选择变量、时间轴标签等。
  
 
  
                                          
 
  
                                          
 结果（例）：可观察数据的大致波动情况。
  
 
  
                                          
 2.谱分析：分析→时间序列预测→谱分析→根据需要选择变量、图表。
  
 
  
                                          
 结果（例）
  
 对于周期变化的数据，主要用于侦测系统隐含的周期或者节律行为；
  
 对于非周期的数据，主要用于揭示系统演化过程的自相关特征。
  
 
  
                                          
 3.自相关：分析→时间序列预测→自相关→选择变量及其他。
  
 
  
                                          
 结果：
  
 
  
                                          
 
  
                                          
 解读：直条高低代表自相关系数的大小，横轴1-16代表自相关的阶数，上下线之间是不具有统计学意义的，偏自相关是去除自相关系数的关联性传递性之后，用偏自相关系数考察剩余的相关性是否还存在。
  
 关于SPSS时间序列分析的简要介绍就结束啦！
  
  END 
  
 文 | FM

SPSS-数据分析之时间序列分析

基于SPSS的时间序列分析（转载自某大神）

1. 基于SPSS的时间序列分析（转载自某大神）

2. SPSS时间序列 应用时间序列模型

3. SPSS-数据分析之时间序列分析

2. SPSS时间序列应用时间序列模型