如何用spss进行判别分析预测

2024-05-14

1. 如何用spss进行判别分析预测

spss进行判别分析步骤   

1．Discriminant Analysis判别分析主对话框    如图 1-1 所示 



图 1-1    Discriminant Analysis 主对话框

（1）选择分类变量及其范围

在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量)， 
按上面的一个向右的箭头按钮，使该变量名移到右面的Grouping Variable 框中。
此时矩形框下面的Define Range 按钮加亮，按该按钮屏幕显示一个小对话框如图1-2 所示，供指定该分类变量的数值范围。


图 1-2   Define Range 对话框
在Minimum 框中输入该分类变量的最小值在Maximum 框中输入该分类变量的最大值。按Continue 按钮返回主对话框。


(2)指定判别分析的自变量


图 1-3    展开 Selection Variable 对话框的主对话框

在主对话框的左面的变量表中选择表明观测量特征的变量，按下面一个箭头按钮。
把选中的变量移到Independents 矩形框中，作为参与判别分析的变量。

（3） 选择观测量


图 1-4    Set Value 子对话框

如果希望使用一部分观测量进行判别函数的推导而且有一个变量的某个值可以作为这些观测量的标识，
则用Select 功能进行选择，操作方法是单击Select 按钮展开Selection Variable。选择框如图1-3 所示。
并从变量列表框中选择变量移入该框中再单击Selection Variable 选择框右侧的Value按钮，
展开Set Value(子对话框)对话框，如图1-4 所示，键入标识参与分析的观测量所具有的该变量值，
一般均使用数据文件中的所有合法观测量此步骤可以省略。

（4） 选择分析方法


在主对话框中自变量矩形框下面有两个选择项，被选中的方法前面的圆圈中加有黑点。这两个选择项是用于选择判别分析方法的
l      Enter independent together 选项，当认为所有自变量都能对观测量特性提供丰富的信息时，使用该选择项。选择该项将不加选择地使用所有自变量进行判别分析，建立全模型，不需要进一步进行选择。
l      Use stepwise method 选项，当不认为所有自变量都能对观测量特性提供丰富的信息时，使用该选择项。因此需要判别贡献的大小，再进行选择当鼠标单击该项时Method 按钮加亮，可以进一步选择判别分析方法。



2．Method对话框 如图 1-5 所示:　 

图 1-5    Stepwise Method 对话框

单击“Method”按钮展开Stepwise Method对话框。

（1）Method 栏选择进行逐步判别分析的方法

可供选择的判别分析方法有：
l   Wilks'lambda 选项，每步都是Wilk 的概计量最小的进入判别函数
l   Unexplained variance 选项，每步都是使各类不可解释的方差和最小的变量进入判别函数。
l   Mahalanobis’distance 选项，每步都使靠得最近的两类间的Mahalanobis 距离最大的变量进入判别函数
l   Smallest F ratio 选项，每步都使任何两类间的最小的F 值最大的变量进入判刑函数
l   Rao’s V 选项，每步都会使Rao V 统计量产生最大增量的变量进入判别函数。可以对一个要加入到模型中的变量的V 值指定一个最小增量。选择此种方法后，应该在该项下面的V-to-enter 后的矩形框中输入这个增量的指定值。当某变量导致的V值增量大于指定值的变量后进入判别函数。

(2) Criteria 栏选择逐步判别停止的判据

可供选择的判据有:
l    Use F value 选项，使用F值，是系统默认的判据当加人一个变量(或剔除一个变量)后，对在判别函数中的变量进行方差分析。当计算的F值大于指定的Entry 值时，该变量保留在函数中。默认值是Entry为3.84：当该变量使计算的F值小于指定的Removal 值时，该变量从函数中剔除。默认值是Removal为2.71。即当被加入的变量F 值为3.84 时才把该变量加入到模型中，否则变量不能进入模型；或者，当要从模型中移出的变量F值<2.71时,该变量才被移出模型,否则模型中的变量不会被移出.设置这两个值时应该注意Entry值〉Removal 值。
l    Use Probability of F选项，用F检验的概率决定变量是否加入函数或被剔除而不是用F值。加入变量的F值概率的默认值是0.05(5%);移出变量的F 值概率是0.10(10%)。Removal值(移出变量的F值概率) >Entry值(加入变量的F值概率)。

(3) Display栏显示选择的内容

对于逐步选择变量的过程和最后结果的显示可以通过Display 栏中的两项进行选择：
l    Summary of steps 复选项，要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。
l    F for Pairwise distances 复选项，要求显示两两类之间的两两F 值矩阵。



3.Statistics对话框 指定输出的统计量如图1-6 所示：

图 1-6    Statistics 对话框

可以选择的输出统计量分为以下3 类:

(l) 描述统计量
在 Descriptives 栏中选择对原始数据的描述统计量的输出：
l  Means 复选项，可以输出各类中各自变量的均值MEAN、标准差std Dev 和各自变量总样本的均值和标准差。
l  Univariate ANOV 复选项，对各类中同一自变量均值都相等的假设进行检验，输出单变量的方差分析结果。
l  Box’s M 复选项，对各类的协方差矩阵相等的假设进行检验。如果样本足够大，表明差异不显著的p 值表明矩阵差异不明显。

(2) Function coefficients 栏：选择判别函数系数的输出形式
l  Fisherh’s 复选项，可以直接用于对新样本进行判别分类的费雪系数。对每一类给出一组系数。并给出该组中判别分数最大的观测量。
l  Unstandardized 复选项，未经标准化处理的判别系数。

(3) Matrices 栏：选择自变量的系数矩阵
l  Within-groups correlation matrix复选项，即类内相关矩阵，
它是根据在计算相关矩阵之前将各组(类)协方差矩阵平均后计算类内相关矩阵。
l   Within-groups covariance matrix复选项，即计算并显示合并类内协方差矩阵，
是将各组(类)协方差矩阵平均后计算的。区别于总协方差阵。
l   Separate-groups covariance matrices复选项，对每类输出显示一个协方差矩阵。
l   Total covariance matrix复选项，计算并显示总样本的协方差矩阵。



4.Classification 对话框指定分类参数和判别结果 如图1-7 所示

 
图 1-7    Classification 对话框

5.Save对话框,指定生成并保存在数据文件中的新变量。如图1-8 所示:

图 1-8    Save 对话框

6．选择好各选择项之后，点击“OK”按钮，提交运行Discriminant过程。

如何用spss进行判别分析预测

2. 数学建模中spss表格怎么显著性检验以及怎么进行预测

如果是对比差异性，可以使用方差分析，T检验，卡方检验；
如果是研究影响关系，一般是使用回归分析，也可以使用比如二元Logit回归分析等。
网页SPSS,SPSSAU里面均有这些研究方法，而且智能化文字分析结果，拖拽点一下得到分析结果。

3. 利用SPSS如何得出预测模型中验证组的预测概率

把是否购买移到因变量框里面去，把消费金额和消费数量移动到协变量框里面去，然后单击“保存”按钮，弹出“Logistics回归：保存”界面，选择“预测值”下面的“概率”，之后咋爱单击浏览按钮，把模型保存到你想保存的位子，完成之后单击“继续”，回到刚刚的那个界面之后单击“确定”按钮，就进行了“Logistics回归分析”了。

　它会在你原始的数据表格里面新增加一列数据，这个就是那个事件发生的概率值，在二元Logistics回归里面，结果是用概率值来表示的，但是在0到0.5表示的就是不发生；0.5到1表示的就是发生【摘要】
利用SPSS如何得出预测模型中验证组的预测概率【提问】
把是否购买移到因变量框里面去，把消费金额和消费数量移动到协变量框里面去，然后单击“保存”按钮，弹出“Logistics回归：保存”界面，选择“预测值”下面的“概率”，之后咋爱单击浏览按钮，把模型保存到你想保存的位子，完成之后单击“继续”，回到刚刚的那个界面之后单击“确定”按钮，就进行了“Logistics回归分析”了。

　它会在你原始的数据表格里面新增加一列数据，这个就是那个事件发生的概率值，在二元Logistics回归里面，结果是用概率值来表示的，但是在0到0.5表示的就是不发生；0.5到1表示的就是发生【回答】

利用SPSS如何得出预测模型中验证组的预测概率

4. 预测模型好不好，看看SPSS校正曲线就知道

临床研究中，我们常采用各种模型预测病人的结局(比如常见的logistic回归模型)。很重要的一点是，要保证预测模型是靠谱的。靠谱的模型才有意义，预测结果才有可能影响临床决策。怎么才算靠谱呢，预测结果和实际观察结果越接近越好。那，怎么知道一个模型的预测结果是有多接近实际观察结果呢?
  
 　　这里给大家介绍一个洋气的指标，calibration curve或者calibration plot，直译过来就是校准曲线或校准图。其实，校准曲线就是实际发生率和预测发生率的散点图。实质上，校准图曲线是把Hosmer-Lemeshow拟合优度检验的结果可视化了(为方便起见，后面我们简称为H-L检验)。
  
 　　目前校准曲线常用来评价logistic回归和COX回归模型，以logistic回归为例，通过SPSS在logistic回归界面，点击“选项”，在“统计和图”模块选中“拟合优度”，如图所示。
                                          
 在logistic回归界面，通过“选项—统计和图——拟合优度”，SPSS就会输出下表。表中步骤1的1到10是根据每个观察单位的预测概率从小到大排序，分成的十组。从表中低出生体重儿的期望值逐渐增加就可以看出来，这里是按照低出生体重儿的预测发生率从小到大排序，并平均分成十组的。表中的实测和期望分别对应的是实际观察结果和预测结果，我们根据这个表即可绘制校准曲线或校准图。‍
                                          
 表中给出了因变量的两个取值，正常出生体重儿和低出生体重儿。咱们以低出生体重儿的发生率为例，绘制预测发生率和实际发生率的散点图。根据每组的实测人数、期望人数和每组合计人数，可算出每组的实测发生率和预测发生率，如下图。(我是把SPSS输出结果贴到Excel里，然后计算了预测和实测发生率，并绘制了二者之间的散点图)
                                                                                                                                                                    
 根据实际发生率和预测发生率绘制校准曲线或校准图。其中蓝线是预测和实测发生率的拟合线，为了方便比较，图中增加了一条理想的橙线，橙线代表的是y=x，代表预测和实测发生率完全一样。所以说，蓝线和橙线越接近说明预测和实测发生率越接近，说明模型越好。‍
  
 　　另外，我们说过校准曲线其实是把H-L拟合优度检验可视化了，所以说除了校准曲线，我们还要看H-L拟合优度检验的结果。结果显示，H-L拟合优度检验p值0.266>0.05，说明当前模型和理想中的完美模型没有统计学差异，是可以接受的。也就是说如果校正曲线预测发生率和实测发生率越接近y=x，同时H-L拟合优度检验p值>0.05，说明模型越好。是可以接受的。

5. SPSS-数据分析之时间序列分析

当数据与时间息息相关，常具有周期性的变化规律，此时，时间序列分析是一个很好的发现分析及预测其发展变化的统计方法，接下来简要分享统计分析软件SPSS中时间序列分析的操作。
  
 问：什么是时间序列？
  
 答：时间序列是时间间隔不变的情况下收集的不同时间点数据集合。
  
 问：那时间序列分析又是什么？
  
 答：时间序列分析是通过研究历史数据的发展变化规律来预测事物的未来发展的统计学方法。公司营业额、销售额，人口数量，股票等方面的变化预测皆可通过此统计方法。
  
 SPSS中的操作
  
 首先，对数据进行 预处理： 
  
 1.查看数据是否有缺失，若有，不便后续处理，则需进行替换缺失值。
  
 转换→替换缺失值→选择新变量→输入新变量名称、选择替换缺失值方法。
  
 
  
                                          
 
  
                                          
 2.定义日期
  
 数据→定义日期和时间
  
 
  
                                          
 
  
                                          
 3.平稳性检验（平稳性指的是期望不变，方差恒定，协方差不随时间改变）
  
 检验方法：时序图检验、自相关图检验等。可通过创建时间序列实现数据的平稳化
  
 转换→创建时间序列
  
 
  
                                          
 结果（例：运行中位数——跨度为1，则等于原数据）
  
 
  
                                          
 数据预处理后对数据进行分析研究——序列图、谱分析、自相关等。
  
 1.序列图：分析→时间序列预测→序列图→根据需要选择变量、时间轴标签等。
  
 
  
                                          
 
  
                                          
 结果（例）：可观察数据的大致波动情况。
  
 
  
                                          
 2.谱分析：分析→时间序列预测→谱分析→根据需要选择变量、图表。
  
 
  
                                          
 结果（例）
  
 对于周期变化的数据，主要用于侦测系统隐含的周期或者节律行为；
  
 对于非周期的数据，主要用于揭示系统演化过程的自相关特征。
  
 
  
                                          
 3.自相关：分析→时间序列预测→自相关→选择变量及其他。
  
 
  
                                          
 结果：
  
 
  
                                          
 
  
                                          
 解读：直条高低代表自相关系数的大小，横轴1-16代表自相关的阶数，上下线之间是不具有统计学意义的，偏自相关是去除自相关系数的关联性传递性之后，用偏自相关系数考察剩余的相关性是否还存在。
  
 关于SPSS时间序列分析的简要介绍就结束啦！
  
  END 
  
 文 | FM

SPSS-数据分析之时间序列分析