spss：得到一个多元线性回归模型之后，如何比较预测值和真实值？如何判断模型是否有预测能力？

2024-05-27

1. spss：得到一个多元线性回归模型之后，如何比较预测值和真实值？如何判断模型是否有预测能力？

1、打开SPSS软件后点击右上角的【打开文件按钮】打开你需要分析的数据文件。

2、接下来就是开始做回归分析建立模型，研究其变化趋势，因为回归分析分为线性回归和非线性回归，分析它们的办法是不同的，所以先要把握它们的变化趋势，可以画散点图，点击【图形】---【旧对话框】---【散点/点状】。

3、选择【简单分布】，并点击【定义】。

4、在接下来的弹出框中设置x轴和y轴，然后点击确定，其他都不要管，然后得到散点图，可以看出x轴和y轴明显呈线性关系，所以接下来的回归分析就要用线性回归方法，假设图像呈曲线就需要选择曲线拟合的方法。

5、点击【分析】---【回归】---【线性】。

6、在弹出的线性回归框中设置自变量和因变量，其他的选项用默认设置即可，其他的选项只是用来更加精确地去优化模型。

7、【模型汇总表】中R表示拟合优度，值越接近1表示模型越好。至此回归分析就完成了图中的这个模型就是比较合理的。

注意事项：
SPSS注意事项：
1，数据编辑器、语法编辑器、输出查看器、脚本编辑器都可以同时打开多个。
2，关闭所有的输出查看器后，并不退出SPSS系统。数据编辑器都退出后将关闭SPSS系统。关闭所有的数据文件时并不一定退出SPSS系统。说明：仅新建一个数据文件，并没有保存，既没有生成数据文件。此时关闭其它所有已保存的数据文件时，不退出SPSS系统。
3，可以在不同的数据编辑器窗口打开同一个数据文件。对话框中提示“恢复为已保存”或“在新窗口中打开”选项。

2. 预测模型的建模方法

预测模型的建模方法回归分析法，时间序列分析法，灰色预测法。
回归分析法
基本思想：根据历史数据的变化规律，寻找自变量与因变量之间的回归方程式，确定模型参数，据此预测。回归问题分为一元和多元回归、线性和非线性回归。

特点：技术比较成熟，预测过程简单;将预测对象的影响因素分解，考察各因素的变化情况，从而估计预测对象未来的数量状态;回归模型误差较大，外推特性差。
适用范围：回归分析法一般适用于中期预测。回归分析法要求样本量大且要求样本有较好的分布规律，当预测的长度大于占有的原始数据长度时，采用该方法进行预测在理论上不能保证预测结果的精度。另外，可能出现量化结果与定性分析结果不符的现象，有时难以找到合适的回归方程类型。
时间序列分析法
基本思想：把预测对象的历史数据按—定的时间间隔进行排列，构成一个随时间变化的统计序列，建立相应的数据随时间变化的变化模型，并将该模型外推到未来进行预测。
适用范围：此方法有效的前提是过去的发展模式会延续到未来，因而这种方法对短期预测效果比较好，而不适合作中长期预测。
灰色预测法
基本思想：将一切随机变量看作是在一定范围内变化的灰色变量，不是从统计规律角度出发进行大样本分析研究，而是利用数据处理方法(数据生成与还原)，将杂乱无章的原始数据整理成规律性较强的生成数据来加以研究，即灰色系统理论建立的不是原始数据模型，而是生成数据模型。

适用范围：预测模型是一个指数函数，如果待测量是以某一指数规律发展的，则可望得到较高精度的预测结果。影响模型预测精度及其适应性的关键因素，是模型中背景值的构造及预测公式中初值的选取。

3. 利用SPSS如何得出预测模型中验证组的预测概率

把是否购买移到因变量框里面去，把消费金额和消费数量移动到协变量框里面去，然后单击“保存”按钮，弹出“Logistics回归：保存”界面，选择“预测值”下面的“概率”，之后咋爱单击浏览按钮，把模型保存到你想保存的位子，完成之后单击“继续”，回到刚刚的那个界面之后单击“确定”按钮，就进行了“Logistics回归分析”了。

　它会在你原始的数据表格里面新增加一列数据，这个就是那个事件发生的概率值，在二元Logistics回归里面，结果是用概率值来表示的，但是在0到0.5表示的就是不发生；0.5到1表示的就是发生【摘要】
利用SPSS如何得出预测模型中验证组的预测概率【提问】
把是否购买移到因变量框里面去，把消费金额和消费数量移动到协变量框里面去，然后单击“保存”按钮，弹出“Logistics回归：保存”界面，选择“预测值”下面的“概率”，之后咋爱单击浏览按钮，把模型保存到你想保存的位子，完成之后单击“继续”，回到刚刚的那个界面之后单击“确定”按钮，就进行了“Logistics回归分析”了。

　它会在你原始的数据表格里面新增加一列数据，这个就是那个事件发生的概率值，在二元Logistics回归里面，结果是用概率值来表示的，但是在0到0.5表示的就是不发生；0.5到1表示的就是发生【回答】

利用SPSS如何得出预测模型中验证组的预测概率

4. 预测模型建立的方法有哪些

答：1、了解目标建立预测分析模型应该有明确的目标，如风险和欺诈管理、预测收入、财务建模，社交媒体影响力，管理营销活动、运营效率等。2、确定问题该模型旨在识别组织的问题。从分析中获得的结果用于指导运营人员和经理，以解决组织中的任何问题。3、确定流程这涉及改进机会的过程。对于数据科学家来说，评估需要修改以执行模型结果的特定过程非常重要。4、性能指标识别良好的绩效指标产生的结果可以衡量整体组织目标的改进数量。如果指标显示所采取的行动没有好处，则可以采取不同的方法来满足目标的需求。

5、选择和准备用于建模的数据有三种类型的数据可用于建模：人口统计、行为和心理。可能需要清理数据。变量应定义良好，也可以合并多个数据集。6、模型开发方法组织可以选择几种开发方法，例如敏捷软件开发、动态系统开发模型、功能驱动开发、快速应用程序开发、系统开发生命周期等。7、随机数据采样该技术主要用于选择、操作和分析数据点的子集，以识别数据集中的模式和趋势。它有助于以高效、快捷的方式构建和执行模型的结果。

8、数据治理计划它也可以被称为任何强大的数据管理计划的基础组成部分，因为通过组织治理的努力可以提高绩效和效率。9、模型的实施在开发和验证模型之后，在系统中实现模型非常重要。模型实施有几个系统，如账户管理系统、决策系统、客户关系管理系统、分析平台、收集系统等。10、构建和部署模型部署模型有助于在决策过程中获得分析结果。主要有三种部署方法，分别是：①对模型进行运营有效性评分②与报告集成，以进行协作和咨询③与应用程序集成以实现运营业务

5. 预测模型好不好，看看SPSS校正曲线就知道

临床研究中，我们常采用各种模型预测病人的结局(比如常见的logistic回归模型)。很重要的一点是，要保证预测模型是靠谱的。靠谱的模型才有意义，预测结果才有可能影响临床决策。怎么才算靠谱呢，预测结果和实际观察结果越接近越好。那，怎么知道一个模型的预测结果是有多接近实际观察结果呢?
  
 　　这里给大家介绍一个洋气的指标，calibration curve或者calibration plot，直译过来就是校准曲线或校准图。其实，校准曲线就是实际发生率和预测发生率的散点图。实质上，校准图曲线是把Hosmer-Lemeshow拟合优度检验的结果可视化了(为方便起见，后面我们简称为H-L检验)。
  
 　　目前校准曲线常用来评价logistic回归和COX回归模型，以logistic回归为例，通过SPSS在logistic回归界面，点击“选项”，在“统计和图”模块选中“拟合优度”，如图所示。
                                          
 在logistic回归界面，通过“选项—统计和图——拟合优度”，SPSS就会输出下表。表中步骤1的1到10是根据每个观察单位的预测概率从小到大排序，分成的十组。从表中低出生体重儿的期望值逐渐增加就可以看出来，这里是按照低出生体重儿的预测发生率从小到大排序，并平均分成十组的。表中的实测和期望分别对应的是实际观察结果和预测结果，我们根据这个表即可绘制校准曲线或校准图。‍
                                          
 表中给出了因变量的两个取值，正常出生体重儿和低出生体重儿。咱们以低出生体重儿的发生率为例，绘制预测发生率和实际发生率的散点图。根据每组的实测人数、期望人数和每组合计人数，可算出每组的实测发生率和预测发生率，如下图。(我是把SPSS输出结果贴到Excel里，然后计算了预测和实测发生率，并绘制了二者之间的散点图)
                                                                                                                                                                    
 根据实际发生率和预测发生率绘制校准曲线或校准图。其中蓝线是预测和实测发生率的拟合线，为了方便比较，图中增加了一条理想的橙线，橙线代表的是y=x，代表预测和实测发生率完全一样。所以说，蓝线和橙线越接近说明预测和实测发生率越接近，说明模型越好。‍
  
 　　另外，我们说过校准曲线其实是把H-L拟合优度检验可视化了，所以说除了校准曲线，我们还要看H-L拟合优度检验的结果。结果显示，H-L拟合优度检验p值0.266>0.05，说明当前模型和理想中的完美模型没有统计学差异，是可以接受的。也就是说如果校正曲线预测发生率和实测发生率越接近y=x，同时H-L拟合优度检验p值>0.05，说明模型越好。是可以接受的。

预测模型好不好，看看SPSS校正曲线就知道

6. 如何用spss进行判别分析预测

spss进行判别分析步骤   

1．Discriminant Analysis判别分析主对话框    如图 1-1 所示 



图 1-1    Discriminant Analysis 主对话框

（1）选择分类变量及其范围

在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量)， 
按上面的一个向右的箭头按钮，使该变量名移到右面的Grouping Variable 框中。
此时矩形框下面的Define Range 按钮加亮，按该按钮屏幕显示一个小对话框如图1-2 所示，供指定该分类变量的数值范围。


图 1-2   Define Range 对话框
在Minimum 框中输入该分类变量的最小值在Maximum 框中输入该分类变量的最大值。按Continue 按钮返回主对话框。


(2)指定判别分析的自变量


图 1-3    展开 Selection Variable 对话框的主对话框

在主对话框的左面的变量表中选择表明观测量特征的变量，按下面一个箭头按钮。
把选中的变量移到Independents 矩形框中，作为参与判别分析的变量。

（3） 选择观测量


图 1-4    Set Value 子对话框

如果希望使用一部分观测量进行判别函数的推导而且有一个变量的某个值可以作为这些观测量的标识，
则用Select 功能进行选择，操作方法是单击Select 按钮展开Selection Variable。选择框如图1-3 所示。
并从变量列表框中选择变量移入该框中再单击Selection Variable 选择框右侧的Value按钮，
展开Set Value(子对话框)对话框，如图1-4 所示，键入标识参与分析的观测量所具有的该变量值，
一般均使用数据文件中的所有合法观测量此步骤可以省略。

（4） 选择分析方法


在主对话框中自变量矩形框下面有两个选择项，被选中的方法前面的圆圈中加有黑点。这两个选择项是用于选择判别分析方法的
l      Enter independent together 选项，当认为所有自变量都能对观测量特性提供丰富的信息时，使用该选择项。选择该项将不加选择地使用所有自变量进行判别分析，建立全模型，不需要进一步进行选择。
l      Use stepwise method 选项，当不认为所有自变量都能对观测量特性提供丰富的信息时，使用该选择项。因此需要判别贡献的大小，再进行选择当鼠标单击该项时Method 按钮加亮，可以进一步选择判别分析方法。



2．Method对话框 如图 1-5 所示:　 

图 1-5    Stepwise Method 对话框

单击“Method”按钮展开Stepwise Method对话框。

（1）Method 栏选择进行逐步判别分析的方法

可供选择的判别分析方法有：
l   Wilks'lambda 选项，每步都是Wilk 的概计量最小的进入判别函数
l   Unexplained variance 选项，每步都是使各类不可解释的方差和最小的变量进入判别函数。
l   Mahalanobis’distance 选项，每步都使靠得最近的两类间的Mahalanobis 距离最大的变量进入判别函数
l   Smallest F ratio 选项，每步都使任何两类间的最小的F 值最大的变量进入判刑函数
l   Rao’s V 选项，每步都会使Rao V 统计量产生最大增量的变量进入判别函数。可以对一个要加入到模型中的变量的V 值指定一个最小增量。选择此种方法后，应该在该项下面的V-to-enter 后的矩形框中输入这个增量的指定值。当某变量导致的V值增量大于指定值的变量后进入判别函数。

(2) Criteria 栏选择逐步判别停止的判据

可供选择的判据有:
l    Use F value 选项，使用F值，是系统默认的判据当加人一个变量(或剔除一个变量)后，对在判别函数中的变量进行方差分析。当计算的F值大于指定的Entry 值时，该变量保留在函数中。默认值是Entry为3.84：当该变量使计算的F值小于指定的Removal 值时，该变量从函数中剔除。默认值是Removal为2.71。即当被加入的变量F 值为3.84 时才把该变量加入到模型中，否则变量不能进入模型；或者，当要从模型中移出的变量F值<2.71时,该变量才被移出模型,否则模型中的变量不会被移出.设置这两个值时应该注意Entry值〉Removal 值。
l    Use Probability of F选项，用F检验的概率决定变量是否加入函数或被剔除而不是用F值。加入变量的F值概率的默认值是0.05(5%);移出变量的F 值概率是0.10(10%)。Removal值(移出变量的F值概率) >Entry值(加入变量的F值概率)。

(3) Display栏显示选择的内容

对于逐步选择变量的过程和最后结果的显示可以通过Display 栏中的两项进行选择：
l    Summary of steps 复选项，要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。
l    F for Pairwise distances 复选项，要求显示两两类之间的两两F 值矩阵。



3.Statistics对话框 指定输出的统计量如图1-6 所示：

图 1-6    Statistics 对话框

可以选择的输出统计量分为以下3 类:

(l) 描述统计量
在 Descriptives 栏中选择对原始数据的描述统计量的输出：
l  Means 复选项，可以输出各类中各自变量的均值MEAN、标准差std Dev 和各自变量总样本的均值和标准差。
l  Univariate ANOV 复选项，对各类中同一自变量均值都相等的假设进行检验，输出单变量的方差分析结果。
l  Box’s M 复选项，对各类的协方差矩阵相等的假设进行检验。如果样本足够大，表明差异不显著的p 值表明矩阵差异不明显。

(2) Function coefficients 栏：选择判别函数系数的输出形式
l  Fisherh’s 复选项，可以直接用于对新样本进行判别分类的费雪系数。对每一类给出一组系数。并给出该组中判别分数最大的观测量。
l  Unstandardized 复选项，未经标准化处理的判别系数。

(3) Matrices 栏：选择自变量的系数矩阵
l  Within-groups correlation matrix复选项，即类内相关矩阵，
它是根据在计算相关矩阵之前将各组(类)协方差矩阵平均后计算类内相关矩阵。
l   Within-groups covariance matrix复选项，即计算并显示合并类内协方差矩阵，
是将各组(类)协方差矩阵平均后计算的。区别于总协方差阵。
l   Separate-groups covariance matrices复选项，对每类输出显示一个协方差矩阵。
l   Total covariance matrix复选项，计算并显示总样本的协方差矩阵。



4.Classification 对话框指定分类参数和判别结果 如图1-7 所示

 
图 1-7    Classification 对话框

5.Save对话框,指定生成并保存在数据文件中的新变量。如图1-8 所示:

图 1-8    Save 对话框

6．选择好各选择项之后，点击“OK”按钮，提交运行Discriminant过程。

7. 如何使用spss进行数据的探索分析

一.探索分析类型
1、观察数据的分布特征：通过绘制箱锁图和茎叶图等图形，直观地反映数据的分布形式和数据的一些规律，包括考察数据中是否存在异常值等。过大或过小的数据均有可能是奇异值、影响点或错误数据。寻找异常值，并分析原因，然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大，不能真实地反映数据的总体特征。
2、正态分布检验：检验数据是否服从正态分布。很多检验能够进行的前提即总体数据分布服从正态分布。因此，检验数据是否符合正态分布，就决定了它们是否能用只对正态分布数据适用的分析方法；
3、方差齐性检验：用Levene检验比较各组数据的方差是否相等，以判定数据的离散程度是否存在差异。例如在进行独立右边的T检验之前，就需要事先确定两组数据的方差是否相同。如果通过分析发现各组数据的方差不同，还需要对数据进行方差分析，那么就需要对数据进行转换使得方差尽可能相同。Levene检验进行方差齐性检验时，不强求数据必须服从正态分布，它先计算出各个观测值减去组内均值的差，然后再通过这些差值的绝对值进行单因素方差分析。如果得到的显著性水平（Significance）小于0.05，那么就可以拒绝方差相同的假设。
二、具体操作步骤
1、打开数据文件，选择【分析】（Analyze）菜单，单击【描述统计】（Descriptive Statistics）命令下的【探索】（Explore）命令，SPSS将弹出“探索”（Explore）对话框。

2、单击【统计量】（Statistics）按钮，打开“探索：统计量（Explore：Statistics）”对话框,用户在“探索：统计量”对话框中进行选择后，单击【继续】（Continue）按钮

3、单击【绘制】（Plots）按钮，打开“探索：图”（Explore：Plots）对话框,用户在“探索：图”对话框中进行选择后，单击【继续】（Continue）按钮;


4、单击【选项】（Options）按钮，打开“探索：选项”（Explore：Options）对话框；

5、单击【确定】（OK）按钮，即可在结果输出窗口中得到探索分析过程的数据概述、基本统计描述表、极端值列表、正态分布检验、方差齐性检验、茎叶图、直方图、箱锁图、正态分布Q-Q图、离散正态分布Q-Q图等图表；


6、数据结果显示，见下图。

如何使用spss进行数据的探索分析

8. spss：得到一个多元线性回归模型之后，如何比较预测值和真实值？如何判断模型是否有预测能力

1、打开SPSS软件后点击右上角的【打开文件按钮】打开你需要分析的数据文件。

2、接下来就是开始做回归分析建立模型，研究其变化趋势，因为回归分析分为线性回归和非线性回归，分析它们的办法是不同的，所以先要把握它们的变化趋势，可以画散点图，点击【图形】---【旧对话框】---【散点/点状】。

3、选择【简单分布】，并点击【定义】。

4、在接下来的弹出框中设置x轴和y轴，然后点击确定，其他都不要管，然后得到散点图，可以看出x轴和y轴明显呈线性关系，所以接下来的回归分析就要用线性回归方法，假设图像呈曲线就需要选择曲线拟合的方法。

5、点击【分析】---【回归】---【线性】。

6、在弹出的线性回归框中设置自变量和因变量，其他的选项用默认设置即可，其他的选项只是用来更加精确地去优化模型。

7、【模型汇总表】中R表示拟合优度，值越接近1表示模型越好。至此回归分析就完成了图中的这个模型就是比较合理的。

注意事项：
SPSS注意事项：
1，数据编辑器、语法编辑器、输出查看器、脚本编辑器都可以同时打开多个。
2，关闭所有的输出查看器后，并不退出SPSS系统。数据编辑器都退出后将关闭SPSS系统。关闭所有的数据文件时并不一定退出SPSS系统。说明：仅新建一个数据文件，并没有保存，既没有生成数据文件。此时关闭其它所有已保存的数据文件时，不退出SPSS系统。
3，可以在不同的数据编辑器窗口打开同一个数据文件。对话框中提示“恢复为已保存”或“在新窗口中打开”选项。