相关性分析的概念及方法

2024-04-29

1. 相关性分析的概念及方法

相关分析就是根据一个因素（变量）与另一个因素（变量）的相关系数是否大于临界值，判断两个因素是否相关。在相关的因素之间，根据相关系数大小判断两个因素关系的密切程度，相关系数越大，说明两者关系越密切（何晓群，2002）。这种方法从总体上对问题可以有一个大致认识，但却很难在错综复杂的关系中把握现象的本质，找出哪些是主要因素，哪些是次要因素，有时甚至得出错误结论。为此，提出使用数学上的偏相关分析与逐步回归相结合的办法来解决这类问题。
偏相关性分析基本原理是，若众多因素都对某一因素都存在影响，当分析某一因素的影响大小时，把其他因素都限制在某一水平范围内，单独分析该因素对某一因素所带来的影响，从而消除其他因素带来的干扰。比如分析压实作用（或埋深）对孔隙度和渗透率的影响时，便把岩石成分、粒度、胶结类型等都限制在一定范围来单独讨论压实作用，而数学上的偏相关分析恰恰就是解决这类问题的方法，偏相关系数的大小就代表了这种影响程度。结合多因素边引入、边剔除的逐步回归分析方法，也可消除多个因素（自变量）间的相互干扰和多个因素对因变量的重复影响，保留其中的有用信息，挑选出对因变量影响较显著的因素，剔除了一些次要因素，被挑选出的主要因素的标准回归系数和偏回归平方和的大小反映了各参数对因变量（充满度）的影响大小。因此根据各因素（自变量）与因变量间的偏相关系数大小，结合标准回归系数和偏回归平方和，便可以将各因素对因变量的影响大小进行定量排序。其基本步骤如下：
第一步，找出所有可能对因变量产生影响的因素（或参数），同时对一些非数值型参数进行量化处理；
第二步，计算因变量与各参数间的简单相关系数，根据这些简单相关系数的大小，初步分析它们与因变量间的简单相关关系；
第三步，计算因变量与各参数间的偏相关系数、标准回归系数和偏回归平方和；
第四步，根据偏相关系数的大小，再结合标准回归系数和偏回归平方和，综合分析因变量与各参数间的关系密切程度，其值越大，关系越密切，影响越大，反之亦然。

2. 相关性分析有哪几种方法？

在做数据分析时，为了提炼观点，相关性分析是必不可少，而且尤为重要的一个环节。但是，对于不同类型的数据，相关性分析的方法都各不相同。本文，主要按照不同的数据类型，来对各种相关性分析方法进行梳理总结。

相关性分析是指对两个或多个具备相关性的变量元素进行分析，相关性不等于因果性。

一、离散与离散变量之间的相关性
1、卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

（1）假设，多个变量之间不相关

（2）根据假设计算得出每种情况的理论值，根据理论值与实际值的差别，计算得到卡方值 及 自由度



df=(C-1)(R-1)

（3）查卡方表，求p值

卡方值越大，P值越小，变量相关的可能性越大，当P<=0.05，否定原假设，认为变量相关。

2、信息增益 和 信息增益率

在介绍信息增益之前，先来介绍两个基础概念，信息熵和条件熵。

信息熵，就是一个随机变量的不确定性程度。



条件熵，就是在一个条件下，随机变量的不确定性。



（1）信息增益：熵 - 条件熵

在一个条件下，信息不确定性减少的程度。

Gain(Y,X)=H(Y)-H(Y|X)

信息增益越大，表示引入条件X之后，不纯度减少得越多。信息增益越大，则两个变量之间的相关性越大。

（2）信息增益率

假设，某个变量存在大量的不同值，例如ID，引入ID后，每个子节点的不纯度都为0，则信息增益减少程度达到最大。所以，当不同变量的取值数量差别很大时，引入取值多的变量，信息增益更大。因此，使用信息增益率，考虑到分支个数的影响。

Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)

二、连续与连续变量之间的相关性
1、协方差

协方差，表达了两个随机变量的协同变化关系。如果两个变量不相关，则协方差为0。

Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}

当 cov(X, Y)>0时，表明 X与Y 正相关；

当 cov(X, Y)<0时，表明X与Y负相关；

当 cov(X, Y)=0时，表明X与Y不相关。

协方差只能对两组数据进行相关性分析，当有两组以上数据时就需要使用协方差矩阵。

协方差通过数字衡量变量间的相关性，正值表示正相关，负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时，无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度，就需要使用下一个方法：相关系数。

2、线性相关系数

也叫Pearson相关系数， 主要衡量两个变量线性相关的程度。

r=cov(X,Y)/(D(X)D(Y))

相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化，而数值暴涨的情况了。

线性相关系数必须建立在因变量与自变量是线性的关系基础上，否则线性相关系数是无意义的。

三、连续与离散变量之间的相关性
1、连续变量离散化

将连续变量离散化，然后，使用离散与离散变量相关性分析的方法来分析相关性。

2、箱形图

使用画箱形图的方法，看离散变量取不同值，连续变量的均值与方差及取值分布情况。

如果，离散变量取不同值，对应的连续变量的箱形图差别不大，则说明，离散变量取不同值对连续变量的影响不大，相关性不高;反之，相关性高。

3. 相关性的分析怎么做

相关性的分析大致过程如下：
1. 画二者散点图。通过图形描述，可以初步且直观判断二者的存在何种相关关系：正相关、负相关、无关；线性相关还是非线性相关(抛物线、指数等)。
2. 若是线性关系，计算相关系数，通过r^2的大小，进一步衡量相关系数强弱。
r绝对值小于0.3，无关；0.3~0.5，弱相关；0.5~0.8，中等程度相关；0.8以上，高度相关。
3. 在线性相关的基础上，进行一元线性回归。建立回归模型
y=a+bx
计算出截距a和斜率b，就可以预测在某种搜索流量(x)下的销量(y)。

4. 相关性分析有哪些方法

问题一：用于分析相关性的数学方法有哪些  做散点图，拟合线图，回归分析，然后对散布的点做线性拟合，如果是非线性相关，可以做二阶，三阶甚至多阶拟合。线性相关的情况下，可以计算相关系数，通过相关系数来判定。 
  
   问题二：属性相关分析的方法有哪些  在机器学习、统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。属性相关分析的基本思想就是针对给定的数据集或概念，对相应属性进行计算已获得(描述属性相关性)的若干属性相关参量。 
  
   问题三：如何分析两组数据的相关性  0.014就是是sig值，小于0.05就是显著相关 
  
   问题四：如何用spss做相关性分析  偏相关 
  从菜单中选择： 
  分析 
  相关 
  偏相关... 
  选择两个或更多要为之计算偏相关的数值变量。 
  E 选择一个或多个数值控制变量。 
  还可以使用以下选项： 
  ?? 显著性检验。您可以选择双尾概率或单尾概率。如果预先已知关联的方向，请选 
  择单尾。否则，请选择双尾。 
  ?? 显示实际显著性水平。缺省情况下，将显示每个相关系数的概率和自由度。如果 
  取消选择此项，则使用单个星号标识显著性水平为0.05 的系数，使用两个星号 
  标识显著性水平为0.01 的系数，而不显示自由度。此设置同时影响偏相关矩阵 
  和零阶相关矩阵。 
  偏相关：选项 
  “偏相关性: 选项”对话框 
  统计量。可以选择以下方式中的一个或两个都选： 
  ?? 均值和标准差。为每个变量显示。还显示具有非缺失值的个案数。 
  ?? 零阶相关系数。显示所有变量（包括控制变量）之间简单相关的矩阵。 
  缺失值。您可以选择以下选项之一： 
  ?? 按列表排除个案。将从所有计算中排除其任何变量（包括控制变量）具有缺失值 
  的个案。 
  ?? 按对排除个案。对于偏相关所基于的零阶相关的计算，不使用其一对变量或其中一个 
  变量具有缺失值的个案。按对删除可以充分使用数据。但是，个案数可能随系数的 
  不同而不同。如果按对删除有效，则某个特定的偏相关系数的自由度是基于在任何 
  零阶相关计算中使用的最小个案数。 
  
   问题五：常用的数据分析方法有哪些 对比分析法  1、聚类分析（Cluster Analysis） 
  聚类分析指将物理或抽象对象的 *** 分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。 
  2、因子分析（Factor Analysis） 
  因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系，减少决策的困难。 
  因子分析的方法约有10多种，如重心法、影像分析法，最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法，是以相关系数矩阵为基础的，所不同的是相关系数矩阵对角线上的值，采用不同的共同性□2估值。在社会学研究中，因子分析常采用以主成分分析为基础的反覆法。 
  3、相关分析（Correlation Analysis） 
  相关分析（correlation *** ysis），相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系，例如，以X和Y分别记一个人的身高和体重，或分别记每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系。 
  4、对应分析（Correspondence Analysis） 
  对应分析(Correspondence *** ysis)也称关联分析、R-Q型因子分析，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。 
  5、回归分析 
  研究一个随机变量Y对另一个(X)或一组(X1，X2，…，Xk)变量的相依关系的统计分析方法。回归分析（regression *** ysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。 
  6、方差分析(ANOVA/Analysis of Variance) 
  又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。这个 还需要具体问题具体分析 
  
   问题六：用EXCEL作的相关性分析数据,不知怎么分析? 5分 打开原始数据表格，制作本实例的原始数据需要满足两组或两组以上的数据，结果将给出其中任意两项的相关系数 
  2、选择“工具”-“数据分析”-“描述统计”后，出现属性设置框，依次选择 
  输入区域:选择数据区域，注意需要满足至少两组数据。如果有储据标志，注意同时勾选下方“标志位于第一行”； 
  分组方式:指示输入区域中的数据是按行还是按列考虑，请根据原数据格式选择； 输出区域可以选择本表、新工作表组或是新工作簿； 
  3、点击“确定”即可看到生成的报表。 
  
   问题七：kendall 和spearman三种相关分析方法的区别  在SPSS软件相关分析中,pearson(皮尔逊), kendall（肯德尔）和spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同 两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数，但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式，但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格； 计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。 计算相关系数：当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用 spearman或kendall相关 Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项 等级相关 计算分类变量间的秩相关，适用于合并等级资料 Spearman 复选项 等级相关计算斯皮尔曼相关，适用于连续等级资料 注： 1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关，对于完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的，故用Pearson分析方法。 在SPSS里进入Correlate－》Bivariate，在变量下面Correlation Coefficients复选框组里有3个选项： Pearson Kendall's tau-b Spearman：Spearman spearman（斯伯曼/斯皮尔曼）相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法” 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。 Kendall's相关系数 肯德尔(Kendall)W系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序，最小的......>> 
  
   问题八：Pearson，Kendall和Spearman三种相关分析方法的异同  在SPSS软件相关分析中,pearson(皮尔逊), kendall（肯德尔）和spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同 
  两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述. 
  Spearman相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数，但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式，但公式中的x和y用相应的秩次代替即可。 
  Kendall's tau-b等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格； 
  计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。 
  计算相关系数：当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用 spearman或kendall相关 
  Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析 
  Kendall 复选项 等级相关 计算分类变量间的秩相关，适用于合并等级资料 
  Spearman 复选项 等级相关计算斯皮尔曼相关，适用于连续等级资料 
  注： 
  1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关，对于完全等级离散变量必用等级相关 
  2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 
  3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的，故用Pearson分析方法。 
  在SPSS里进入Correlate－》Bivariate，在变量下面Correlation Coefficients复选框组里有3个选项： 
  Pearson 
  Kendall's tau-b 
  Spearman：Spearman 
  spearman（斯伯曼/斯皮尔曼）相关系数 
  斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法” 
  斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。 
  Kendall's相关系数 
  肯德尔(Kendall)W系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序，最小的......>> 
  
   问题九：怎么选择相关性分析模型 20分 选择相关性分析模型的方法： 
  1、看数穿类型和因变量的个数，多个因变量的用路径分析和结构方程，一个因变量的。 
  2、看数据类型，连续型的数据用线性和非线性，分类型的用逻辑回归，时间序列的用时间序列分析。 
  相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性，也不是简单的个性化，相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面，相关性在不同的学科里面的定义也有很大的差异。

5. 相关性分析的介绍

相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性，也不是简单的个性化，相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面，相关性在不同的学科里面的定义也有很大的差异。下面简单介绍常见的几种相关性分析。

6. 相关性分析的影响因素

域名现 在我们使用的域名一般是英文域名，当我们使用汉语拼音进行搜索的时候，域名对网站相关性的影响是显而易见的，那么搜索引擎这台机器会考虑那么多吗？答案是：会的。当然你应该比搜索引擎考虑的更多。二级域名相对而言二级域名比较独立，需要像对待一个新站一样，但是二级域名可以让搜索引擎分辨你不同的主题，做的好做的多对主站的权重、网站的相关性等方面影响是很大的，在搜索引擎中子域名与主域名是作为分离的、独立的域来对待的，因此子域间的链接、子域与主域的链接在某种意义上相当于来自外部网站的链接，但是二级域名也需要考虑对关键词的影响和和网站的相关性等因素。二级目录其实这里二级目录和二级域名还是有一定的差距的，在主域名下面添加二级目录可以增加主域名的权重，而不会分散权重效果，增加内容的相关性。相关网站主要表现在相关网站的链接交换和外链的建设对网站相关性的影响。网站内容网站所添加的内容要与网站本身具备一定的相关性，根据这个主题为网站添加相关的内容，这就是网站相关性的重要表现之一。需要说的是不同的行业网站的内容和数量都有较大的差异。网站内容对网站相关性的影响不是说原创还是伪原创，当然原创的更好，而是说网站内容与网站主题的相关性如何，与网站主题相关的页面的多少。网站内容网站内容与网站内容之间的内部链接、关键词策略等等因素相结合不光可以方便PR值的传递还可以帮助新页面收录并且提高页面的相关性。外链与网站外链页面与网站页面相关性越强搜索引擎就越能够分析该页面传递的关键字相关性是什么，进而提升网站相关性。网站内联内联相关性主要表现在文章、文本最好和相关的文章、相关关键词或者相关栏目进行相互连接，主要是为了方面用户的阅读，可以增加网站浏览量和用户停留时间，同时有利于搜索引擎对其他相关网站文章的抓取，提高搜索引擎在站内的爬行速度和抓取速度，更有利于网站相关性的提升。但是千万别迷路了。网站外联外链无论相关内容是在哪里投放的，最好是和网站主题相关，这样可以非常好的提升我们网站的相关性权重继承大多数站长都养过资源站，都曾有购买过有pr的域名，但如果域名前后网站类型不具备相关性，那么权重是不会得到继承的，如果网站类型不想管但之前的站和将要做的新站的关键词在网站的标题中出现交叉虽然能继承但难度很大，所以最好购买同行业网站相关性强的域名，再通过路径恢复实现权重的继承。关键词搜索引擎喜欢网站围绕一个核心进行逐一展开，从而方便自己的程序爬取，这也是为综合性网站建立资源站的时候，大部分站长选择用主站的一个点进行建站优化，这其中关键词对网站相关性的影响是很不容忽视的。其实与网站相关性联系密切的关键词也是不断扩展不断延伸的，顺序一般是核心关键词进而目标关键词最后是长尾关键词，而反过来无论顺序是什么都对网站相关性有很大影响。搜索引擎排名搜索引擎的算法直接影响网站相关性的判定，进而影响网站排名，搜索引擎排名算法包含很多因素，包括匹配搜索请求内容所在网页的位置，网页的权威性，搜索请求中的词语在网页上的密度和彼此的接近程度等都会直接影响网站相关性搜索结果。

7. 相关性分析有哪些方法?

问题一：用于分析相关性的数学方法有哪些  做散点图，拟合线图，回归分析，然后对散布的点做线性拟合，如果是非线性相关，可以做二阶，三阶甚至多阶拟合。线性相关的情况下，可以计算相关系数，通过相关系数来判定。 
  
   问题二：属性相关分析的方法有哪些  在机器学习、统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。属性相关分析的基本思想就是针对给定的数据集或概念，对相应属性进行计算已获得(描述属性相关性)的若干属性相关参量。 
  
   问题三：如何分析两组数据的相关性  0.014就是是sig值，小于0.05就是显著相关 
  
   问题四：如何用spss做相关性分析  偏相关 
  从菜单中选择： 
  分析 
  相关 
  偏相关... 
  选择两个或更多要为之计算偏相关的数值变量。 
  E 选择一个或多个数值控制变量。 
  还可以使用以下选项： 
  ?? 显著性检验。您可以选择双尾概率或单尾概率。如果预先已知关联的方向，请选 
  择单尾。否则，请选择双尾。 
  ?? 显示实际显著性水平。缺省情况下，将显示每个相关系数的概率和自由度。如果 
  取消选择此项，则使用单个星号标识显著性水平为0.05 的系数，使用两个星号 
  标识显著性水平为0.01 的系数，而不显示自由度。此设置同时影响偏相关矩阵 
  和零阶相关矩阵。 
  偏相关：选项 
  “偏相关性: 选项”对话框 
  统计量。可以选择以下方式中的一个或两个都选： 
  ?? 均值和标准差。为每个变量显示。还显示具有非缺失值的个案数。 
  ?? 零阶相关系数。显示所有变量（包括控制变量）之间简单相关的矩阵。 
  缺失值。您可以选择以下选项之一： 
  ?? 按列表排除个案。将从所有计算中排除其任何变量（包括控制变量）具有缺失值 
  的个案。 
  ?? 按对排除个案。对于偏相关所基于的零阶相关的计算，不使用其一对变量或其中一个 
  变量具有缺失值的个案。按对删除可以充分使用数据。但是，个案数可能随系数的 
  不同而不同。如果按对删除有效，则某个特定的偏相关系数的自由度是基于在任何 
  零阶相关计算中使用的最小个案数。 
  
   问题五：常用的数据分析方法有哪些 对比分析法  1、聚类分析（Cluster Analysis） 
  聚类分析指将物理或抽象对象的 *** 分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。 
  2、因子分析（Factor Analysis） 
  因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系，减少决策的困难。 
  因子分析的方法约有10多种，如重心法、影像分析法，最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法，是以相关系数矩阵为基础的，所不同的是相关系数矩阵对角线上的值，采用不同的共同性□2估值。在社会学研究中，因子分析常采用以主成分分析为基础的反覆法。 
  3、相关分析（Correlation Analysis） 
  相关分析（correlation *** ysis），相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系，例如，以X和Y分别记一个人的身高和体重，或分别记每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系。 
  4、对应分析（Correspondence Analysis） 
  对应分析(Correspondence *** ysis)也称关联分析、R-Q型因子分析，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。 
  5、回归分析 
  研究一个随机变量Y对另一个(X)或一组(X1，X2，…，Xk)变量的相依关系的统计分析方法。回归分析（regression *** ysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。 
  6、方差分析(ANOVA/Analysis of Variance) 
  又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。这个 还需要具体问题具体分析 
  
   问题六：用EXCEL作的相关性分析数据,不知怎么分析? 5分 打开原始数据表格，制作本实例的原始数据需要满足两组或两组以上的数据，结果将给出其中任意两项的相关系数 
  2、选择“工具”-“数据分析”-“描述统计”后，出现属性设置框，依次选择 
  输入区域:选择数据区域，注意需要满足至少两组数据。如果有储据标志，注意同时勾选下方“标志位于第一行”； 
  分组方式:指示输入区域中的数据是按行还是按列考虑，请根据原数据格式选择； 输出区域可以选择本表、新工作表组或是新工作簿； 
  3、点击“确定”即可看到生成的报表。 
  
   问题七：kendall 和spearman三种相关分析方法的区别  在SPSS软件相关分析中,pearson(皮尔逊), kendall（肯德尔）和spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同 两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数，但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式，但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格； 计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。 计算相关系数：当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用 spearman或kendall相关 Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项 等级相关 计算分类变量间的秩相关，适用于合并等级资料 Spearman 复选项 等级相关计算斯皮尔曼相关，适用于连续等级资料 注： 1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关，对于完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的，故用Pearson分析方法。 在SPSS里进入Correlate－》Bivariate，在变量下面Correlation Coefficients复选框组里有3个选项： Pearson Kendall's tau-b Spearman：Spearman spearman（斯伯曼/斯皮尔曼）相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法” 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。 Kendall's相关系数 肯德尔(Kendall)W系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序，最小的......>> 
  
   问题八：Pearson，Kendall和Spearman三种相关分析方法的异同  在SPSS软件相关分析中,pearson(皮尔逊), kendall（肯德尔）和spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同 
  两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述. 
  Spearman相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数，但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式，但公式中的x和y用相应的秩次代替即可。 
  Kendall's tau-b等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格； 
  计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。 
  计算相关系数：当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用 spearman或kendall相关 
  Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析 
  Kendall 复选项 等级相关 计算分类变量间的秩相关，适用于合并等级资料 
  Spearman 复选项 等级相关计算斯皮尔曼相关，适用于连续等级资料 
  注： 
  1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关，对于完全等级离散变量必用等级相关 
  2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 
  3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的，故用Pearson分析方法。 
  在SPSS里进入Correlate－》Bivariate，在变量下面Correlation Coefficients复选框组里有3个选项： 
  Pearson 
  Kendall's tau-b 
  Spearman：Spearman 
  spearman（斯伯曼/斯皮尔曼）相关系数 
  斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法” 
  斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。 
  Kendall's相关系数 
  肯德尔(Kendall)W系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序，最小的......>> 
  
   问题九：怎么选择相关性分析模型 20分 选择相关性分析模型的方法： 
  1、看数穿类型和因变量的个数，多个因变量的用路径分析和结构方程，一个因变量的。 
  2、看数据类型，连续型的数据用线性和非线性，分类型的用逻辑回归，时间序列的用时间序列分析。 
  相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性，也不是简单的个性化，相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面，相关性在不同的学科里面的定义也有很大的差异。

8. 相关性分析

 在我们进行数据处理时，相关性分析是我们最常使用的分析方法之一。相关性，即衡量二个特征或者两个变量之间的关联程度。两个变量的相关关系意味着二者之间存在着某种数学关系。我们并不知道两个变量之间是否存在着 实际关系 通常我们计算的是两个特征的数组之间的相关系数。我们常用的相关性计算方法有哪些呢？
   Pearson correlation coefficient:用于检测两个变量是否线性相关，要求数据需来自于正态分布的总。相关系数在[-1,1]之间        cov(X,Y)协方差  （δX*δY） 二者标准差的乘积。   常规相关等级如下：   r = 0                       二者完全不相关   0<|r|<=0.3               弱相关   0.3<|r|<=0.5            中等相关   0.5<|r|<=0.8            显著相关   0.8<|r|<=1               强相关   皮尔森相关系数适用范围：   适用于服从正态分布的两连续型变量，可绘制散点图，发现有线性趋势之后，进而计算Pearson相关系数，以此描述两变量的线性相关性。
   Spearman 相关评估两个连续或顺序变量之间的单调关系。在单调关系中，变量倾向于同时变化，但不一定以恒定的速率变化。Spearman 相关系数基于每个变量的秩值（而非原始数据）。Spearman 相关通常用于评估与顺序变量相关的关系。        优势：
   Kendall's tau-b（肯德尔）等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在[-1,1]之间，此检验适合于正方形表格。   kendall tau coefficent defined:        from  MBA智库-Kendall等级相关系数    使用试剂：肯德尔等级相关系数是用以反应两组变量之间关系密切程度的统计指标。   （用的较少，后续再补充）   一般的都可以使用pearson和Spearman相关系数解决。
   进行机器学习特征筛选时，经常使用到的方法就有最大互信息系数。   最大信息系数（MIC）于 2011 年提出，它是用于检测变量之间非线性相关性的最新方法。用于进行 MIC 计算的算法将信息论和概率的概念应用于连续型数据。   MIC 能够表示各种线性和非线性的关系，并已得到广泛应用。它的值域在 0 和 1 之间，值越高表示相关性越强。   见参考资料《最大信息系数》
   更多的需要学习(任重而道远啊，。。。。。）
                                            三大相关系数     斯皮尔曼相关系数     线性系数，斯皮尔曼相关性系数计算及详解     肯德尔等级相关系数     最大信息系数