相关性分析有哪几种方法？

2024-04-29

1. 相关性分析有哪几种方法？

在做数据分析时，为了提炼观点，相关性分析是必不可少，而且尤为重要的一个环节。但是，对于不同类型的数据，相关性分析的方法都各不相同。本文，主要按照不同的数据类型，来对各种相关性分析方法进行梳理总结。

相关性分析是指对两个或多个具备相关性的变量元素进行分析，相关性不等于因果性。

一、离散与离散变量之间的相关性
1、卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

（1）假设，多个变量之间不相关

（2）根据假设计算得出每种情况的理论值，根据理论值与实际值的差别，计算得到卡方值 及 自由度



df=(C-1)(R-1)

（3）查卡方表，求p值

卡方值越大，P值越小，变量相关的可能性越大，当P<=0.05，否定原假设，认为变量相关。

2、信息增益 和 信息增益率

在介绍信息增益之前，先来介绍两个基础概念，信息熵和条件熵。

信息熵，就是一个随机变量的不确定性程度。



条件熵，就是在一个条件下，随机变量的不确定性。



（1）信息增益：熵 - 条件熵

在一个条件下，信息不确定性减少的程度。

Gain(Y,X)=H(Y)-H(Y|X)

信息增益越大，表示引入条件X之后，不纯度减少得越多。信息增益越大，则两个变量之间的相关性越大。

（2）信息增益率

假设，某个变量存在大量的不同值，例如ID，引入ID后，每个子节点的不纯度都为0，则信息增益减少程度达到最大。所以，当不同变量的取值数量差别很大时，引入取值多的变量，信息增益更大。因此，使用信息增益率，考虑到分支个数的影响。

Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)

二、连续与连续变量之间的相关性
1、协方差

协方差，表达了两个随机变量的协同变化关系。如果两个变量不相关，则协方差为0。

Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}

当 cov(X, Y)>0时，表明 X与Y 正相关；

当 cov(X, Y)<0时，表明X与Y负相关；

当 cov(X, Y)=0时，表明X与Y不相关。

协方差只能对两组数据进行相关性分析，当有两组以上数据时就需要使用协方差矩阵。

协方差通过数字衡量变量间的相关性，正值表示正相关，负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时，无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度，就需要使用下一个方法：相关系数。

2、线性相关系数

也叫Pearson相关系数， 主要衡量两个变量线性相关的程度。

r=cov(X,Y)/(D(X)D(Y))

相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化，而数值暴涨的情况了。

线性相关系数必须建立在因变量与自变量是线性的关系基础上，否则线性相关系数是无意义的。

三、连续与离散变量之间的相关性
1、连续变量离散化

将连续变量离散化，然后，使用离散与离散变量相关性分析的方法来分析相关性。

2、箱形图

使用画箱形图的方法，看离散变量取不同值，连续变量的均值与方差及取值分布情况。

如果，离散变量取不同值，对应的连续变量的箱形图差别不大，则说明，离散变量取不同值对连续变量的影响不大，相关性不高;反之，相关性高。

2. 相关性分析有哪些方法

问题一：用于分析相关性的数学方法有哪些  做散点图，拟合线图，回归分析，然后对散布的点做线性拟合，如果是非线性相关，可以做二阶，三阶甚至多阶拟合。线性相关的情况下，可以计算相关系数，通过相关系数来判定。 
  
   问题二：属性相关分析的方法有哪些  在机器学习、统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。属性相关分析的基本思想就是针对给定的数据集或概念，对相应属性进行计算已获得(描述属性相关性)的若干属性相关参量。 
  
   问题三：如何分析两组数据的相关性  0.014就是是sig值，小于0.05就是显著相关 
  
   问题四：如何用spss做相关性分析  偏相关 
  从菜单中选择： 
  分析 
  相关 
  偏相关... 
  选择两个或更多要为之计算偏相关的数值变量。 
  E 选择一个或多个数值控制变量。 
  还可以使用以下选项： 
  ?? 显著性检验。您可以选择双尾概率或单尾概率。如果预先已知关联的方向，请选 
  择单尾。否则，请选择双尾。 
  ?? 显示实际显著性水平。缺省情况下，将显示每个相关系数的概率和自由度。如果 
  取消选择此项，则使用单个星号标识显著性水平为0.05 的系数，使用两个星号 
  标识显著性水平为0.01 的系数，而不显示自由度。此设置同时影响偏相关矩阵 
  和零阶相关矩阵。 
  偏相关：选项 
  “偏相关性: 选项”对话框 
  统计量。可以选择以下方式中的一个或两个都选： 
  ?? 均值和标准差。为每个变量显示。还显示具有非缺失值的个案数。 
  ?? 零阶相关系数。显示所有变量（包括控制变量）之间简单相关的矩阵。 
  缺失值。您可以选择以下选项之一： 
  ?? 按列表排除个案。将从所有计算中排除其任何变量（包括控制变量）具有缺失值 
  的个案。 
  ?? 按对排除个案。对于偏相关所基于的零阶相关的计算，不使用其一对变量或其中一个 
  变量具有缺失值的个案。按对删除可以充分使用数据。但是，个案数可能随系数的 
  不同而不同。如果按对删除有效，则某个特定的偏相关系数的自由度是基于在任何 
  零阶相关计算中使用的最小个案数。 
  
   问题五：常用的数据分析方法有哪些 对比分析法  1、聚类分析（Cluster Analysis） 
  聚类分析指将物理或抽象对象的 *** 分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。 
  2、因子分析（Factor Analysis） 
  因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系，减少决策的困难。 
  因子分析的方法约有10多种，如重心法、影像分析法，最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法，是以相关系数矩阵为基础的，所不同的是相关系数矩阵对角线上的值，采用不同的共同性□2估值。在社会学研究中，因子分析常采用以主成分分析为基础的反覆法。 
  3、相关分析（Correlation Analysis） 
  相关分析（correlation *** ysis），相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系，例如，以X和Y分别记一个人的身高和体重，或分别记每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系。 
  4、对应分析（Correspondence Analysis） 
  对应分析(Correspondence *** ysis)也称关联分析、R-Q型因子分析，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。 
  5、回归分析 
  研究一个随机变量Y对另一个(X)或一组(X1，X2，…，Xk)变量的相依关系的统计分析方法。回归分析（regression *** ysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。 
  6、方差分析(ANOVA/Analysis of Variance) 
  又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。这个 还需要具体问题具体分析 
  
   问题六：用EXCEL作的相关性分析数据,不知怎么分析? 5分 打开原始数据表格，制作本实例的原始数据需要满足两组或两组以上的数据，结果将给出其中任意两项的相关系数 
  2、选择“工具”-“数据分析”-“描述统计”后，出现属性设置框，依次选择 
  输入区域:选择数据区域，注意需要满足至少两组数据。如果有储据标志，注意同时勾选下方“标志位于第一行”； 
  分组方式:指示输入区域中的数据是按行还是按列考虑，请根据原数据格式选择； 输出区域可以选择本表、新工作表组或是新工作簿； 
  3、点击“确定”即可看到生成的报表。 
  
   问题七：kendall 和spearman三种相关分析方法的区别  在SPSS软件相关分析中,pearson(皮尔逊), kendall（肯德尔）和spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同 两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数，但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式，但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格； 计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。 计算相关系数：当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用 spearman或kendall相关 Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项 等级相关 计算分类变量间的秩相关，适用于合并等级资料 Spearman 复选项 等级相关计算斯皮尔曼相关，适用于连续等级资料 注： 1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关，对于完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的，故用Pearson分析方法。 在SPSS里进入Correlate－》Bivariate，在变量下面Correlation Coefficients复选框组里有3个选项： Pearson Kendall's tau-b Spearman：Spearman spearman（斯伯曼/斯皮尔曼）相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法” 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。 Kendall's相关系数 肯德尔(Kendall)W系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序，最小的......>> 
  
   问题八：Pearson，Kendall和Spearman三种相关分析方法的异同  在SPSS软件相关分析中,pearson(皮尔逊), kendall（肯德尔）和spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同 
  两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述. 
  Spearman相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数，但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式，但公式中的x和y用相应的秩次代替即可。 
  Kendall's tau-b等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格； 
  计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。 
  计算相关系数：当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用 spearman或kendall相关 
  Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析 
  Kendall 复选项 等级相关 计算分类变量间的秩相关，适用于合并等级资料 
  Spearman 复选项 等级相关计算斯皮尔曼相关，适用于连续等级资料 
  注： 
  1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关，对于完全等级离散变量必用等级相关 
  2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 
  3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的，故用Pearson分析方法。 
  在SPSS里进入Correlate－》Bivariate，在变量下面Correlation Coefficients复选框组里有3个选项： 
  Pearson 
  Kendall's tau-b 
  Spearman：Spearman 
  spearman（斯伯曼/斯皮尔曼）相关系数 
  斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法” 
  斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。 
  Kendall's相关系数 
  肯德尔(Kendall)W系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序，最小的......>> 
  
   问题九：怎么选择相关性分析模型 20分 选择相关性分析模型的方法： 
  1、看数穿类型和因变量的个数，多个因变量的用路径分析和结构方程，一个因变量的。 
  2、看数据类型，连续型的数据用线性和非线性，分类型的用逻辑回归，时间序列的用时间序列分析。 
  相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性，也不是简单的个性化，相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面，相关性在不同的学科里面的定义也有很大的差异。

3. 相关性分析有哪些方法?

问题一：用于分析相关性的数学方法有哪些  做散点图，拟合线图，回归分析，然后对散布的点做线性拟合，如果是非线性相关，可以做二阶，三阶甚至多阶拟合。线性相关的情况下，可以计算相关系数，通过相关系数来判定。 
  
   问题二：属性相关分析的方法有哪些  在机器学习、统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。属性相关分析的基本思想就是针对给定的数据集或概念，对相应属性进行计算已获得(描述属性相关性)的若干属性相关参量。 
  
   问题三：如何分析两组数据的相关性  0.014就是是sig值，小于0.05就是显著相关 
  
   问题四：如何用spss做相关性分析  偏相关 
  从菜单中选择： 
  分析 
  相关 
  偏相关... 
  选择两个或更多要为之计算偏相关的数值变量。 
  E 选择一个或多个数值控制变量。 
  还可以使用以下选项： 
  ?? 显著性检验。您可以选择双尾概率或单尾概率。如果预先已知关联的方向，请选 
  择单尾。否则，请选择双尾。 
  ?? 显示实际显著性水平。缺省情况下，将显示每个相关系数的概率和自由度。如果 
  取消选择此项，则使用单个星号标识显著性水平为0.05 的系数，使用两个星号 
  标识显著性水平为0.01 的系数，而不显示自由度。此设置同时影响偏相关矩阵 
  和零阶相关矩阵。 
  偏相关：选项 
  “偏相关性: 选项”对话框 
  统计量。可以选择以下方式中的一个或两个都选： 
  ?? 均值和标准差。为每个变量显示。还显示具有非缺失值的个案数。 
  ?? 零阶相关系数。显示所有变量（包括控制变量）之间简单相关的矩阵。 
  缺失值。您可以选择以下选项之一： 
  ?? 按列表排除个案。将从所有计算中排除其任何变量（包括控制变量）具有缺失值 
  的个案。 
  ?? 按对排除个案。对于偏相关所基于的零阶相关的计算，不使用其一对变量或其中一个 
  变量具有缺失值的个案。按对删除可以充分使用数据。但是，个案数可能随系数的 
  不同而不同。如果按对删除有效，则某个特定的偏相关系数的自由度是基于在任何 
  零阶相关计算中使用的最小个案数。 
  
   问题五：常用的数据分析方法有哪些 对比分析法  1、聚类分析（Cluster Analysis） 
  聚类分析指将物理或抽象对象的 *** 分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。 
  2、因子分析（Factor Analysis） 
  因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系，减少决策的困难。 
  因子分析的方法约有10多种，如重心法、影像分析法，最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法，是以相关系数矩阵为基础的，所不同的是相关系数矩阵对角线上的值，采用不同的共同性□2估值。在社会学研究中，因子分析常采用以主成分分析为基础的反覆法。 
  3、相关分析（Correlation Analysis） 
  相关分析（correlation *** ysis），相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系，例如，以X和Y分别记一个人的身高和体重，或分别记每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系。 
  4、对应分析（Correspondence Analysis） 
  对应分析(Correspondence *** ysis)也称关联分析、R-Q型因子分析，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。 
  5、回归分析 
  研究一个随机变量Y对另一个(X)或一组(X1，X2，…，Xk)变量的相依关系的统计分析方法。回归分析（regression *** ysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。 
  6、方差分析(ANOVA/Analysis of Variance) 
  又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。这个 还需要具体问题具体分析 
  
   问题六：用EXCEL作的相关性分析数据,不知怎么分析? 5分 打开原始数据表格，制作本实例的原始数据需要满足两组或两组以上的数据，结果将给出其中任意两项的相关系数 
  2、选择“工具”-“数据分析”-“描述统计”后，出现属性设置框，依次选择 
  输入区域:选择数据区域，注意需要满足至少两组数据。如果有储据标志，注意同时勾选下方“标志位于第一行”； 
  分组方式:指示输入区域中的数据是按行还是按列考虑，请根据原数据格式选择； 输出区域可以选择本表、新工作表组或是新工作簿； 
  3、点击“确定”即可看到生成的报表。 
  
   问题七：kendall 和spearman三种相关分析方法的区别  在SPSS软件相关分析中,pearson(皮尔逊), kendall（肯德尔）和spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同 两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数，但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式，但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格； 计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。 计算相关系数：当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用 spearman或kendall相关 Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项 等级相关 计算分类变量间的秩相关，适用于合并等级资料 Spearman 复选项 等级相关计算斯皮尔曼相关，适用于连续等级资料 注： 1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关，对于完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的，故用Pearson分析方法。 在SPSS里进入Correlate－》Bivariate，在变量下面Correlation Coefficients复选框组里有3个选项： Pearson Kendall's tau-b Spearman：Spearman spearman（斯伯曼/斯皮尔曼）相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法” 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。 Kendall's相关系数 肯德尔(Kendall)W系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序，最小的......>> 
  
   问题八：Pearson，Kendall和Spearman三种相关分析方法的异同  在SPSS软件相关分析中,pearson(皮尔逊), kendall（肯德尔）和spearman（斯伯曼/斯皮尔曼）三种相关分析方法有什么异同 
  两个连续变量间呈线性相关时，使用Pearson积差相关系数，不满足积差相关分析的适用条件时，使用Spearman秩相关系数来描述. 
  Spearman相关系数又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数，但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式，但公式中的x和y用相应的秩次代替即可。 
  Kendall's tau-b等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1之间，此检验适合于正方形表格； 
  计算积距pearson相关系数，连续性变量才可采用;计算Spearman秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数，适合于定序变量或不满足正态分布假设的等间隔数据。 
  计算相关系数：当资料不服从双变量正态分布或总体分布未知，或原始数据用等级表示时，宜用 spearman或kendall相关 
  Pearson 相关复选项 积差相关计算连续变量或是等间距测度的变量间的相关分析 
  Kendall 复选项 等级相关 计算分类变量间的秩相关，适用于合并等级资料 
  Spearman 复选项 等级相关计算斯皮尔曼相关，适用于连续等级资料 
  注： 
  1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关，对于完全等级离散变量必用等级相关 
  2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 
  3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用，可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的，故用Pearson分析方法。 
  在SPSS里进入Correlate－》Bivariate，在变量下面Correlation Coefficients复选框组里有3个选项： 
  Pearson 
  Kendall's tau-b 
  Spearman：Spearman 
  spearman（斯伯曼/斯皮尔曼）相关系数 
  斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法” 
  斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。 
  Kendall's相关系数 
  肯德尔(Kendall)W系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K个评委（被试）评定N件事物，或1个评委（被试）先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序，最小的......>> 
  
   问题九：怎么选择相关性分析模型 20分 选择相关性分析模型的方法： 
  1、看数穿类型和因变量的个数，多个因变量的用路径分析和结构方程，一个因变量的。 
  2、看数据类型，连续型的数据用线性和非线性，分类型的用逻辑回归，时间序列的用时间序列分析。 
  相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性，也不是简单的个性化，相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面，相关性在不同的学科里面的定义也有很大的差异。

4. 相关性分析的介绍

相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性，也不是简单的个性化，相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面，相关性在不同的学科里面的定义也有很大的差异。下面简单介绍常见的几种相关性分析。

5. 相关性分析方法与原则

（一）相关性分析方法
相关分析是对所抽查分等单元的三个等指数和对应该单元单位面积一年内的作物标准粮实际产量进行回归分析。
海南耕地的标准耕作制度为一年两熟制，所采用的分等单元标准粮实际产量公式为：标准粮=作物 1 单产 × 作物 1 产量比系数＋作物 2 单产 × 作物 2 产量比系数。对于自然质量等指数、利用等指数、经济等指数与实际标准粮产量的关系采用以省或县（市）为单位从分布上进行整体线性回归分析。
（二）相关性分析原则
（1）以标准耕作制度二级区或二级区内的典型单位，如省或县（市）为单位，抽查分等单元。
（2）所抽查的分等单元应有代表性与差异性，能够反映不同地形地貌、土壤、区位、灌排设施和经济发展水平条件的差异。
（3）一般情况下，每个等别应至少抽查 10% 的分等单元，如果个别分等单元数量少且没有代表性，可以低于该比例，甚至不抽查。
（4）作物实际单产应以前三年正常年景的平均产量为基础。
（5）每个二级区或典型县所选分等单元数量不能低于统计学相关分析中样本数量的最低比例要求。

6. 相关性的分析怎么做

相关性的分析大致过程如下：
1. 画二者散点图。通过图形描述，可以初步且直观判断二者的存在何种相关关系：正相关、负相关、无关；线性相关还是非线性相关(抛物线、指数等)。
2. 若是线性关系，计算相关系数，通过r^2的大小，进一步衡量相关系数强弱。
r绝对值小于0.3，无关；0.3~0.5，弱相关；0.5~0.8，中等程度相关；0.8以上，高度相关。
3. 在线性相关的基础上，进行一元线性回归。建立回归模型
y=a+bx
计算出截距a和斜率b，就可以预测在某种搜索流量(x)下的销量(y)。

7. 什么是相关性分析

问题一：什么是属性相关分析  采用属性相关分析方法，以帮助滤去统计无关或弱相关的属性并保留(与挖掘任务)最相关的属性。包含属性(维)相关分析的定性概念描述就称为分析定性概念描述( *** ytical characterization )。包含属性(维)相关分析的对比定性概念描述也就称为分析对比定性概念描述( *** ytical parison). 
  直观上讲，若一个属性(维)的取值可以帮助有效地区分不同类别的数据集(class，那么这个属性(维)就被认为是与相应类别数据集密切相关的。例如:一个汽车的颜色不太可能用于区分贵贱汽车(类别);但是汽车的型号、品牌、风格可能是更相关的属性。此外即使同一个属性(维)，其不同抽象层次的概念对不同类别数据集的分辨能力也不同。例如:在出生日期(birth date)维中，birth day和birth month都不太可能与雇员的工资相关;而只有birth decade(年龄)可能与雇员的工资相关。这也就意味着属性(维)相关分析应该在多层次抽象水平上进行，只有最相关的那个层次的属性(维)应被包含到数据分析中。 
  
   问题二：相关性分析与实证研究的关系是什么?  实证研究是研究方法的一种大类，相应的有规范性研究。 
  实证性研究是通过对研究对象大量的观察、实验和调查，获取客观材料，从个别到一般，归纳出事物的本质属性和发展规律的一种研究方法。方法包括观察法、谈话法、测验法、个案法、实验法。 
  而相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。（来自百度百科） 
  好比说，实证研究是你的战略，而相关分析就是你的战术。实证研究意思就是你才用以上的几种方法来收集数据，而相关分析方法是通过计算收集的数据来了解变量之间的关系。 
  实证研究中了解变量的关系很经常用到相关性分析的，做了相关性分析之后还可以做回归分析，调节效应分析等。 
  
   问题三：相关性是什么意思呢？  同学你好，很高兴为您解答！ 
  相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性，也不是简单的个性化，相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面，相关性在不同的学科里面的定义也有很大的差异。下面简单介绍常见的几种相关性分析。 
  希望高顿网校的回答能帮助您解决问题，会计硕士问题欢迎提交给高顿企业知道。 
  高顿祝您生活愉快！ 
  
   问题四：相关分析  这是一个两个变量之间的相关性分析结果。 
  使用的参数是Pearson指数。 
  Pearson correlation是一个相关系数，它指出了两个变量之间相关的亲密程度和方向。这个数值的绝对值越大越说明两个变量的关系越亲密，它的绝对值为0-1之间。在你的分析结果中，这个数值的绝对值为 0.622，说明检验的两个变量之间相关亲密程度比较强。如果这个绝对值  问题五：相关分析与回归分析的联系与区别是什么？详细点的，高手来  回归分析与相关分析的联系：研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题，需进行直线相关和回归分析。从研究的目的来说，若仅仅为了了解两变量之间呈直线关系的密切程度和方向，宜选用线性相关分析；若仅仅为了建立由自变量推算因变量的直线回归方程，宜选用直线回供分析。 
  从资料所具备的条件来说，作相关分析时要求两变量都是随机变量（如：人的身长与体重、血硒与发硒）；作回归分析时要求因变量是随机变量，自变量可以是随机的，也可以是一般变量(即可以事先指定变量的取值，如：用药的剂量)。 
  在统计学教科书中习惯把相关与回归分开论述，其实在应用时，当两变量都是随机变量时，常需同时给出这两种方法分析的结果；另外，若用计算器实现统计分析，可用对相关系数的检验取代对回归系数的检验,这样到了化繁为简的目的。 
  回归分析和相关分析都是研究变量间关系的统计学课题，它们的差别主要是： 
  1、在回归分析中，y被称为因变量，处在被解释的特殊地位，而在相关分析中，x与y处于平等的地位，即研究x与y的密切程度和研究y与x的密切程度是一致的； 
  2、相关分析中，x与y都是随机变量，而在回归分析中，y是随机变量，x可以是随机变量，也可以是非随机的，通常在回归模型中，总是假定x是非随机的； 
  3、相关分析的研究主要是两个变量之间的密切程度，而回归分析不仅可以揭示x对y的影响大小，还可以由回归方程进行数量上的预测和控制。 
  
   问题六：spss中相关性分析的原理是什么  _问题描述：在SPSS中做主成成分分析的时候有一步是指标之间的相关性判定，我想知道具体是怎么进行判定的，他的算法、原理是什么？答案1：： 说判定有些严格，其实就是观察一下各个指标的相关程度。一般来说相关性越是高，做主成分分析就越是成功。主成分分析是通过降低空间维度来体现所有变量的特征使得样本点分散程度极大，说得直观一点就是寻找多个变量的一个加权平均来反映所有变量的一个整体性特征。评价相关性的方法就是相关系数，由于是多变量的判定，则引出相关系数矩阵。评价主成分分析的关键不在于相关系数的情况，而在于贡献率，也就是根据主成分分析的原理，计算相关系数矩阵的特征值和特征向量。相关系数越是高，计算出来的特征值差距就越大，贡献率等于前n个大的特征值除以全部特征值之和，贡献率越是大说明主成分分析的效果越好。反之，变量之间相关性越差。举个例子来说，在二维平面内，我们的目的就是把它映射（加权）到一条直线上并使得他们分散的最开（方差最大）达到降低维度的目的，如果所有样本点都在一条直线上（也就是相关系数等于1或者- 1），这样的效果是最好的。再假设样本点呈现两条垂直的形状（相关系数等于零），你要找到一条直线来做映射就很难了。一般来说前三个主成分的贡献率在90%以上，第一个主成分的贡献率在 70%效果就已经很好了。答案2：： 你直接看书吧 那原理我要写一天 才能发给你。。。 
  
   问题七：请教SPSS相关分析结果怎么看？  连续型变量用Pearson相关，，分类变量Spearman相关 
  结果解释：第一个表看对应的相关系数-0.098，P值0.002，小于0.05，有统计学意义。说明存在弱的负相关。第二个图就是两个变量的均值与标准差。 
  
   问题八：SPSS中的相关分析有什么用处？？？  相关分析通常最直观的就是做相关系数矩阵，从中你可以看出你要分析的变量之间的相关性。 
  如果是因变量和自变量相关性强，你才有做模型继续分析的必要，如果是自变量之间相关性很强，那么就要考虑剔除某个自变量。 
  相关系数在-1和1之间，绝对值越大表示相关性越大，0表示完全不相关，正的表示正相关，负的表示负相关。 
  
   问题九：相关性分析，R方在什么范围时算是有相关性  R的绝对值越靠近1，说明相关性越强。反之，相关性越弱。 
  若等于0，则不相关。 
  只要R不等于0，就具有相关性，只是强弱不同。

什么是相关性分析

8. 相关性分析

 在我们进行数据处理时，相关性分析是我们最常使用的分析方法之一。相关性，即衡量二个特征或者两个变量之间的关联程度。两个变量的相关关系意味着二者之间存在着某种数学关系。我们并不知道两个变量之间是否存在着 实际关系 通常我们计算的是两个特征的数组之间的相关系数。我们常用的相关性计算方法有哪些呢？
   Pearson correlation coefficient:用于检测两个变量是否线性相关，要求数据需来自于正态分布的总。相关系数在[-1,1]之间        cov(X,Y)协方差  （δX*δY） 二者标准差的乘积。   常规相关等级如下：   r = 0                       二者完全不相关   0<|r|<=0.3               弱相关   0.3<|r|<=0.5            中等相关   0.5<|r|<=0.8            显著相关   0.8<|r|<=1               强相关   皮尔森相关系数适用范围：   适用于服从正态分布的两连续型变量，可绘制散点图，发现有线性趋势之后，进而计算Pearson相关系数，以此描述两变量的线性相关性。
   Spearman 相关评估两个连续或顺序变量之间的单调关系。在单调关系中，变量倾向于同时变化，但不一定以恒定的速率变化。Spearman 相关系数基于每个变量的秩值（而非原始数据）。Spearman 相关通常用于评估与顺序变量相关的关系。        优势：
   Kendall's tau-b（肯德尔）等级相关系数：用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在[-1,1]之间，此检验适合于正方形表格。   kendall tau coefficent defined:        from  MBA智库-Kendall等级相关系数    使用试剂：肯德尔等级相关系数是用以反应两组变量之间关系密切程度的统计指标。   （用的较少，后续再补充）   一般的都可以使用pearson和Spearman相关系数解决。
   进行机器学习特征筛选时，经常使用到的方法就有最大互信息系数。   最大信息系数（MIC）于 2011 年提出，它是用于检测变量之间非线性相关性的最新方法。用于进行 MIC 计算的算法将信息论和概率的概念应用于连续型数据。   MIC 能够表示各种线性和非线性的关系，并已得到广泛应用。它的值域在 0 和 1 之间，值越高表示相关性越强。   见参考资料《最大信息系数》
   更多的需要学习(任重而道远啊，。。。。。）
                                            三大相关系数     斯皮尔曼相关系数     线性系数，斯皮尔曼相关性系数计算及详解     肯德尔等级相关系数     最大信息系数