什么数据适合因子分析?

2024-05-13

1. 什么数据适合因子分析?

定量数据适合因子分析。把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析。
因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。

处理因子分析的方法
提取因子的个数是一个综合选择的过程。默认是按特征根大于1作为因子提取的标准。
特征根不是唯一的判断标准。除此特征根,还可以通过累积方差贡献率、碎石图等指标综合判断。如果分析前已经有了预期的维度划分,也可以在分析时主动设定提取因子个数,再根据上面的指标进行调整。
因子与对应项关系不一致,一般有三种情况:第一种是一个分析项对应着多个因子;导致题项无法归类;第二种是题项与对应因子的关系出现严重偏差;第三种是题项在各个因子下的载荷系数值或共同度都非常低。

什么数据适合因子分析?

2. 16种常用的数据分析方法-因子分析

 
                                           
     
   因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。 
     
   是一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法
     
     
     
    基本思想 
     
   根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。
     
     
     
    为什么做因子分析 
     
   举例说明:在实际门店问题中,往往我们会选择潜力最大的门店作为领航店,以此为样板,实现业绩和利润的突破及未来新店的标杆。选择领航店过程中我们要注重很多因素,比如:
     
   ↘所在小区的房价
   ↘总面积
   ↘户主年龄分布
   ↘小区户数
   ↘门店面积
   ↘2公里范围内竞争门店数量等
     
   收集到所有的这些数据虽然能够全面、精准的确定领航店的入选标准,但实际建模时这些变量未必能够发挥出预期的作用。主要体现两方面:计算量的问题;变量间的相关性问题。
     
   这时,最简单直接的方案就是削减变量个数,确定主要变量,因子分析以最少的信息丢失为前提,将众多的原有变量综合成少数的综合指标。
     
     
     
    因子分析特点 
     
   因子个数远小于变量个数;
     
   能够反应原变量的绝大数信息;
     
   因子之间的线性关系不显著;
     
   因子具有命名解释性
     
     
     
    因子分析步骤 
     
   1.原有变量是否能够进行因子分析;
   
   2.提取因子;
     
   3.因子的命名解释;
     
   4.计算因子得分;五、综合评价
     
     
     
    因子与主成分分析的区别 
     
   相同:都能够起到处理多个原始变量内在结构关系的作用
     
   不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法
     
   因子分析可以看做是优化后的主成分分析,两种方法有很多共通的地方,但应用方面各有侧重。
     
     
     
    因子分析应用场景 
     
     
   因子分析方法主要用于三种场景,分别是:  
     
   l 信息浓缩 :将多个分析项浓缩成几个关键概括性指标。比如将多个问卷题浓缩成几个指标。如果偏重信息浓缩且关注指标与分析项对应关系,使用因子分析更为适合。
     
   l 权重计算 :利用方差解释率值计算各概括性指标的权重。在信息浓缩的基础上,可进一步计算每个主成分/因子的权重,构建指标权重体系。
     
   l 综合竞争力 :利用成分得分和方差解释率这两项指标,计算得到综合得分,用于综合竞争力对比(综合得分值越高意味着竞争力越强)。此类应用常见于经济、管理类研究,比如上市公司的竞争实力对比。
     
     
     
    因子分析案例 
     
   现在有 12 个地区的 5 个经济指标调查数据(总人口、学校校龄、总雇员、专业服务、中等房价),为对这 12 个地区进行综合评价,请确定出这 12 个地区的综合评价指标。( 综合竞争力应用场景 )
     同一指标在不同地区是不同的,用单一某一个指标难以对12个地区进行准确的评价,单一指标只能反映地区的某一方面。所以,有必要确定综合评价指标,便于对比。因子分析方法就可以应用在这个案例中。
     
   5 个指标即为我们分析的对象,我们希望从这5个可观测指标中寻找出潜在的因素,用这些具有综合信息的因素对各地区进行评价。
     
   下图spss因子分析的操作界面主要包括5方面的选项,变量区只能选择数值型变量,分类型变量不能进入该模型。
     
   spss软件为了消除不同变量间量纲和数量级对结果的影响,在该过程中默认自动进行标准化处理,因此不需要对这些变量提前进行标准化处理。
    
   
                                           
     
     
    描述统计选项卡 
     
   希望看到各变量的描述统计信息,要对比因子提取前后的方差变化,选定“单变量描述性”和“原始分析结果”;
     
   现在是基于相关矩阵提取因子,所以,选定相关矩阵的“系数和显著性水平“,
     
   另外,比较重要的还有 KMO 和球形检验,通过KMO值,我们可以初步判断该数据集是否适合采用因子分析方法,kmo结果有时并不会出现,这主要与变量个数和样本量大小有关。
    
   
                                           
    
     
     
    抽取选项卡:在该选项卡中设置如何提取因子 
     
   提取因子的方法有很多,最常用的就是主成分法。
     
   因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选用协方差矩阵。
     
   经常用到碎石图对于判断因子的个数很有帮助,一般都会选择该项。关于特征值,一般spss默认只提取特征值大于1的因子。收敛次数比较重要,可以从首次结果反馈的信息进行调整。
    
   
                                           
    
     
    因子旋转选项卡 
     
   因子分析要求对因子给予命名和解释,是否对因子旋转取决于因子的解释。
     
   旋转就是坐标变换,使得因子系数向1 和 0 靠近,对公因子的命名和解释更加容易。旋转方法一般采用”最大方差法“即可,输出旋转后的因子矩阵和载荷图,对于结果的解释非常有帮助。
     
   如果不经旋转因子已经很好解释,那么没有必要旋转,否则,应该旋转。
    
   
                                           
    
     
    保存因子得分 
     
   要计算因子得分就要先写出因子的表达式。因子是不能直接观察到的,是潜在的。但是可以通过可观测到的变量获得。
     
   因子分析模型是原始变量为因子的线性组合,现在我们可以根据回归的方法将模型倒过来,用原始变量也就是参与分析的变量来表示因子。从而得到因子得分。因子得分作为变量保存,对于以后深入分析很有用处。
    
   
                                           
     
     
     
    结果解读:验证数据是否适合做因子分析 
     
   参考kmo结果,一般认为大于0.5,即可接受。同时还可以参考相关系数,一般认为分析变量的相关系数多数大于 0.3,则适合做因子分析;
     
   KMO=0.575 检验来看,不是特别适合因子分析,基本可以通过。
     
    
   
                                           
    
     
     
    结果解读:因子方差表 
     
   提取因子后因子方差的值均很高,表明提取的因子能很好的描述这 5 个指标。
     
   方差分解表表明,默认提取的前两个因子能够解释 5 个指标的 93.4%。碎石图表明,从第三个因子开始,特征值差异很小。综上,提取前两个因子。
     
    
   
                                           
    
    
   
                                           
    
     
     
    结果解读:因子矩阵 
     
   旋转因子矩阵可以看出,经旋转后,因子便于命名和解释。
     
   因子 1主要解释的是中等房价、专业服务项目、中等校平均校龄,可以命名为社会福利因子;
     
   因子 2 主要解释的是其余两个指标,总人口和总雇员。可以命名为人口因子。
     
   因子分析要求最后得到的因子之间相互独立,没有相关性,而因子转换矩阵显示,两个因子相关性较低。可见,对因子进行旋转是完全有必要的。
     
    
   
                                                                                   
     
     
    结果解读:因子系数 
     
   因子得分就是根据这个系数和标准化后的分析变量得到的。在数据视图中可以看到因子得分变量。
     
     
    结论 
     
   经过因子分析实现了目的,找到了两个综合评价指标,人口因子和福利因子。
     
   从原来的 5 个指标挖掘出 2 个潜在的综合因子。可以对12 个地区给出客观评价。
    
   
                                           
    
   
                                           
    
   可以根据因子1或因子2得分,对这12个地区进行从大到小排序,得分高者被认为在这个维度上有较好表现。
     
     

3. 因子分析的分析描述

验证性因子分析(confirmatory factor analysis) 的强项正是在于它允许研究者明确描述一个理论模型中的细节。那么一个研究者想描述什么呢?我们曾经提到因为测量误差的存在,研究者需要使用多个测度项。当使用多个测度项之后,我们就有测度项的“质量”问题,即有效性检验。而有效性检验就是要看一个测度项是否与其所设计的因子有显著的载荷,并与其不相干的因子没有显著的载荷。当然,我们可能进一步检验一个测度项工具中是否存在单一方法偏差,一些测度项之间是否存在“子因子”。这些测试都要求研究者明确描述测度项、因子、残差之间的关系。对这种关系的描述又叫测度模型 (measurement model)。对测度模型的质量检验是假设检验之前的必要步骤。验证性因子分析往往用极大似然估计法求解。它往往与结构方程的方法连用。具体的使用过程与原理可以参看扩展阅读中的《社会调查研究方法》。

因子分析的分析描述

4. 因子分析

  数据简化 
    因子分析的用途 
    数学模型 
                                                                                                                                                                                                            用矩阵的方式表达 
                                            因子分析模型的性质 
    因子载荷矩阵中的统计特征 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            旋转因子的目的 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    回归方法 
                                                                                                                                                                                                            主成分分析与因子分析    主成分分析与因子分析有所不同,主成分分析仅仅是变量变换。
   主成分和公共因子的位置不同。因子分析也有因子载荷( factor loading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。   在数学模型上,因子分析和主成分分析也有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道程序:因子旋转( factor rotation);这个步骤可以使结果更好。   旋转后的公共因子一般没有主成分那么综合,公共因子往往可以找到实际意义,而主成分常找不到实际的含义。   可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系。如果原始变量本质上独立,就很难把很多独立变量用少数综合的变量概括,降维就可能失败。数据越相关,降维效果就越好。可用如下方法进行变量间的相关性检验:

5. 因子分析

探究某地区影响消费者消费水平的因子。
  
 共回收有效问卷1147份,数据量较为庞大。
  
 执行analyze/dimension reduction/factor;
  
 并选择KMO与巴特利球形检验;碎石图及相关的描述性统计,得到下列各图的结果。
                                          
 结果表明,KMO=0.61>0.6,显著性P=0.000<0.05,因此,因子模型的适应性良好,可用来做因子分析;
                                          
 实际上这里对整体数据的特征提取不是非常好,公因子方差系数一般低于0.8,证明信息量损失还是比较大的。不过大于0.7的数据还是可以用的。
                                          
 可以看到,总共分为7类,如果保证尽可能的信息损失,至少三个主成分因子的方差累积和应该为85%,就比较良好,目前看来只有62.12%,不过作为案例分析,是可以的。
  
 再来看一下上述提取过程的碎石图:
                                          
 接下来是关于成分提取的分析,主要提取了三个主成分,这里我们主要看转置后的主成分分析,如下图:
                                          
 上图说明:我们可以将家庭收入、学历归为一类;婚姻状况和年龄归为一类;城市和性别分为一类。其中职业未显示相应的数值,是因为其因子成分值小于0.5,这时候最好的处理方式是将其单独归为一类主成分因子。
  
 接下来,我们可以再看一下新得到的数据
                                          
 序号为1的这个被调研对象的家庭收入、学历一般,但是婚姻状况和年龄还可以,所在的城市和人口性别比例也挺不错。
  
 以上就是因子分析的内容,若是看到的朋友觉得有什么疑问或者不正确的地方,欢迎批评指正,这是在熊一炎老师的帮助下进行的简单的分析。

因子分析

6. 因子分析

在分析处理多变量问题时,变量间往往相关极为密切,使得观测数据所反映的信息有重叠。为了从多个变量中选择与铝土矿成矿密切相关的指标,本书对铝土矿各相关成矿要素进行因子分析,以达到简化变量的目的。
(1)A组数据
表11.3中前3个主成分的累计方差贡献率为81.940%,虽然没有达到85%,但第四个主成分的特征根小于1。因此,按照主成分的选择要求,选择3个主成分比较合适。
表11.3 主成分的方差贡献率和累计方差贡献率


表11.4 旋转后的因子载荷矩阵


从因子载荷矩阵(表11.4)和因子载荷图(图11.1)看,第一个主成分主要解释了矿层均厚、w(Al2O3)、w(SiO2)和铝硅比值等4个变量,这个主成分反映了对铝土矿有利的沉积-成矿环境,即沉积盆地持续稳定的沉积-成矿环境,使矿层不断加厚,Al2O3不断富集,SiO2不断贫化,A/S不断增加;第二个主成分主要解释了w(Fe2O3)和w(TiO2)这2个变量,可能反映了铝土矿成矿物质来源和表生作用对铝土矿成矿的影响;而第三个主成分只解释了矿系厚度一个变量,这个可能主要与含矿岩系沉积在灰岩风化面之上有关,反映了地形起伏对铝土矿成矿作用的影响。

图11.1 正交旋转因子载荷图

(2)B组数据
表11.5中前3个主成分的累计方差贡献率为77.450%,虽然没有达到85%,但第四个主成分的特征根小于1。因此,按照主成分的选择要求,选择3个主成分比较合适。
从因子载荷矩阵(表11.6)和因子载荷图(图11.2)看,第一个主成分主要解释了w(SiO2)和铝硅比值两个变量,含有部分矿层均厚和w(Al2O3),这个主成分反映了对铝土矿有利的沉积-成矿环境,随着SiO2不断贫化,铝硅比值不断增加,矿层均厚和w(Al2O3)则说明沉积盆地持续稳定的沉积-成矿环境,使矿层不断加厚,Al2O3不断富集;第二个主成分主要解释了w(Al2O3)、w(Fe2O3)和w(TiO2)这3个变量,可能反映了铝土矿成矿物质来源和表生作用对铝土矿成矿的影响,同时说明Al的富集伴随着Fe的流失;而第三个主成分解释了矿层均厚和w(TS)两个变量,含有部分w(Al2O3)、w(Fe2O3)和w(TiO2),这个可能主要反映了表生作用对各组分的普遍影响。
表11.5 主成分的方差贡献率和累计方差贡献率


表11.6 旋转后的因子载荷矩阵



图11.2 正交旋转因子载荷图

从因子分析的结果看,可以选择w(Al2O3)、铝硅比值和矿层厚度这三个连续变量进行定位预测。

7. 因子分析概念

在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观测并收集大量数据,以便分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在的相关性增加了问题分析的复杂性,同时对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合的。盲目减少指标会损失很多信息,产生错误的结论。因此需要找到一个合理的方法,在减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。由于各变量间存在一定的相关关系,因此用较少的指标分别综合存在于各变量中的各类信息,这少数几个综合指标彼此不相关,即所代表的信息是不重叠的,通常称为因子,因子分析法因此得名。因此,因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法(于志钧等,1984;赵旭东,1992;陆明德,1991)。
因子分析方法由Spearman在19世纪初研究心理学问题时提出,1957年由Krumbein引入地质学,后来Imbrie对因子分析在地质学中的应用和发展做了大量工作。
因子分析可以从以下几个方面为地质研究提供帮助:①压缩原始数据。因子分析为众多复杂的地质数据精简提供了一种数学算法,它能在数量上大大精简原始数据但又不损失数据中包含的成因信息,这样就有利于地质人员进行综合分析。②指示成因推理方向。因子分析能够把庞杂纷乱的原始数据按成因上的联系进行归纳、整理、精炼和分类,理出几条客观的成因线索,为地质人员提供逻辑推理方向,启发思考相应的成因结论。③分解叠加的地质过程。现实中观测到的地质现象往往是多种成因过程叠加的产物,因子分析提供了一个分解叠加过程而识别每个单一地质过程的手段。
鉴于上述原因,因子分析在地学领域的应用十分广泛,已有效地应用于沉积盆地蚀源区的研究、沉积物的粒度分析、沉积相研究、地层分析、古环境与古生态的研究、石油及天然气成因研究、油田水化学研究、有机地球化学研究及石油、天然气化探资料分析等各个方面(曾溅辉等,2002;张俊,2005;陈科贵等,2006)。

因子分析概念

8. 因子分析的简介

因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。主成分分析为基础的反覆法 主成分分析的目的与因子分析不同,它不是抽取变量群中的共性因子,而是将变量□1,□2,…,□□进行线性组合,成为互为正交的新变量□1,□2,…,□□,以确保新变量具有最大的方差:在求解中,正如因子分析一样,要用到相关系数矩阵或协方差矩阵。其特征值□1,□2,…,□□,正是□1,□2,…,□□的方差,对应的标准化特征向量,正是方程中的系数□,□,…,□。如果□1>□2,…,□□,则对应的□1,□2,…,□□分别称作第一主成分,第二主成分,……,直至第□主成分。如果信息无需保留100%,则可依次保留一部分主成分□1,□2,…,□□(□<□)。当根据主成分分析,决定保留□个主成分之后,接着求□个特征向量的行平方和,作为共同性□:□并将此值代替相关数矩阵对角线之值,形成约相关矩阵。根据约相关系数矩阵,可进一步通过反复求特征值和特征向量方法确定因子数目和因子的系数。因子旋转为了确定因子的实际内容,还须进一步旋转因子,使每一个变量尽量只负荷于一个因子之上。这就是简单的结构准则。常用的旋转有直角旋转法和斜角旋转法。作直角旋转时,各因素仍保持相对独立。在作斜角旋转时,允许因素间存在一定关系。Q型因子分析 上述从变量群中提取共性因子的方法,又称R型因子分析和R型主要成分分析。但如果研究个案群的共性因子,则称Q型因子分析和Q型主成分分析。这时只须把调查的□个方案,当作□个变量,其分析方法与R型因子分析完全相同。因子分析是社会研究的一种有力工具,但不能肯定地说一项研究中含有几个因子,当研究中选择的变量变化时,因子的数量也要变化。此外对每个因子实际含意的解释也不是绝对的。