统计学中常用的数据分析方法有哪些?

2024-05-14

1. 统计学中常用的数据分析方法有哪些?

1、描述统计
描述统计是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。
2、假设检验
参数检验：参数检验是在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。
非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假设(如总体分布的位罝是否相同，总体分布是否正态)进行检验。
3、信服分析
介绍：信度(Reliability)即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。
信度指标多以相关系数表示，大致可分为三类：稳定系数(跨时间的一致性)，等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种：重测信度法、复本信度法、折半信度法、α信度系数法。

统计学中常用的数据分析方法有哪些?

2. 统计分析方法介绍两种统计分析方法简介

1、统计分析方法包括逻辑思维方法和数量关系分析方法。在统计分析中二者密不可分，应结合运用。
 
 2、逻辑思维方法是指辩证唯物主义认识论的方法。统计分析必须以马克思主义哲学作为世界观和方法论的指导。唯物辩证法对于事物的认识要从简单到复杂，从特殊到一般，从偶然到必然，从现象到本质。坚持辨证的观点、发展的观点，从事物的发展变化中观察问题，从事物的相互依存、相互制约中来分析问题，对统计分析具有重要的指导意义。
 
 3、数量关系分析方法是运用统计学中论述的方法对社会经济现象的数量表现，包括社会经济现象的规模、水平、速度、结构比例、事物之间的联系进行分析的方法。如对比分析法、平均和变异分析法、综合评价分析法、结构分析法、平衡分析法、动态分析法、因素分析法、相关分析法等。

3. 统计分析方法的选择

在基本的统计分析过程中，选择合适的统计学方法，已经是成功了一半。那么面对得到数据，我们该如何去选择合适的统计方法呢？
  
 最简单而重要的方法，首先是对数据的属性进行判断，是计量资料（年龄多少岁，血压多少帕斯卡，身高多少cm）；还是计数资料（有多少个人，多少个国家，多少个民族）。
  
 A  计量资料 
  
 对于计量资料，是采用非参数检验还是参数检验呢？如果数据不满足正态性、方差齐性等，可以用非参数检验；当不在乎数据是否符合正态分布，也可以直接利用非参数检验，只是非参数检验的效能相比于参数检验低，犯I类错误的概率可能会高。
  
 当计量资料为单独一组时，采用单样本t检验或单样本秩和检验（Wilcoxon）；
  
 当两组样本为独立样本进行比较时，采用两组独立样本t检验或两组独立样本秩和检验（Mann-Whitney）；
  
 当两组样本为相关样本时，采用配对样本t检验或配对样本秩和检验（Wilcoxon）；
  
 当计量资料超过2组（3组或3组以上），采用方差分析或多组独立样本秩和检验（Kruskal-Wallis）。
  
  B 计数资料 
  
 计数资料主要以列联表形式存在，所以对计数资料的分析，首要任务是对行、列变量属性的判断。
  
 当行变量、列变量均为无序变量时，采用卡方检验；
  
 当行变量或列变量为有序变量时，采用秩和检验；
  
 当行变量、列变量均为有序变量时，可采用Spearman相关性分析量变量之间的秩相关；若是评判两种方法或处理手段的一致性，可采用Kappa分析。
  
 将上面的长篇废话转化成图表，思路是不是更清晰了呢？
  
 
  
                                          
 转自’ 医学统计园 ’。

统计分析方法的选择

4. 统计学常用数据分析方法（二）推断统计&参数检验

01  
  
  推论统计 
  
 推论统计是统计学中研究年份较为短的一部分内容。
  
 推论统计主要以结果为依据，来证明或推翻某个命题也就是通过分析样本与样本分布的差异从而去估算样本与总体、同一样本的前后两次的差异、样本与样本的差异、总体与总体的差异是否具有显著性差异。
  
 举个例子，我们想研究教育背景是否会影响人的收入。然后我们可以找1000名30岁大学毕业生和1000名30岁初中毕业生。采集他们的工作以及收入情况。用推论统计方法进行数据处理，最后会得出类似这样儿的结论：“研究发现，大学毕业生组的收入显著高于初中毕业生组的收入，二者在0.01水平上具有显著性差异，说明大学毕业生的一些收入情况优于中学毕业生组，也就是学历会影响收入。”
  
   02  
  
  正态性检  验 
  
 很多统计方法的前提条件是数值服从或近似服从正态分布，所以在进行数据分析之前需要进行正态性检验。
  
 常用方法：非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
  
   03  
  
  参数检验 
  
 已知总体分布的条件下（一般要求总体服从正态分布）对一些主要的参数(如均值、百分数、方差、相关系数等）进行的检验叫做参数检验。
  
  Z检验：使用条件：当样本含量n较大时，样本值符合正态分布 
  
  T检验：使用条件：当样本含量n较小时，样本值符合正态分布 
  
 单样本t检验：想知道来自总体的一个样本均值μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别；
  
 配对样本t检验：当总体均值未知时，并且两个样本可以配对，同对中的两者一一对应，对于处理效果的各种条件方面扱为相似；
  
 两独立样本t检验：利用两个总体的独立样本，通过推断两个总体的均值是否存在显著性差异；两独立样本的样本容量可以相等，也可以不相等。
  
   04  
  
  非参数检验 
  
 非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一般性假设（如总体分布的位罝是否相同，总体分布是否正态）进行检验。
  
 主要方法包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

5. 数据分析中要注意的统计学问题

     　　一、均值的计算 
       　　在处理数据时，经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。此时，往往我们会不假思索地直接给出算术平均值和标准差。显然，这种做法是不严谨的。
       　　这是因为作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。至于该采用哪种均值，不能根据主观意愿随意确定，而要根据随机变量的分布特征确定。
       　　反映随机变量总体大小特征的统计量是数学期望，而在随机变量的分布服从正态分布时，其数学期望就是其算术平均值。此时，可用算术平均值描述随机变量的大小特征;如果所研究的随机变量不服从正态分布，则算术平均值不能准确反映该变量的大小特征。在这种情况下，可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布，则几何平均值就是数学期望的值。此时，就可以计算变量的几何平均值;如果随机变量既不服从正态分布也不服从对数正态分布，则按现有的数理统计学知识，尚无合适的统计量描述该变量的大小特征。此时，可用中位数来描述变量的大小特征。
       　　因此，我们不能在处理数据的时候一律采用算术平均值，而是要视数据的分布情况而定。
        　　二、直线相关与回归分析 
       　　这两种分析，说明的问题是不同的，既相互又联系。在做实际分析的时候，应先做变量的散点图，确认由线性趋势后再进行统计分析。一般先做相关分析，只有在相关分析有统计学意义的前提下，求回归方程才有实际意义。一般来讲，有这么两个问题值得注意：
       　　一定要把回归和相关的概念搞清楚，要做回归分析时，不需要报告相关系数;做相关分析的时候，不需要计算回归方程。
       　　相关分析中，只有对相关系数进行统计检验(如t检验)，P0.05这种无统计学意义的结论;而当样本量很大，如500，即使r=0.1，也会有P<0.05的结果，但这种相关却不具有实际意义。因此，要表明相关性，除了要写出r值外，还应该注明假设检验的P值。
        　　三、相关分析和回归分析之间的区别 
       　　相关分析和回归分析是极为常用的2种数理统计方法，在环境科学及其它研究领域有着广泛的用途。然而，由于这2种数理统计方法在计算方面存在很多相似之处，因此在应用中我们很容易将二者混淆。
       　　最常见的错误是，用回归分析的结果解释相关性问题。例如，将“回归直线(曲线)图”称为“相关性图”或“相关关系图”;将回归直线的R2(拟合度，或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”;根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。
       　　相关分析与回归分析均为研究2个或多个变量间关联性的方法，但2种方法存在本质的差别。相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度)，回归分析的目的则在于试图用自变量来预测因变量的值。
       　　实际上在相关分析中，两个变量必须都是随机变量，如果其中的一个变量不是随机变量，就不能进行相关分析。而回归分析中，因变量肯定为随机变量，而自变量则可以是普通变量(有确定的取值)也可以是随机变量。
       　　很显然，当自变量为普通变量的时候，这个时候你根本不可能回答相关性的问题;当两个变量均为随机变量的时候，鉴于两个随机变量客观上存在“相关性”问题，只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因此这又回到了问题二中所讲的，如果你要以预测为目的，就不要提相关系数;当你以探索两者的“共变趋势”为目的，就不要提回归方程。
       　　回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此我们不能错误地理解R2的含义，认为R2就是 “相关系数”或“相关系数的平方”。这是因为，对于自变量是普通变量的时候，2个变量之间的“相关性”概念根本不存在，又谈什么“相关系数”呢?
        　　四、相关分析中的问题 
       　　相关分析中，我们很容易犯这么一个错误，那就是不考虑两个随机变量的分布，直接采用Pearson 积矩相关系数描述这2个随机变量间的相关关系(此时描述的'是线性相关关系)。
       　　关于相关系数，除有Pearson 积矩相关系数外，还有Spearman秩相关系数和Kendall秩相关系数等。其中，Pearson积矩相关系数可用于描述2个随机变量的线性相关程度，Spearman或Kendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。
       　　因此我们必须注意的是，Pearson 积矩相关系数的选择是由前提的，那就是2个随机变量均服从正态分布假设。如果数据不服从正态分布，则不能计算Pearson 积矩相关系数，这个时候，我们就因该选择Spearman或Kendall秩相关系数。
        　　五、t检验 
       　　用于比较均值的t检验可以分成三类：第一类是针对单组设计定量资料的;第二类是针对配对设计定量资料的;第三类则是针对成组设计定量资料的。后两种设计类型的区别在于事先是否将两组研究对象按照某一个或几个方面的特征相似配成对子。无论哪种类型的t检验，都必须在满足特定的前提条件下应用才是合理的。
       　　若是单组检验，必须给出一个标准值或总体均值，同时，提供一组定量的观测结果，应用t检验的前提条件就是该组资料必须服从正态分布;若是配对设计，每对数据的差值必须服从正态分布;若是成组设计，个体之间相互独立，两组资料均取自正态分布的总体，并满足方差齐性。之所以需要这些前提条件，是因为必须在这样的前提下所计算出的t统计量才服从t分布。
       　　t检验是目前在科学研究中使用频率最高的一种假设检验方法。t检验方法简单，其结果便于解释。简单、熟悉加上外界的要求，促成了t检验的流行。但是，由于我们对该方法理解得不全面，导致在应用过程中出现不少问题，有些甚至是非常严重的错误，直接影响到结论的可靠性。
       　　常见错误：不考虑t检验的应用前提，对两组的比较一律用t检验;将各种实验设计类型一律视为多个单因素两水平设计，多次用t检验进行均值之间的两两比较。以上两种情况，均不同程度地增加了得出错误结论的风险。而且，在实验因素的个数大于等于2时，无法研究实验因素之间的交互作用的大小。
       　　正确做法：当两样本均值比较时，如不满足正态分布和方差齐性，应采用非参检验方法(如秩检验);两组以上的均值比较，不能采用t检验进行均值之间的两两比较。
       　　因此我们必须注意，在使用t检验的时候，一定要注意其前提以及研究目的，否则，会得出错误的结论。
        　　六、常用统计分析软件 
       　　国际上已开发出的专门用于统计分析的商业软件很多，比较著名有SPSS(Statistical Package for SocialSciences)、SAS(Statistical AnalysisSystem)、BMDP和STATISTICA等。其中，SPSS是专门为社会科学领域的研究者设计的(但是，此软件在自然科学领域也得到广泛应用);BMDP是专门为生物学和医学领域研究者编制的统计软件。
       　　当然，excel也能用于统计分析。单击“工具”菜单中的“数据分析”命令可以浏览已有的分析工具。如果在“工具”菜单上没有“数据分析”命令，应在“工具”菜单上运行“加载宏”命令，在“加载宏”对话框中选择“分析工具库”。
       　　特别推荐一款国产软件——DPS，其界面见附图。其功能较为强大，除了拥有统计分析功能，如参数分析，非参分析等以外，还专门针对一些专业编写了专业统计分析模块，随机前沿面模型、数据包络分析(DEA)、顾客满意指数模型(结构方程模型)、数学生态、生物测定、地理统计、遗传育种、生存分析、水文频率分析、量表分析、质量控制图、ROC曲线分析等内容。有些不是统计分析的功能，如模糊数学方法、灰色系统方法、各种类型的线性规划、非线性规划、层次分析法、BP神经网络、径向基函数(RBF)等，在DPS里面也可以找到。

数据分析中要注意的统计学问题

6. 有关数据分析的7个方法论

距离2018Tableau峰会--上海站已经过去10天了，好记性不如烂笔头，干货太多很想把所有内容都记录下来，下面分享一篇《有关数据分析的7个方法》并结合我工作当中的一些心得~
  
 当我们拿到海量的数据时，可能会因为数据体量过大而无从下手，于是我们就变成了数据的搬运工，老板实际上要的是一瓢数据，而我们给老板的是一池数据让老板在数据的池水中翱游。好的数据分析是让数据说话，那么我们怎样来让数据说话呢，上干货~~~7个分析方法
  
 1. 数据随时间变化 ：某一个指标在日期维度上的变化，找寻异常、趋势
  
 tips：结合已知的事件来看待它的影响，最大值和最小值、异常值，等拐点都可以成为挖掘故事的金矿，可以将跨度时间切割为年度、季度、月度等，比较正常和不正常值的差异来探究异常。
  
 结合工作当中的实例：上海一门店进行促销，老板一般会看截止某一时间节点的销量，当时我们在分析销量的时候我们分析了按小时的销量，发现门店的销量会在早晚高峰出现销量上升，但在晚高峰时突然出现了销量的短时下跌，后来结合CCTV发现门店因为进货短时间人手不足等原因造成销量下降。
  
 2. 数据的放大与缩小 
  
 tips:集中关注某一特定区域或者范围的数据，将其与其余的数据做对比，可以先从整体入手并选择感兴趣的的数据区间，或者从某些有特征的数据点入手，查看数据是否存在异常
  
 结合工作当中的实例：每月在做月度分析的时候，比如涉及销量完成率等这一个指标，我们一般会先看当月的情况，根据预算分配，我们会再考察YTD的情况。
  
 3. 数据的对比 
  
 tips:展示不同区域或者不同类别为什么会呈现不同的现象，通常是将一个群组/维度/项目与另外一个做对比
  
 确认对比的目的，比如证实或伪证自己的猜想，对比不一定需要产生于在同一层级之间，可以个体VS个体，VS整体/平均/中位数
  
 结合工作当中的实例：我们在年初的时候，公司对亏损的门店进行指标分析和量化，我们选取了销量-服务-效率等几个维度进行对比。对于具体门店到具体指标时，我们采用门店指标与公司中位数进行对比。
  
 4. 数据的上钻/下钻 
  
 tips:在具有层级结构的数据中探索某一维度是如何影响全局的，可以有自下而上或者自上而下
  
 当选择到底是自下而上还是自上而下时，考虑你的听众更熟悉的背景，如果他们是只处理工作流程的某一具体环节的同事，那么选择自下而上；如果他们是对全局有宏观把控但是你需要他们关注某些具体细节的领导，那么选择自上而下。
  
 结合工作当中的实例：每月在做月度分析的时候，我们一般都会先关注公司整体销售数据，具体销量数字和完成预算情况，此外还会关注重点销售区域的销售数据，对于预算完成较差的区域，我们进一步再关注具体门店的情况。
  
 5.突出值/异常值
  
 tips:发现表现异常的时间段/个体，通过散点图或者盒须图进行呈现。异常值越突出，故事效果越好，越容易给观众以深刻的印象，用不同的颜色或者注释标记出异常值以达到突出的效果。结合其他的叙述类型来挖掘出异常值背后的故事。
  
 结合工作当中的实例：笔者所在的行业为零售行业，每天的零售销售数据很多，记得一次月度汇报，销量Top5的门店竟然出现在利润后十名的表单中，当时细究原因是财务在账务处理时将利润进行了分割。此外，对于异常数据笔者发现很多情况是由于底层数据未经处理而导致数据不干净。
  
 6. 数据的交叉点 ：多条趋势线的相互交叉，或者某一个体超越了另外一个个体的时间节点
  
 tips:通常代表着某种转折或某个标志性的时间，展示时将交叉点之前时段的数据带入到故事当中可以让听众对交叉点产生时的背景有大致了解，同样可以结合其他的故事类型一同讲述。
  
 结合工作当中的实例：我们在做数据分析时，我们会对比同期销量趋势，对于本年度销量大于上一年度销量的月份，我们会具体去看上涨的原因，具体是因为某一营销政策、竞争对手等原因。
  
 7.剖析原因：
  
 tips:在关注某一指标时，分析哪些因素会影响该指标的表现，分析两个角度之间的关系。
  
 一个普遍应用的结构叫做“Goldilocks", 先展示一个并非特别相关的因素，然后再讲述特别恰当的影响因子。如果有一个大家普遍认为很重要的因素但事实上并没有想象中那么重要，说明后面还有一个更恰当的因素。
  
 结合工作当中的实例：我们在分析门店亏损情况的时候，通常会先找到几个可能影响利润的几个指标，然后进行参考环比数据进行解释，当我们用现有的几个指标不能解释利润变化的时候，说明我们查看的影响因素还不够全面或者门店周围环境发生了重大改变。

7. 分类数据的统计分析技巧

 分类数据的统计分析技巧
                       　　你知道分类数据的统计分析技巧有哪些吗?你知道什么是分类数据的统计分析吗?下面是我为大家带来的关于分类数据的统计分析技巧的知识，欢迎阅读。
        　　分类数据的统计分析 
        　　1. 样本数据与总体比较 
       　　1)二分类资料：
       　　(1)小样本数据：用二项分布进行确切概率法检验;
       　　(2)大样本数据：用U检验;
       　　2)多分类数据：用Pearson检验(又称拟合优度检验)。
        　　2. 四格表(2×2表)数据 
       　　1)完全随机设计的四格表数据的分析
       　　(1)当样本量n>40，并且4个格子理论数均大于5时，则用Pearson 检验;
       　　(2)当样本量n>40，并且4个格子理论数均大于1且至少存在一个格子的理论数<5时，则用校正检验或用Fisher’s精确概率法检验;
       　　(3)当样本量n£40或存在任一格子理论数<1，则用精确概率法检验;
       　　2)配对设计的四格表数据的分析
       　　(1)b+c≥40，则用McNemar配对检验;
       　　(2)b+c<40，则用二项分布确切概率法检验;
        　　3. 2×C表或R×2表数据的统计分析 
       　　1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则可以采用行平均得分差(Row Mean Scores Differ)的CMH 或成组的Wilcoxon秩和检验;
       　　2)列变量为效应指标并且为二分类，行变量为有序多分类变量，则可采用普通的Pearson 检验比较各组之间有无差别，如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。
       　　3)行变量和列变量均为无序分类变量：
       　　(1)当样本量n>40，并且理论数小于5的格子数少于行列表中格子总数的25%，则用Pearson 检验;
       　　(2)当样本量n£40，或理论数小于5的格子数多于行列表中格子总数的25%，则用Fisher’s确切概率法检验;
        　　4. R×C表数据的统计分析 
       　　1)完全随机设计的R×C表数据的统计分析
       　　(1)列变量为效应指标，并且为有序多分类变量，行变量为分组变量，则CMH 或Kruskal Wallis的秩和检验;
       　　(2)列变量为效应指标，并且为无序多分类变量，行变量为有序多分类变量，则采用普通的Pearson 检验比较各组之间有无差别，如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义;
       　　(3)列变量和行变量均为有序多分类变量，可以作Spearman相关分析或者非零相关(none zero correlation)的CMH ;
       　　(4)列变量和行变量均为无序多分类变量：
       　　i. 当样本量n>40并且理论数小于5的格子数少于行列表中格子总数的25%，则用Pearson 检验进行分析;
       　　ii. 当样本量n£40或理论数小于5的格子数多于行列表中格子总数的`25%，则用Fisher’s 确切概率法检验;
       　　2)配对设计的C×C表数据：
       　　(1)配对比较：用McNemar配对检验;
       　　(2)一致性检验(Agreement)：用Kappa检验;
        　　Poisson分布数据 
       　　1. 单样本数据与总体比较：
       　　1)当观察值较小时：可以用确切概率法进行检验。
       　　2) 当观察值较大时：可以用正态近似的U检验。
       　　2. 两个样本数据的比较：可以用正态近似的U检验。
        　　两个变量之间的关联性分析 
       　　1. 两个变量均为连续型变量
       　　1)当两变量为小样本并且两个变量服从双正态分布时，可以用Pearson相关系数来衡量两个变量之间的关联性;
       　　2)当两变量为大样本或两个变量不服从双正态分布，则用Spearman相关系数来衡量两个变量之间的关联性;
       　　2. 如果两个变量均为有序分类变量，可以用Spearman相关系数来衡量两个变量之间的关联性;
       　　3. 如果一个变量为有序分类变量，另一个变量为连续型变量，可以用Spearman相关系数来衡量两个变量之间的关联性。
    ;

分类数据的统计分析技巧

8. 统计学数据分析怎么做

电脑打开excel，新建表格。

统计数据分析怎么做
根据需要输入数据，点击空白处使用公式进行数据统计。

统计数据分析怎么做
3
根据需要下拉得到相似算法的数据。

统计数据分析怎么做
4
完成数据统计分析，全部选中。

统计数据分析怎么做
5
插入图表，更直观分析统计数据。

统计数据分析怎么做【摘要】
统计学数据分析怎么做【提问】
电脑打开excel，新建表格。

统计数据分析怎么做
根据需要输入数据，点击空白处使用公式进行数据统计。

统计数据分析怎么做
3
根据需要下拉得到相似算法的数据。

统计数据分析怎么做
4
完成数据统计分析，全部选中。

统计数据分析怎么做
5
插入图表，更直观分析统计数据。

统计数据分析怎么做【回答】

统计学中常用的数据分析方法有哪些?

1. 统计学中常用的数据分析方法有哪些?

2. 统计分析方法介绍 两种统计分析方法简介

3. 统计分析方法的选择

4. 统计学常用数据分析方法（二）推断统计&参数检验

5. 数据分析中要注意的统计学问题

6. 有关数据分析的7个方法论

7. 分类数据的统计分析技巧

8. 统计学数据分析怎么做

2. 统计分析方法介绍两种统计分析方法简介