描述性统计分析包括哪些内容

2024-05-14

1. 描述性统计分析包括哪些内容

描述性统计分析主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
①数据的频数分析。在数据的预处理部分，利用频数分析和交叉频数分析可以检验异常值。
②数据的集中趋势分析。用来反映数据的一般水平，常用的指标有平均值、中位数和众数等。

③数据的离散程度分析。主要是用来反映数据之间的差异程度，常用的指标有方差和标准差。
④数据的分布。在统计分析中，通常要假设样本所属总体的分布属于正态分布，因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
⑤绘制统计图。用图形的形式来表达数据，比用文字表达更清晰、更简明。在SPSS软件里，可以很容易地绘制各个变量的统计图形，包括条形图、饼图和折线图等。

描述性研究（descriptive study）是指利用常规检测记录或通过专门调查获得的数据资料（包括实验室检查结果），按不同地区、不同时间及不同人群特征进行分组，描述人群中有关疾病或健康状态以及有关特征和暴露因素的分布状况，在此基础上进行比较分析，获得疾病三间（人群、地区、时间）分布的特征，进而获得病因线索，提出病因假设和线索。是流行病研究工作的起点。

描述性统计分析包括哪些内容

2. spss描述性统计分析结果解读是怎么样的？

描述集中趋势的指标有均值、众数、中位数，其中均值包括截尾均值、几何均值、调和均值等。
描述离散趋势的指标有频数、相对数、方差、标准差、标准误、全距、四分位间距、四分位数、百分位数、变异系数等。
SPSS用于描述性统计分析的过程大部分都在分析—描述统计菜单中，另有一个在比较均值—均值菜单，虽然这几个过程用途不同，但是基本上都可以输出常用的指标结果。此过程可以输出连续型变量集中趋势和离散趋势的主要指标，还可以输出判断分布的直方图、峰度值和偏度值。


用于定量数据：
比如量表评分（非常不满意，不满意，非常满意等）,或者身高体重的值，可以通过描述性分析计算数据的集中性特征和波动性特征，描述性分析通常用于研究量表数据的基本认知情况分析,使用平均值去表述样本对于量表数据的整体态度情况。
峰度和偏度通常用于判断数据正态性情况，峰度的绝对值越大，说明数据越陡峭，峰度的绝对值大于3，意味着数据严重不正态。同时偏度的绝对值越大，说明数据偏斜程度越高，偏度的绝对值大于3，意味着严重不正态。分析前可通过正态图查看数据正态性情况。

3. 描述性统计分析怎么写？

描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表，以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度，最常用的指标有平均数()、标准差(σx)、相关系数(r)等。
所谓描述性统计分析，就是在表示数量的中心位置的同时，还能表示数量的变异程度（即离散程度）。描述性统计分析一般有二种方法可以进行：
1、频数分布分析
2、列联表分析

综述
描述性研究利用常规检测记录或通过专门调查获得的数据资料（包括实验室检查结果），按不同地区、不同时间及不同人群特征进行分组，描述人群中有关疾病或健康状态以及有关特征和暴露因素的分布状况，在此基础上进行比较分析，获得疾病三间（人群、地区、时间）分布的特征，进而获得病因线索，提出病因假设和线索。是流行病研究工作的起点。
以上内容参考：百度百科-描述性统计

描述性统计分析怎么写？

4. 描述性统计表结果怎么分析

描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表，以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度，最常用的指标有平均数()、标准差(σx)、相关系数(r)等。
 65     评论 分享 举报【摘要】
描述性统计表结果怎么分析【提问】
描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表，以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度，最常用的指标有平均数()、标准差(σx)、相关系数(r)等。
 65     评论 分享 举报【回答】

5. 到底什么是描述性统计分析？定义是怎样？

第一章—第四节—常用描述性统计概念

到底什么是描述性统计分析？定义是怎样？

6. spss描述性统计分析结果解读是什么？

描述集中趋势的指标有均值、众数、中位数，其中均值包括截尾均值、几何均值、调和均值等。
描述离散趋势的指标有频数、相对数、方差、标准差、标准误、全距、四分位间距、四分位数、百分位数、变异系数等。
SPSS用于描述性统计分析的过程大部分都在分析—描述统计菜单中，另有一个在比较均值—均值菜单，虽然这几个过程用途不同，但是基本上都可以输出常用的指标结果。此过程可以输出连续型变量集中趋势和离散趋势的主要指标，还可以输出判断分布的直方图、峰度值和偏度值。

扩展资料：
对于定量数据，比如量表评分（非常不满意，不满意，非常满意等）,或者身高体重的值，可以通过描述性分析计算数据的集中性特征和波动性特征，描述性分析通常用于研究量表数据的基本认知情况分析,使用平均值去表述样本对于量表数据的整体态度情况。
峰度和偏度通常用于判断数据正态性情况，峰度的绝对值越大，说明数据越陡峭，峰度的绝对值大于3，意味着数据严重不正态。同时偏度的绝对值越大，说明数据偏斜程度越高，偏度的绝对值大于3，意味着严重不正态。分析前可通过正态图查看数据正态性情况。
参考资料来源：百度百科-描述性统计

7. 数据分析之描述性统计

 统计学包括 描述性统计 和 推论统计。 
    描述性统计 的含义——"A descriptive statistic is a summary statistic that quantitatively describes or summarizes features of a collection of information."
   中文翻译：描述性统计是一种汇总统计，用于定量描述或总结信息集合的特征。
    推论统计 ：根据数据的形态建立出一个用以解释其随机性和不确定性的数学模型，以之来推论研究中的步骤及母体。
   本文主要介绍描述性统计，描述性统计又分为 集中趋势 和 离散趋势 。
    一、集中趋势(Measures of central tendency)    能够对总体的某一特征具有代表性，表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。
    1. 众数(Mode)    用于定性的数据，表示一组数据中出现频次最高的数。   优点：不受极端值影响；当数据具有明显的集中趋势时，代表性好；   缺点：缺乏唯一性。
    2. 分位数(Quantile)     亦称分位点，是指将一个 随机变量 的 概率分布 范围分为几个等份的数值点，常用的有 中位数 （即二分位数）、 四分位数 、 百分位数 等。 
    2.1 中位数（Median）    用于定量的数据，表示数值大小位于中间（奇偶总量处理不同）的值。   优点：不受极端值影响；缺点：缺乏敏感性。
   
   
                                           
   
                                            2.2 四分位数     第一四分位数 (Q1) ，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。
    第二四分位数 (Q2) ，又称中位数，等于该样本中所有数值由小到大排列后第50%的数字。
    第三四分位数 (Q3) ，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字。
   第三四分位数与第一四分位数的差距又称四分位距。
    3. 平均数(Mean)     3.1 算术平均数：    优点：充分利用所有数据，适用性强；缺点：易受极值影响。
                                            3.2 加权平均数： 根据权重比例来求平均值
                                            3.3 几何平均数 
                                           python实现：
    二、离散趋势(Measures of Dispersion)     1. 极差    一组数值型数据中最大值和最小值之差，max(x)-min(x)，反映了数值样本的数据范围。
    2. 方差和标准差     方差 用于衡量数据的分散程度，常见的有总体方差和样本方差，计算方法类似。 标准差 为方差的平方根。
    3. 平均差    是数据组中各数据值与其算术平均数离差绝对值的算术平均数。
                                            4. 分位差    其数值越小表明数据越集中，数值越大表明数据越离散。常用的四分位差为：四分位差=（第三个四分位数-第一个四分位数）/2
    5. 异众比率    异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性就越差；异众比率越小，说明非众数组的频数占总频数的比重越小，众数的代表性越好。
    6. 离散系数    离散系数又称变异系数，CV(Coefficient of Variance)表示。CV(Coefficient of Variance)：标准差与均值的比值。离散系数越小，数据的离散程度就越小。
   python实现:
    三、分布形态     1. 偏态系数(Skewness)    偏态系数又称偏差系数(deviation coefficient)，偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度，用 SK 表示偏斜系数:偏态系数小于0，因为平均数在众数之左，是一种左偏的分布，又称为 负偏 。偏态系数大于0，因为均值在众数之右，是一种右偏的分布，又称为 正偏 。
   偏态系数是根据众数、中位数与均值各自的性质，通过比较众数或中位数与均值来衡量偏斜度的。
                                                                                                                            2. 峰态系数(Kurtosis)    峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标，用于衡量离群数据离群度，峰度系数越大，说明该数据集中的极端值越多。在正态分布情况下，峰度系数值是3。>3的峰度系数说明观察量更集中，有比正态分布更短的尾部；<3的峰度系数说明观测量不那么集中，有比正态分布更长的尾部，类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2，将拒绝正态性。

数据分析之描述性统计

8. 数据的描述性统计

 在实际工作中，对于刚接手的数据集，在正式处理需求前，除了需要梳理清楚数据上报及转发环节，还需要对数据集进行质量评估和了解数据集的描述性统计特征。在很多公司里，数据分析师「触手可及」的便是数据开发工程师处理过后的数据，在上述环节中，分析师尤其需要重点关注数据集的描述性统计特征，了解不同类型的数据的集中、离散和分布程度，以便在业务提数时，补充合理的筛选条件，避免计算出来的指标有误导性。
   所有的结构化数据都可以从三个维度进行描述，这三个维度就是：
   寻找反映数据集某一特征的代表值或中心值，表明所研究的对象在一定的条件下的共同性质和一般水平。
     
     
   概念：对于数据集合，将所有的数值按照它们的大小，从高到低进行排序，如果数据集合包含的数值个数是奇数，那么排在最中间的数值就是该数据集合的中位数，如果数据集合的数值为偶数，那么取最中间两个数值的算术平均值作为中位数。   应用：中位数能够避免数据的平均水平受到异常值的影响，因此在做数据分析时，不仅要计算算数平均数，也计算中位数，若两个数字差距很大，就用中位数作为平均数。
   概念：数据集合中出现次数最多的数值。   应用：众数真正的价值在于类别型数据，用于统计各类别的数量。
   概念：数据集合中最大值与最小值的差值，表示整个数据集合能够覆盖的数值距离。   应用：极差虽能表示数据集合的波动大小，但没有提供两个极值以外的数值的信息，且对极值非常敏感，不太可靠，需要结合其他离散程度描述指标来描述数据集合的离散程度。
     
   概念：数据集合的所有数值与平均值的偏差（取绝对值）之和，除以数值个数。
     
   概念：描述数值与均值的偏离程度的指标。方差是各个数据分别与其平均数之差的平方的和的平均数。而标准差则是方差的算术平方根。   应用：方差/标准差值越大，代表大部分数值和其平均值之间的差异较大，数据离散程度也就越大。在处理风险评估模型时，一个数据的波动性，说明它涵盖的信息量越大，信息量越大，不可知的因素越多，因此风险会更大。
     
     
   概念：从数据总体中随机抽取一定数量的样本数值，然后用样本数值的方差和标准差来估计总体的方差和标准差。
     
   总体方差公式的分母就是数据集合的总数量 N，而样本方差公式的分母却是 n-1，即抽取样本量 n 减去 1。主要是因为用样本方差估计总体方差总有一定的偏差所在。
   概念：数据集合的标准差与算术平均值的比值。   应用：无单位指标，不仅可以说明同类事物的相对离散程度，也可以说明不同类型事物的相对离散程度。
   概念：对于数据集合，将所有的数值按照它们的大小，从高到低进行排序，排在四分之一位置的数值即为第一四分位数 Q1，以此类推，分别有有第二、三、四四分位数，Q2，Q3，Q4。四分位极差等于第一四分位数与第三四分位数的差值（Q3-Q1），这个差值区间包含了整个数据集合 50% 的数据值。
    概率    概念：度量随机事件中某一个结果发生的可能性大小的数值。
   1）古典概率法：事件结果数目已知，且每种结果对应的发生概率相等。   2）统计概率法：需要统计过往事件发生的结果频数来确定。   3）主观概率法：分析者对预测事件发生的概率做出主观估计。
    概率分布    概率分布是指事件的不同结果对应的发生概率所构成的分布，可以利用二维坐标进行形象的解释。   
                                           
   二项分布的试验结果只有两个（成功和失败，0 和 1），而多项分布的试验结果则多于两个，多项分布试验的特点如下：
   假设某个多项分布试验有 k 个结果，每种结果发生的概率分别为 p1，p2…，pk（概率之和为 1）现在进行 n 次多项分布试验，假设观测结果为 a1 的次数为 x1 次，结果为 a2 的次数为 x2 次，…，结果为 ak 的次数为 xk（n=x1+x2+…+xk），多么多项分布的联合概率函数为：
     
   而二项分布中，只有    和    （记为 q）两种概率，因此二项分布的概率函数为：     
   上述公式里，P(X=x) 表示特定事件的概率，在实际工作中，常结合数学期望一起使用。
    数学期望 
   数学期望是对随机变量中心位置的一种度量，是试验中每次可能结果的乘以其结果的总和。
     
   假设一等奖成本 1000 元，二等奖成本 500 元，三等奖成本 100 元，欢迎下次再来当然没钱，而用户参加一次抽奖需要 10 元。我们将概率问题转换成运营方的收益和成本计算期望
   下面从公司角度分析活动的盈亏成本：
   A 方案的数学期望：
     
   B 方案的数学期望：
     
   A 方案能否期望没抽奖运营方亏损 110 元，B 方案则是亏损 150 元。
   而从用户的角度分析活动的收益成本：
   A 方案的数学期望：
        B 方案的数学期望：
     
   在二项/多项分布试验中，每次试验结果的发生概率是不变的，而超几何分布试验结果的概率会随着每一次试验的发生而改变（无放回抽样）。
   假设有限数据总体包含 N 个数值，其中符合要求的个案数量为 m 个，如果从该数据总体中抽取 n 个个案，其中有 k 个是符合要求个案的概率计算公式为：
     
   基于过去某个随机事件在单位时间内的平均发生次数，预测该随机事件在未来同样单位时间内发生不同次数的的概率。
     
   根据随机事件发生一次的平均等待时间来推断某个时间段内，随机事件发生的概率。
                                           是古典概率分布的连续形式，是指随机事件的可能结果是连续型数据变量，但所有的变量对应的概率都相等。
   正态分布的数据特点：
   偏态分布的数据有什么特点？