《简单统计学》笔记

2024-05-13

1. 《简单统计学》笔记

 都说“学好数理化,走遍天下都不怕”,我觉得极端一点理化也可以不要,但数学那是必须会的,并不用多高深,加减乘除也就够了。如果非要再加一点,那我推荐统计学——从微观量子到宏观世界,都在偶然中蕴藏着的必然——也就是概率,这种美妙的联系似乎反映了世界的一些本质。
   几年前初看“大数据”相关书籍的时候,惊叹于“数据挖掘”的魔力——依靠海量数据和计算机强大的算力,人们甚至可以在不理解“因果关系”的情况下,凭借数据的“相关性”进行各种决策。
   然而进一步的思考带来了新的问题:“相关性”能代替“因果性”么?数据本身不会说谎,但是对数据的加工呢?有一些看似无懈可击的分析结论,为什么自己运用的时候又不灵了?
                                           最近读完《简单统计学》,书里通过生动有趣的例子,让这些问题或多或少得到了解答。这里把一些印象比较深刻的概念简要地总结摘录一下,为了避免太冗长(其实是懒得打字排版),许多举例部分使用了从网上找到的外链。
   人类自古以来演化出模式识别技,让我们对观察到的现象进行直观解释,然而在面对现代社会的复杂数据常常是失效的,但我们对确定性的渴望导致我们:
   针对第1点的一个有趣的例子: 塔纳岛的土著 
   针对第2点,体现在我们对 统计显著性 的迷信。
   在我们掌握了“大数据挖掘”的能力之后,统计显著性不再仅仅是为了验证理论对两组对照数据进行比较的指标,研究人员开始用两种方式来“发现”统计显著性。
   还有不少研究人员为了结果故意篡改、加工原始数据,这样产生的理论就更不可信了。要揭穿这些伪理论并不难,我们只需要两个武器:
   然而并不总是有人这么做,因为:
   总的来说, 我们有意或无意地使用不适合进行比较的数据作为对照或进行分析,以发现或验证某种(可能并不存在的)模式,从而导致了一系列的认知偏差 。
   举例:
    如何避免    通过使用对照组随机分配的方式,可以避免这种自选择偏差,然而实际研究中,往往并不能强迫人们去做自己不愿意的事情,所以我们在检查统计结果的时候要格外小心。(幸好如此)
   举例:    飞机弹孔问题 、“成功学”
    如何避免    考虑问题时要考虑到我们没有看到的那部分。同时对于成功原因分析,应当从过去开始并向未来展望,看看未来发生了什么。
    如何避免    控制其他变量仅仅比较“用药”和“不用药”的差别,对于一些医疗场景下很难有效控制的情况,人们设计了大样本随机 双盲实验 ,尽可能消除其他因素的影响。   也可以看看关于 循证金字塔 的相关解释,了解各种研究设计和证据质量。
   第1点很容易理解,特别是统计中总会有一些异常数据,对于小基数影响特别大。
   第2点有时候就不是那么直观,当我们在统计时对数据进行聚合和分解,可能产生一意想不到的差异。可以看下下面的例子。
                                                                                   那究竟谁是更好的击球手呢?应该还是科里,因为分解数据使用的“单双日”只是数据拆分的一种巧合而已,整体安打率才是一个选手优秀程度的表现。
   所以当我们使用比率进行统计分析和比较的时候,一定不能忽视比率背后数据,以及刚才例子中“单双日”所代表的的 混杂因素 。
   前面提到的击球手的例子正是如此,如果我们反过来看,先看整体安打率,再分解为单日、双日,就会发现模式确实发生了逆转。上例中的问题在于,用于分解数据的“单双日”并不是一个有效的“混杂因素”,这种区分本身没有任何意义。但是有时候,能够准确识别“混杂因素”,对数据分析有巨大的意义。
   举例:
    如何避免    在我们利用数据来得出理论和结论的时候,要特别小心,注意数据背后是否有自选择偏差或是未被发现但有实际意义的混杂因素,只有将他们分解出来再进行对比才能真正确认理论的因果是否合理。
   在这里我们还要警惕 证实偏差 :指当人确立了某一个信念或观念时,在收集信息和分析信息的过程中,产生的一种寻找支持这个信念的证据的倾向。要做到不先入为主的客观思考,才能更好地发现数据的本质。
   书里还有一些有意思的内容,限(yin)于(wei)篇(wo)幅(lan)没法一一摘录出来,即使摘录出来的部分,书中的一些数据图表和小故事也值得一看。
   总之,我给4.5星,推荐阅读(最后几章的内容和理论似乎有些重复)。

《简单统计学》笔记

2. 《极简统计学》-帮你快速入门统计学

 《极简统计学》共计21章,分为两部分来组织全文,第一部分主要介绍一些统计量,第二部分通过这些统计量来完成一些推论统计的过程。通读全书之后可以发现,本书的最终目的只是为了完成了两件很有意义的推导:
   本文自然不会再完成这样一个推导过程。和原书的结构一样,本文也会分为两部分来做摘要,一部分是统计量,一部分是区间估计的方法。
    平均值  = (组值*相对频数)的合计
    平均值  = (数据总和) / (数据数)
   上述两个公式都被用来计算算术平均值,事实上第一个可能用得更多。但是要明白,上面的两个公式都是用来计算算术平均值的,但是取平均值的方法并不止一个。
                                                                                                                                                                                                           一般来说: 如果想在合计意义上保持数据的本质,则使用算术平均值;想在乘积的意义上保持数据的本质,则用几何平均值,如成长率;对待速度则一般用调和平均值。 
    偏差  = (数据的数值)-(平均值)
    方差  = [(偏差的平方)的合计]/(数据数)
    标准差  = 方差的开平方 = 偏差的均方根值
   也可以通过分组之后计算相对频数的方式计算方差:
    方差  = (组值 - 平均值)的平方 * (相对频数) 的合计
                                                                                   平均值是从数据的分布中取出的代表的数。因此,可以认为数据以平均值为基点,在其左右扩散。评价这种扩散、分散的标准就是标准差。标准差将数据平均值的离散方式进行平均化。此时无论向大的方面离散还是小的方面离散,都用正数进行评价,避免相互抵消的平均。
   这里和原书一样,通过  S.D.   来表示标准差,这是原书一个非常重要的统计量。一般会以  S.D.   作为判断数据特殊性的标准。可以认为只距离平均值1个  S.D.   的数据为普通数据,距离平均值超过2个  S.D.   的数据为特殊数据。
     S.D.   具备如下性质:
   标准的数学著作中,正态分布需要有概率密度函数来决定,需要从概率的角度来进行推导,原书为了简便起见,完全不涉及概率的知识,这里也一样,只从应用的角度来对正态分布的性质做一个说明。
   可以认为分布规律符合下面的图形的数据是正态分布的(μ代表平均值,σ代表标准差):
                                            标准正态分布  是平均值为0,  S.D.   为1的正态分布。
   从上面的图形中可以看出一些正态分布的性质:
   使用正态分布的知识,可以进行"预测"。从上面的描述的正态分布的性质可以看出来,如果我们把关注的不确定现象看做正态分布,那么,利用正态分布的性质对将要出现的数据进行预测就将成为可能。
   从上面的正态分布曲线图可以知道,如果想加大预测的命中概率,就要扩大区间范围,如果想要100%命中,预测范围将是负无穷到正无穷的范围。通用的是"95%命中"或者"99%命中",原书中选取了世界上最常用的"95%命中"。后续的说明都是基于这一个命中概率来进行的。
   从95%命中区间出发,可以得到两个结论:
   有关正态分布(或者近似正态分布)的母群体的总体参数为某数值的假设检验,可以按照下面的方法进行:
   其总体参数的母群体是正态分布,平均值为μ,标准差为σ时,如果观测到的数据x的不等式:
   成立,假设不被舍弃(接受);否则,假设被舍弃。
   这里,其实并没有开始预测,只是对一个随意的总体参数是否合理做了一个检验,而检验的依据是我们一般认为我们观测的数据都会落在总体数据分布的95%置信区间内,如果假设的总体参数不满足让观测数据落到置信区间,则将假设舍弃,否则接受。
    区间估计  是这样一种估计方法:它针对母群体的总体参数,在假定其总体参数的情况下,只集合了现实观测到的数据在观测数据“95%预测命中区间”的总体参数。根据区间估计确定的总体参数的范围叫做"95%置信区间"。由区间估计求得的区间,是对所有的总体参数进行上面应用1中的检验操作,不舍弃而保留下来的集合。
   关于正态母群体已知标准差σ时,对未知的平均值μ进行区间估计的方法:使用观测到的数据x,解关于μ的一元一次不等式
   得出 "* <= μ <= *"的形式即可。
   95%置信区间是这样一种区间:它有各种各样的观测值用相同的方法进行区间估计,其中95%包含正确的总体参数。
    统计量部分的描述就此结束了,这部分主要是通过不同的统计量来刻画数据的特征,并简单地说明了对正态母群体进行“统计检验”和"区间估计"的方法。 
   在现实生活中,我们是基本不可能观测到总体的全部数据的,很多时候只能获取到总体中一部分的数据。但是我们从一些现象中也可以得出这样的结论“如果进行充分的观测,就能相当鲜明地捕捉母群体的情况”。但是我们的目标是:“不进行那么大量的观测而推测出母群体的情况”。
   我们知道,从母群体中观测到的数据是受母群体的总体特征制约的。原书给出了这样的结论:
   我们回到先前的目标,就是要通过样本数据推测母群体即总体的情况。这依赖母群体的一些数学性质,原书作为统计的入门书,并没有也不需要给出这些数学理论的证明,这里直接拿来用就可以。
   从上面的性质可以得到这样的结论:
    对于均值为μ、标准差为σ的一个正态总体的n个样本均值来说,其95%置信区间为有下面的不等式解出来的范围,a为样本均值 
   本部分其实就是要达到四个目标:
   下面来分别说明。
   这个估计是很简单的,通过公式:
   可以推出μ的95%置信区间是:
   正态母群体的样本均值是符合正态分布的,而且样本均值也体现了总体均值的性质,可以通过上面的不等式来推导出总体均值的估计。样本方差当然也体现了总体方差的性质,但是样本方差并不服从正态分布。样本方差服从的是卡方分布。
    卡方分布  若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
   卡方分布的分布曲线如下:
                                           从前面的知识我们可以知道,对于从正态母群体中观测到的n个样本,用如下公式表示的统计量V是自由度为n的卡方分布:
                                           卡方分布的分布的临界值表如下:
                                           通过查表可以知道V在95%置信区间的范围,从而求出总体方差的95%置信区间。如对于自由度为5的卡方分布V来说。95%的置信区间可以按照 0.83 <= V <= 12.83来计算最终的总体方差的置信区间。
   从上面根据正态母群体的总体均值来推测总体方差的估计中我们可以看到,必须先要有知道总体均值,才能对总体方差进行估计,这是一个很不自然的假设。在实际应用中也是不太可能知道总体均值的存在的。那么如果不知道总体均值的时候,如何估计总体方差呢。
   自然的想法是能不能通过样本的均值和方差来对总体的方差的估计。事实是统计学家们已经证明了下面的统计量W也是一个卡方分布,只不过自由度不是样本数据数n,而是n-1,(其中):
                                           这里不用考虑如何证明W是自由度为n-1的卡方分布,直接去使用这一结论即可。我们有样本方差的公式:
                                           从而可以推导出:
                                           因为W是自由度为n-1的卡方分布,通过对w的95%置信区间的估计就可以得到一个不等式,解这个不等式就可以得到总体方差的95%的置信区间,完成对总体方差的估计。
   现在只剩下最后一个困难的问题了,如何在只知道样本数据的情况下的得到总体均值的估计。从前面的讨论中其实可以看出,除总体均值μ以外,如果我们能只用样本数据得到的统计量,清楚其分布,我们自然就可以得到总体均值的估计。
   英国化学家戈塞特发现了这样一个分布,并命名为t分布。我们可以看一下t分布的定义和特征。
   如下公式表示的统计量T服从自由度为n-1的t分布:
                                           我们知道,从正态母群体中的n个样本数据得到的统计量z服从标准正态分布:
                                           但是在现实中,统计量σ往往是未知的,所有不能通过z来求得总体均值的估计。事实上统计量T和z形式上很像,不难看出,如果n足够大的时候,T的分布趋近于标准正态分布,但是当n并不是足够大的时候,T的分布和标准正态分布的偏差并不能被忽略。
   t分布的概率密度分布图和特征如下:
                                            特征 
    t分布速查表    
                                           
   对于每一个指定的自由度,如果求T的95%置信区间,只需要左右分别去掉0.025即可。如自由度为10的t分布的95%置信区间是-2.228 <= T <= 2.228。通过前面推导出来的T的统计量即可得到对总体均值μ的估计。
    至此,在未知总体方差时,对总体均值的估计也已经完成 
   以上介绍了一些常见的统计量和比较常用的通过样本数据估计总体统计量的几个方法。原书毕竟只是一本统计学的入门书籍,通过本文可以对原书的结构和内容做一次概括的了解。如果想知道这些统计量具体的应用场景,可以查阅原书。对于统计学更高深的知识,读者可以去学习更专业的统计学课程。
   事实上,作为统计学中最基础的两个统计量:平均值和标准差,已经能够刻画出来数据很重要的一些特征,如果能够从样本数据中推导出总体的的平均值和标准差,可以说是很了不起的一件事儿,能在现实生活生产实践中给予我们很多帮助了。
    最后附上本书主要内容的思维导图