本文尝试浓缩书本中关于正态分布的知识,帮助读者在20分钟内理解主干知识及用途,并希望写得尽可能有趣。正态分布亲和且接地气,现在,让我为你介绍ta吧~
(德币10马克印有高斯头像,以及他的“代表作”——高斯分布曲线。)
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),简单来说,它描述的就是正常分布,比如身高、体重、财富等分布,多数人都会集中在某个区间。尽管在高斯之前,有些数学家已经发现了这一规律,但高斯是第一个将其系统化的人。用时髦的话来讲,正态分布是一个“高性价比”的思考工具,因为它简单易学且应用广。正态分布广泛存在于自然界、社会科学、人文科学等领域,比如动物骨骼大小、考试成绩、产品质量指标、农作物产量等数据分布大多符合这一规律。在统计推断中,它是最重要的一类概率分布,也是许多统计方法的理论基础。
(正态分布的知识关系图)
01 正态分布的背景知识
平均值、方差、标准差三个部分如同土壤,会很大程度影响正态分布这棵树的生长情况。因此,在介绍正态分布前,我需要简单介绍它们(如你已掌握,可直接跳至 02正态分布的主干知识 进行阅读~)。
由于样本量的不同,平均值、方差、标准差可以分“总体”和“样本”两类。为强化对比,在后文的介绍中,我会在它们前面加上限定词,即“总体”或“样本”。如果没有限定词,那么平均值、方差、标准差所指代的就是总体的平均值、方差、标准差。
- 平均值
平均值(平均数)是我们的小学旧识。温故知新,因为它会在新情景下返场,因此我打算简单提一下。用简洁、严谨、优美的数学语言,一句话回顾平均值:“平均值是一组数据中所有数据之和再除以这组数据的个数,用于表示一组数据的集中趋势。”
(平均值示例图)
- 方差
方差是衡量一组数据波动大小的统计量。我们学习方差最重要的,不在于掌握繁杂的计算,而是能够根据其结果,了解所有数据的状态。
方差分为两类:总体方差和样本方差。两者的基本思路一致,但最大的差别在于样本量不同,前者是整体,后者是整体中的部分。
若x1,x2,x3……xn的平均数为μ,则总体方差可表示为:
(Excel 里也能看到它的身影~)
我们还是用上面的1和10两个数字,总体平均值μ=5.5的简单例子,来看公式如何使用。
(少量数据好计算,数据多的话,就让计算机/器帮忙吧~)
回到总体方差和样本方差区别的话题,这里举个简单的例子来说明。假设我们想知道中国人身高的标准差,但因人、财、物力有限,我们不可能把所有人都量一遍,因此,只能退而求其次,采取抽样策略,用样本标准差来推测整体,这时,我们就会用到样本方差。
样本方差和总体方差计算上略有区别,主要体现在分母上。不同于总体方差的分母为n,样本方差的分母为n-1。这里“-1”是为了修正样本方差对总体方差的估计偏差,这种现象被称为“贝塞尔校正”(Bessel’s correction)。
这个减去的“1”,不特指任何一个数,它代表那个失去“独立客观”的维度(自由度)。
样本方差的计算公式如下:
因此,在计算样本标准差(S,即样本方差开根号)时,其分母也是n−1而不是n(即样本大小减1)。这里在后文标准差的部分还会提到。
小贴士:样本标准差的分母为什么为n-1在数学领域已被证明,是较复杂的内容,这里不做过多展开,有兴趣的读者可查阅相关资料哦~在公式的应用过程中,你或许会觉得计算很麻烦(事实也确实如此)。好消息是,计算在方差中并不是最重要的,我们要做的,是关注总体方差(σ²)的值,并由此了解方差想告诉我们的秘密:数据内部的状态如何。
在投资分析中,尤其是在股票投资中,方差是一个有用的统计工具,它可以帮助投资者了解投资组合的风险水平。同样的回报率,方差越小,则风险越低。
- 标准差
标准差(Standard Deviation)是方差的算术平均数的平方根,也用于反映一个数据集的离散程度。标准差实际上就是方差开根。整体标准差用σ表示,样本标准差用s表示。两者的公式如图:
在本小节的末尾,我们来做个三者在“总体”和“样本”符号系统区别上的总结。详见下表:
当我们谈论一个正态分布时,通常是在谈论一个总体的分布,而不是一个样本的分布。因此,使用 μ 来表示正态分布的均值是合适的。均值、方差、标准差的背景介绍已结束。别走开,下节更精彩,主角闪亮登场~
02 正态分布的主干知识
- 正态分布
正态分布一种常见的连续概率分布,它在自然科学和社会科学中常用于表示未知的随机变量。若随机变量X服从一个数学期望为μ、方差为σ²的正态分布,则记为N(μ,σ²)。
正态分布的曲线呈钟型,因此人们又经常称之为“钟形曲线”。正态分布虽有无数种形态,但仍由μ(平均值)和σ(标准差)两个数值决定。其中,μ决定了正态分布的位置,σ决定了分布的幅度。理解了这一点,你就不需要单独记忆每一个正态分布图啦。
现在,让我们一起来看一些有代表性的正态分布图吧(下面的文字浓度有点高,值得多看几遍~):
当μ=0,σ=1时,这个正态分布就是标准正态分布,(见下图红线)。
以正态分布为参考标准,μ为负则图形向左移动(见下图绿线),反之,μ为正,则图形向右移动。μ不变,σ越小,则正态分布曲线越陡峭(见下图蓝线),图像越“高瘦”,反之则越平缓(见下图黄线),图像越“胖”。
(正态分布图 图源:维基百科)
小贴士:不知道你是否注意到,和各行业一样,数学也有自己的“黑话”(业内术语),比如正态分布定义里的“服从”和“期望”。
数学语言中的“服从”是指“符合”、“遵从”的意思,一般指事物符合数学中的发展规律。另外,数学术语中,“期望”或“数学期望”是一个重要的概念,特别是在概率论和统计学中。它表示随机变量的预期值或平均值。
除了上面的例子,正态分布其实还有数种形态,但它们的模型主要由μ(平均值)和σ(标准差)两个数值决定。
介绍了决定正态分布曲线的关键参数后,我们再来看看关于曲线下方覆盖面积呈现的规律。在距离平均值±1的标准差(即±σ)范围内,集中着约全体68.26%的数据;距离平均值±2的标准差(即±2σ),集中着约95.45%的数据;距离平均值±3的标准差(即±3σ),包含着99.73%的数据。曲线下方覆盖的面积,在统计学上被称“置信区间”。
(正态分布图 图源:维基百科)
这张图是不是有点抽象?哈哈哈,让我举几个例子,让置信区间中的数字走进生活。
(1)有大约68%的可能性,动态范围不超过平均值±σ。在一个班上,一班的平均分为80分,如果标准差为5分,我们就有68%的置信度说,考虑到随机性的影响,这个班的平均成绩应落在75~85之间,而不是之外。
(2)有大约95%的可能性,动态范围不超过平均值±2σ,即两个σ的置信度是95%。做科学试验时,通常需要有95%的置信度,才能得到大家认可的结论;在产品质检中,可以通过抽样检测来估计产品的平均质量水平,并利用95%置信区间来评估这个估计的可靠性。
(3)如果我们进一步扩大误差范围到±3σ,那么这个置信度就提高到99.7%。在要求极高的实验中,我们甚至会要求达到99.7%的置信度,甚至更高;在招聘中,面试官可以使用3σ原则来确定录取分数线。通过计算应聘者的平均分数和标准差,可以确定一个合理的分数线范围,从而筛选出合格的应聘者。小贴士:总体正态分布图vs样本正态分布图(符号区别)
03 正态分布的标准化
在02正态分布的主干知识中,我们介绍了影响正态分布形态的土壤(平均值、方差、标准差),以及由此长出的小树(正态分布的图像)。结束前,我想跟大家介绍一个与正态分布有关的常用小工具。
- 标准化与查表求概率
虽然通过观察图也能把握大致情况,但计算数值后会更便于理解,也方便向他人展示。好消息是,Z转换(标准化)可以实现统一尺度。
对于数据集中的每一个数值X,可使用以下公式进行标准化:
在这个公式中,Z是转换后的标准值,X 是原始数据点的值,μ是原始数据的平均值和σ是原始数据的标准差。
别被公式吓到,放进日常的简单应用场景就豁然开朗了。
小A参加了小学模拟考试,数学得了73分,英语得了76分。数学平均分是60分,英语平均分是68分。那么,小A的数学成绩和英文成绩,哪一个相对来说比较好呢?(得分均按照正态分布)实际上,仅这些条件是无法进行判断的,还需要能够表示全体离散程度的标准差。现在,我们假定数学是标准差为8分的正态分布,英语则是标准差为6分的正态分布。
用Z变换的公式可得:数学 : (得分-平均分)÷标准差=(73-60)÷8=1.625
英语 : (得分-平均分)÷标准差=(76-68)÷6=1.333
也就是说,当标准差为1时,小A的数学、英语成绩标准差分别是1.625、1.333。不同学科的成绩转化为标准得分后,变得可比较了。
另外,用“标准得分=1”进行了标准化,“平均值”会变成什么样呢?本来,平均分根据科目的不同而不同,但以标准得分进行分布的时候,平均值为0。
因此,在对成绩进行“标准化”时,分布会变为平均值=0、标准差=1的标准正态分布。需注意的是,标准化改变的只是图的位置,比如向左或向右平移,但并不会改变“高矮胖瘦”。
完成z变换,我们就通过可以利用z值表找到对应的概率值啦。这里会用到“标准正态分布表”。
这个表是前人整理好的数据,用起来也很方便。首先,我们要看最左手列,去查阅Z至小数点后1位数,之后,我们再查最上一行,看Z的第二位小数,左右交叉得到的数,就是我们需要找的数。
放到小A的例子中,数学的标准差为1.625、英语的标准差为1.333。我们来试试查这个表。以数学为例,先看最左列,Z至小数点后1位数为1.6,接着,再看最上行,Z的第2位小数我取0.02,交叉得到的数就是0.9474(蓝色方框中的数)。英语的查阅方式同理,取值为0.9082。
查表后,就是分析数据了。数学取值为0.9474,英语为0.9082,即数学约处于94.74%的水平,英语处于90.82%的水平。如果参加全国数学、英语模拟考试的人有1万人,小A数学大概处于526名的位置((1-0.9474)x10000=526名),英语处于972名的位置。用图表示更清晰,这里以数学为例:
04 结语
好啦,恭喜看到这的你,在20分钟左右的时间,你已经了解了正态分布最核心的知识!最后,做个简要的总结。在这篇文章中,我们先一起回顾了平均值、方差和基本差的背景知识,并在此基础上了解了正态分布的形状、特征以及如何使用。最后,介绍了一个与正态分布有关的重要工具“标准正态分布表”,并以小A考试成绩分析的例子,来理解这款工具是如何使用的。
延伸阅读:样本量足够大,二项分布会近似服从正态分布
二项分布描述的是在一系列独立重复的伯努利试验中,成功的次数所服从的概率分布。其中,每次试验只有两个可能的结果,成功或失败,且成功的概率是恒定的。在样本量足够大的情况下,二项分布会近似服从正态分布。
参考资料
1. 吴军. 吴军数学通识讲义:原来数学可以这样用[M].第一版. 新星出版社, 2021-4. 2. [日] 本丸谅/著 罗梦迪/译. 新手小白学统计[M]. 第一版. 北京: 北京时代华文书局, 2023年5月.