x服从指数分布什么意思,x服从01分布表示什么

  

     

  

  互联网时代每天产生的数据呈指数级增长。如何看透数据背后隐藏的秘密和规律,统计概率论应运而生,迅速成为科学的基础工具,并渗透到整个自然科学和社会科学领域。   

  

  概率论是研究随机现象定量规律的数学分支。它可以帮助我们应对不确定性,预测未来,做出科学决策。面对一个随机而复杂的世界,数学家们用分布来描述变量的变化性(某一类型内的差异)和多样性(不同类型间的差异),将变量表示为定义在数值或类别中的概率分布。为分布式事件或值分配一个概率。   

  

  日降雨量、测试分数或高度的分布为每个可能的结果值分配一个概率。各种统计将分布中包含的信息压缩成单个数值,例如平均值就是分布的平均值。   

  

  社会科学家经常用平均数的方法来比较各国的经济发展水平。比如2020年,美国人均GDP为63051美元,日本为39048美元,中国为10582美元。常见的概率分布有泊松分布、二项式分布、伯努利分布、正态分布和均匀分布。正态分布是核心概率分布。   

  

  一、认识正态分布正态分布,又称“正态分布”,又称高斯分布。正常曲线呈钟形,两端低,中间高。左右对称。因为它的曲线呈钟形,所以人们常称之为钟形。   

  

     

  

  正态分布函数的公式如下:   

  

     

  

  其中,是均值,是标准差。决定了正态分布的位置,越接近,被取的概率越大,反之亦然。描述了正态分布的离散程度。越大,数据分布越分散,曲线越平坦。越小,数据分布越集中,曲线越陡峭。在标准正态分布中,大约68.2%的点落在1个标准差内。大约95.5%的点落在2个标准偏差内。大约99.7%的点落在3个标准差的范围内。   

  

     

  

  正态分布的概念最早是由法国数学家德莫伊弗尔于1733年提出的,随后由德国数学家高斯首次应用于天文学研究。所以正态分布也叫高斯分布。高斯的工作对后世影响很大,所以有“高斯分布”的美称。   

  

  在我们的自然界中,大多数物种的身高体重都符合正态分布,它们围绕均值对称分布,不包含特别大或特别小的事件。   

  

  例如,我们从未见过一只一米长的蚂蚁或一只一公斤重的大象。世界似乎被代表正态分布的“钟”所包围。很多东西都服从正态分布:人的身高、胖瘦、寿命、雪花大小、测量误差、灯泡寿命、智商得分、面包重量、学生考试成绩、员工上班时间等等。   

  

  正态分布具有以下特征:   

  

  浓度:曲线的最高峰位于中心,位置就是平均值所在的位置。   

  

  对称性:正态分布曲线围绕平均值所在位置左右对称,曲线两端无线逼近横轴。   

  

  均匀性:正态分布曲线以均值的位置为中心向左右两侧均匀递减。   

  

  面积相等:曲线和水平轴之间的面积始终等于1。   

  

  正态分布有两个非常重要的参数,分别是样本的均值和标准差。平均值是样本中所有点的平均值。平均值定义了正态分布的峰值位置,大部分值都集中在平均值附近。标准偏差是数据集与样本平均值的偏差。标准差定义了正态分布的宽度,决定了观察值和平均值之间的偏离程度。标准差越小,正态分布曲线越窄。标准差越大,正态分布曲线越宽。当分布很窄时,值落在   

  

  两个正态分布之和为正态分布;   

  

  正态分布的傅立叶变换仍然是正态分布。   

  

  二、正态分布的原因钟形分布曲线无处不在。为什么?奥秘来自于中心极限定理。   

  

  中心极限定理:只要随机变量是相互独立的,每个随机变量的方差是有限的,并且没有少数随机变量贡献了大部分的方差,那么N20个随机变量之和近似为正态分布。   

  

  中心极限定理告诉我们:   

  

  任何样本的平均值将大约等于其总体的平均值。   

  

  无论总体的分布是什么,任何一个总体的样本平均值都会围绕总体的平均值,呈现正态分布。   

  

  案例1:在一个500人的小镇上,   

人们的购买行为数据显示,每个人平均每个星期花费100美元。在这些人中,可能有些人这个星期只花50美元、下个星期则花150美元,另一部分人可能每3个星期花费300美元。而其他人则可能每个星期的花费在20至180美元之间。只要每个人的支出都只有有限的变差并且没有任何一小部分人贡献了大部分变差,那么分布的总和必定是一个正态分布,其均值为50000美元。每个星期的总支出也将是对称的:可能高于55000美元,也可能低于45000美元。

  

案例2:中心极限定理来解释人类身高的正态分布。一个人的身高取决于基因、环境以及两者之间的相互作用。基因的贡献率可能高达80%,因此不妨假设身高只取决于基因。研究表明,至少180个基因有助于人体长高。

  

例如,一个基因可能有助于长出较长的颈部或头部,另一个基因可能有助于长出更长的胫骨。虽然基因之间存在相互作用,但我们可以假设在“长高”这件事情上,每个基因都是相互独立的。如果身高等于180个基因贡献的总和,那么身高将呈现正态分布。

  

高尔顿钉板试验更加形象地证明了正态分布。弗朗西斯高尔顿是英国著名的统计学家、心理学家和遗传学家。他设计了一个钉板实验,希望从统计的观点来解释遗传现象。

  

如下图所示,木板上钉了数排(n排)等距排列的钉子,下一排的每个钉子恰好在上一排两个相邻钉子之间;从入口处放入若干直径略小于钉子间距的小球,小球在下落的过程中碰到任何钉子后,都将以1/2的概率滚向左边,以1/2的概率滚向右边,碰到下一排钉子时又是这样。如此继续下去,直到滚到地板的格子里为止。试验表明,只要小球足够多,它们在底板堆成的形状将近似于正态分布。因此,高尔顿钉板实验直观地验证了中心极限定理。

  


  

  

中心定理并不是万能的,他拥有三个很重要的前提:随机、独立和相加。

  

首先,第一个前提就是取样需要随机。如果我们抽取人的时候,只抽取长的高的或者只抽取长得矮的人,那么结果自然不符合正态分布。

  

第二,影响结果的因素是相互独立或者是相互影响比较小的。以身高为例,影响一个人长高的因素有很多,例如:父母长得高还是矮、营养是否跟得上、是否热爱运动......等等。父母长得高还是矮,对营养的补充没有很大的关系,跟是否热爱运动也没有关系,所以可以看成是相互独立的因素,所以身高的人群分布曲线自然就符合正态分布。

  

第三是相加,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。如果各种因素对结果的影响不是相加,而是相乘,那么最终结果就变成了对数正态分布。

  

在一定条件下,各种随意形状概率分布生成的随机变量,它们加在一起的总效应,是符合正态分布的。中心极限定理告诉我们:无论引起过程的各种效应的基本分布是什么样的,当实验次数n充分大时,所有这些随机分量之和近似是一个正态分布的随机变量。

  


  

  

中心极限定理从理论上证明了,在一定的条件下,对于大量独立随机变量来说,只要每个随机变量在总和中所占比重很小,那么不论其中各个随机变量的分布函数是什么形状,也不论它们是已知还是未知,当独立随机变量的个数充分大时,它们的和的分布函数都可以用正态分布来近似。这就是为什么实际中遇到的随机变量,很多都服从正态分布的原因,这使得正态分布既成为统计理论的重要基础,又是实际应用的强大工具。中心极限定理和正态分布在概率论、数理统计、误差分析中占有极其重要的地位。

  


  

三、正态分布的应用场景1、检验显著性

  

我们可以利用正态分布的规律来检验各种平均值的显著性差异。显著性检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。其原理就是“小概率事件实际不可能性原理”来接受或否定假设。如果经验均值与假设均值之间的偏差了超过两个标准差,那么社会科学家就会拒绝这两种均值相同的假设。

  

例如:现在提出这样一个假设,即旧金山的通勤时间与洛杉矶的通勤时间相同。假设数据表明,旧金山的通勤时间平均为33分钟,而洛杉矶为34分钟。如果这两个数据集的均值标准差都是1分钟,那么我们就不能拒绝旧金山和洛杉矶两地通勤时间相同的假设。虽然二者的均值不同,但只存在1个标准差。如果洛杉矶的平均通勤时间为37分钟,那么我们就会拒绝这个假设,因为均值之间相差4个标准偏差。

  


  

2、六西格玛方法

  

六西格玛方法是摩托罗拉公司于20世纪80年代中期提出的,目的是减少误差,该方法根据正态分布对产品属性进行建模。试想这个例子:一家企业专业生产制造门把手所用的螺栓。它生产的螺栓必须天衣无缝地与其他制造商生产的旋钮组装在一起。规格要求是螺栓直径为14毫米,但是任何直径介于13毫米与15毫米之间的螺栓也可以接受。如果螺栓的直径呈正态分布,均值为14毫米,标准差为0.5毫米,那么任何超过两个标准差的螺栓都是不合格的。

  

两个标准差事件发生的概率为5%,这个概率对于一家制造企业来说太高了。六个西格玛要求每一百万个机会中有3.4个出错的机会,即合格率是99.99966%。企业可以根据中心极限定理,从整体中抽样几百个,并根据这样一个样本来估计均值和标准差。然后推断出正态分布。这样一来,这家螺栓制造企业就可以得出一个基准标准差,然后花大力气去降低它。

  


  

3、对数正态分布

  

中心极限定理要求我们对随机变量求和或求平均值,以获得正态分布。如果随机变量是不可相加而是以某种方式相互作用的,或者如果它们不是相互独立的,那么产生的分布就不一定是正态分布。例如,独立随机变量之间的乘积就不是正态分布,而是对数正态分布。对数正态分布缺乏对称性,因为大于1的数字乘积的增长速度比它们的和的增长速度快,比如,4+4+4+4=16,但4×4×4×4=256;而小于1的数字的乘积则比它们的和小,比如,1/4+1/4+1/4+1/4=1,但1/4*1/4*1/4*1/4=1/256。如果将20个不均匀地分布在0到10之间的随机变量相乘,那么多次相乘后所得到的乘积将会包括一些很接近于零的结果与一些相当大的结果,从而生成如下图所示的对数正态分布。

  


  

对数正态分布

  

一个对数正态分布的尾部长度取决于随机变量相乘的方差。如果它们的方差很小,尾巴就会很短,如果方差很大,尾巴就可能会很长。如前所述,将一组很大的数相乘会产生一个非常大的数字。在各种各样的情况下都会出现对数正态分布,包括新冠肺炎的传染人数、大多数国家的收入分布也近似于对数正态分布。

  

一个简单的模型可以解释为什么收入分布更接近于对数正态分布而不是正态分布。这个模型将与工资增长有关的政策与这些政策所隐含的分布联系起来。大多数企业和机构都按某种百分比来分配加薪,表现高于平均水平的人能够得到更高百分比的加薪,表现低于平均水平的人则只能得到更低百分比的加薪。与这种加薪方法相反,企业和机构也可以按绝对金额来分配加薪。例如普通员工可以获得1000美元的加薪,表现更好的人可以获得更多,而表现更差的人则只能获得更少。

  

百分比加薪方法与绝对金额加薪方法两者之间的区别乍一看似乎只是语义上的区别,但其实不然。如果每一年的绩效都是相互独立且随机的,那么根据员工绩效按百分比加薪,就会产生一个对数正态分布。即使后来的表现相同,未来几年的收入差距也会加剧。

  

假设一名员工因过去几年表现良好,收入水平达到了80000美元,而另一名员工则只达到了60000美元。在这种情况下,当这两名员工的表现同样出色并都可以获得5%的加薪时,前者能够获得4000美元的加薪,后者却只能得到3000美元的加薪。这就是说,尽管绩效完全相同,不平等也会导致更大的不平等。如果企业按绝对数额分配加薪,那么两名绩效相同的员工将获得相同的加薪,由此产生的收入分布将接近正态分布。

  


  

总结正态分布启示我们,要用整体的观点来看事物。用整体来看事物才能看清楚事物的本来面貌,才能得出事物的根本特性。不能只见树木不见森林,也不能以偏概全。同时正态分布曲线及面积分布图告诉我们一定要抓住重点,因为重点就是事物的主要矛盾,它对事物的发展起主要的、支配性的作用。正态分布是科学的世界观,也是科学的方法论,是我们认识和改造世界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。

  

正态分布如此重要,不仅因为它在自然界普遍存在,还因为它是被证明的、其他复杂概率分布的演化结果,可以说是所有概率分布的最终宿命。根据“熵增”原理,一个孤立系统的熵总是在不断增大。而对一个已知均值和方差的分布,正态分布的熵值最大,即这个孤立系统中的所有结果持续演化,最终一定是呈正态分布的稳定状态。对于宇宙熵增的最终稳定态,是宇宙各部分能量达到平衡,失去活力,陷入热寂。

  


  

参考资料:

  

《模型思维》

  

作者:斯科特佩奇

  

浙江人民出版社

  

《从掷骰子到阿尔法狗:趣谈概率》

  

作者:张天蓉

  

清华大学出版社

相关文章