0 1 2 4 - 「正态分布」如重力一般的客观规律~
本帖最后由 不二如是 于 2023-9-28 10:16 编辑在线学习:
https://www.bilibili.com/video/BV1r8411i7Ui
先来一张直观的撸铁图:
假设每个人的力量是一个变量,那么当样本足够大的时候,这个变量就符合正态分布。
其实也有 bug,但可以忽略不计:
**** Hidden Message *****
日常生活中,正态分布的应用随处可见。
当你打开电脑时,某产品会告诉你,“你的开机时间 22 秒,打败了全国97%的用户”。
“22 秒”你可能没概念,但“打败了全国 97 %的用户”一下子就让会你明白快还是慢。
不过你有没有想过,这个 97% 是怎么来的?
答案在最后~~
可能有鱼油会问:
正态分布?是什么阿{:10_254:}
“正态分布”这个词,听上去挺复杂的,但它的英文表达就简单多了,叫 normal distribution。
直接翻译过来就是“正常的分布”“一般的分布”。
其它分布都是特殊的,只有正态分布是一般的、正常的。
从名字上,我们也能感受到它的重要性。
1801 年初,一个神秘的天体出现在天文学家的视野中,几周之后又神秘消失。
它是什么?
又去了哪儿?
没人知道。
正在所有人都束手无策之时,“数学王子”高斯站了出来,他用一支笔计算出了这个天体的运行轨道。
果然,在高斯指定的位置,人们重新发现了它。
这就是人类发现的第一颗矮行星——谷神星。
你可能好奇,高斯是怎么计算出这颗天体的运行轨道的呢?
很简单,他在计算的过程中使用了正态分布。
德国为了纪念高斯,就在 10 马克的钞票上印上了高斯的头像,而在头像旁边的,就是正态分布的钟形曲线。
所以正态分布又叫“高斯分布”。
别看正态分布这么重要,但其实特别简单!
说起正态分布曲线,你肯定见到过——一条对称的倒钟形曲线,中间很高,两边下降,像个鼓起的小山包。
在正态分布的曲线图里,横坐标代表随机变量的取值范围,越往右,随机变量的值就越大;
纵坐标,则代表概率的大小,最底下的概率是0,越往上概率越大。
这样,从曲线上随便找一点,确定它的横坐标、纵坐标,我们就知道了这个值出现的概率是多少。
因为这条曲线是左右对称的,所以中间的最高点,就代表平均值出现的概率最大,数据最多;
而两边陡峭下降,就意味着越靠近平均值,数据越多;
越远离平均值,数据就越少。
当然,我们不能停留在这种粗糙的描述上,要理解正态分布,必须了解它的三个数学性质。
性质一:均值就是期望
也就是说,正态分布曲线中间最高点的横坐标,不仅代表随机变量的平均值,而且还等于它的数学期望。
这是经过数学证明的,先不用太纠结,记住就好{:10_275:} 。
在概率论中,正态分布的均值和期望就是一个意思,是一件事儿的两种表达。
数学期望代表长期价值,而现在平均值又是数学期望。
也就是说:
在正态分布中,平均值就代表随机事件的价值。
为什么我们会用平均收益,衡量一所公司的教学质量?
为什么我们会用平均收益率,衡量一家基金公司的好坏?
原因很简单,公司收益和基金公司的收益,是服从正态分布的。
而在正态分布中,平均值就代表这个随机事件的价值。
当然如果不是正态分布,均值可能就没有这么大的意义了。
比如说台风,谁也没听说过平均强度和平均损失这样的说法吧?
性质二:极端值很少
还记得正态分布的图吗?
越靠近平均值,这条曲线越高,出现的概率越大;越远离平均值,这条曲线就越低,出现的概率就越小。这就说明,正态分布的大多数数据都集中在平均值附近,极端值很少。
“极端值很少”这句话,有两层含义:一是极端值出现的概率很低,二是极端值对均值的影响很小。也因此,正态分布是非常稳定的。
拿人的身高来说吧,它大体服从正态分布,所以即使姚明加入我们鱼C,我们的平均身高也不会有太大变化。
当然,如果不服从正态分布,均值往往就很不稳定。
性质三:标准差决定胖瘦
如果留心你会发现,同样是正态分布图,有的曲线要矮胖一些,有的要高瘦一点,这是为什么呢?
其实就是因为标准差不同。
前面讲过,标准差就是方差的平方根,也能用来描述随机变量的波动情况。
在正态分布中,标准差越大,数据的波动越剧烈,钟形曲线就越矮胖;
标准差越小,数据越集中,钟形曲线就越高瘦。
为什么刚才说正态分布简单?
就是因为在正态分布中,平均值等于期望,决定这条曲线的最高点;
方差决定胖瘦,决定曲线的弯曲度。
简单两个数据,就确定了这条曲线的形状
开头的 97% 是这么来的。
需要要把全国每台电脑的开机时间都收集起来,做个排序吗?
这太复杂了吧?肯定不需要。
他们只需构建了一个正态分布的模型而已~
大部分电脑的开机速度都差不多,只有小部分快一点或慢一点,可以认为它服从正态分布。
只要均值和标准差两个数据就能完全确定是正态分布。
所以,只要随机抽取一部分用户的开机数据,算出均值和标准差,就可以确定一条正态分布曲线。
而在正态分布中,一个标准差覆盖 68.26% 的数据,两个标准差覆盖 95.44% 的数据……
都是一一对应、完全确定的。
有了这层关系,当你的电脑开机的时候,它只需要比较你的开机时间和均值的差距,就能知道你距离均值多少个标准差,也就知道你的排名了。
最后欢迎评论区告诉我们:生活中,你还知道有哪些事情符合正态分布?
预知更多神文请看:
菊、套与吹水 | 【???】
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
如此多懂学习的VIP至尊都已订阅本专辑,你还不快点行动!(->订阅传送门 ) 啥bug啊 哇喔,很受启发 哇喔,很受启发 哇喔,很受启发 {:10_275:} {:10_275:} 哇喔,很受启发 哇喔,很受启发 哇喔,很受启发 {:7_146:} 哇喔,鱼币 哇喔,很受启发 哇喔,很受启发 哇喔,很受启发 哇喔,很受启发 不二咋啥都知道啊(%%%) 哇喔,很受启发 哇喔,很受启发 哇喔,很受启发