为什么数据科学家都钟情于最常见的正态分布 对数正态分布

对数正态分布(为什么数据科学家爱用最常见的正态分布)对于深度学习和机器学习工程师来说,正态分布是世界上最重要的概率模型之一 。就算你没有红豆博客,没有参加过任何人工智能项目,你也一定遇到过高斯模型 。今天,我们来看看为什么高斯过程如此受欢迎 。
高斯分布又称正态分布,最早是由A. de moivre在二项分布的渐近公式中得到的 。C. F .高斯在讨论时从另一个角度推导了测量误差 。拉普拉斯和高斯讨论了它的性质 。它是数学、物理、工程等领域中非常重要的概率分布,在统计学的许多方面都有很大的影响 。
正常曲线呈钟形,两端低,中间高,左右对称 。因为它的曲线呈钟形,所以人们常称之为钟形曲线 。

如果随机变量x产生数学期望和方差为2的正态分布,则记录为n(,2) 。其概率密度函数作为正态分布的期望值决定其位置,其尺度差决定传播幅度 。= 0,= 1时的正态分布是标度正态分布 。

高斯概率离差的数学表达式
在自然现象中随处可见 。
所有的模型都是错的,但有些是有用的 。
—乔治·博克斯

漫射粒子的位置可以用正态色散来描述 。
正态分布有着极其普遍的实践背景,生产和科学实验中许多随机变量的概率分布都可以近似用正态分布来描述 。比如相同生产条件下产品的强度、抗压强度、口径、长度等指标;同一生物的长度、重量等指标;相同种子的重量;测量同一物体的误差;弹着点沿某一方向的偏离;某一地区的年降水量;和假想气体分子的速度分量等 。
一般来说,如果一个量是许多小的独立随机因素的结果,那么可以认为这个量具有正态分布 。理论上,正态分布有很多好的性质,很多概率分布都可以用它来近似 。也有一些常用的概率分布是由其直接推导出来的,比如对数正态分布、t分布、f分布等等 。
数学:中心极限定理

二维随机行走200万步后得到的模式空 。
极限定理的内容是大量独立随机变量之和经过适当的标度后逼近正态分布,与这些变量的原始分布无关 。例如,随机行走的总距离接近正态分布 。我们介绍三种情况的中心极限定理如下:
独立分布的中心极限定理
设随机变量X1,X2,...Xn,...独立同分布,并且数学期望和方差有限:E(Xi)=,d (xi) = 2 (i = 1,2...),那么对于任意x,扩散函数为

满足

这个定理解释了当红豆博客n很大时,随机变量

近似收益率正态分布n (0,1) 。因此,当n很大时,

适当屈服于正态分布N(n,N ^ 2红豆博客) 。这个定理是中心极限定理最简单最常用的情况 。在实际工作中,只要n足够大,独立同分布的随机变量之和就可以看作正态变量 。这种 在数理统计中应用广泛,是处理大样本时的主要工具 。
笛福-拉普拉斯定理
设随机变量X(n=1,2,...)是n,p (0

定理表明正态分布是二项分布的极限分布 。当数目足够大时,我们可以利用上面的公式计算二项分布的概率 。
离差的不同中心极限定理
设随机变量X1,X2,...Xn,...是独立同分布的,它们的概率密度被分离成fxk(x),其中E(Xk)=k,d(Xk)= k ^ 2,(k=1,2...)

对于任何正数,有:
【为什么数据科学家都钟情于最常见的正态分布 对数正态分布】
对于任意x,随机变量Yn的扩散函数Fn(x)满足:

这个定理的解释:如果所讨论的随机变量是大量独立均匀随机变量的和,那么它的分布将类似于正态分布 。
万变不离其宗
与许多其他分布不同的是,正态分布经过适当的变换后仍然是正态分布 。
两个正态分布的乘积仍然是正态分布 。
服从正态分布的两个独立随机变量之和服从正态分布
正态分布的高斯卷积或正态分布
正态分布经过傅立叶变换后还是正态分布 。
简洁的

奥卡姆剃刀强调一个哲学原理:在其他条件相同的情况下,最简单的方案就是更好的方案 。
对于任何由正态分布拟合的随机分布,都可能有一个多参数、更复杂、更精确的解 。但是,我们还是更喜欢正态分布,因为它在数学上很简洁 。
它的均值、中值、众数都是一样的 。
只需要两个参数就可以确定所有的色散 。
图形特征:
浓度:正态曲线的峰值在中心,也就是均值的位置 。
对称性:正态曲线以均值为中心,左右对称,曲线两端从不与横轴相交 。
均匀度可变性:正态曲线从均值所在的地方开始,分离度逐渐向左右两侧均匀递减 。