正态分布(Normal Distribution)公式为什么长这样?
By Long Luo
相信大家或多或少都听过六西格玛( \(\text{6 Sigma}\) ) 1 这个词,六西格玛是指生产的产品中, \(99.99966\%\) 的产品是没有质量问题的,即只有 \(3.4ppm\) 的不良率。
假如一家工厂生产某型号零件,零件的长度要求是 \(100mm\) ,允许的标准差是 \(0.1mm\) 。根据 \(6 \sigma\) 原则,零件规格允许的偏差范围是: \(100 \pm 6 \times 0.1 = 100 \pm 0.6\) 。
这意味着,零件长度超过 \(100.6mm\) 或低于 \(99.4mm\) 的概率是非常低的,约为 \(0.00034\%\) 。如果工厂每天生产 100 万个零件,只允许有 \(3.4\) 个零件会超出 \(6 \sigma\) 的范围,几乎可以忽略不计。因此,生产过程是极其稳定和可靠的,达到了六西格玛水平。
那么 \(6 \sigma\) 中 \(3.4ppm\) 的不良率来自哪里呢?
学过中学数学都知道,在正态分布( \(\text{Normal Distribution}\) ) 2 中, \(68.27\%\) 的数据位于平均值的一个标准差内, \(95.45\%\) 位于两个标准差内, \(99.73\%\) 位于三个标准差内,这也是著名的 68-95-99.7 Rule 3 ,如下图 1 所示:
什么是正态分布?
数据可以用不同的方式“分布”,比如数据可以向左散布的多一些,也可以向右散布的多一些,或者分布的乱七八糟,如下图 2 - 4 所示,


但数据经常会集中在一个中心值的附近,而不向左或右偏斜,像一个钟形,如下图 5 所示。
正态分布,又称高斯分布( \(\text{Gaussian Distribution}\) ),是一种重要的概率分布,数学王子高斯 4 在正态分布的研究和应用上做出了巨大贡献。有很多日常现象都符合这种分布,如人的身高、考试成绩等。正因为它几乎无处不在,所以叫 \(\text{Normal Distribution}\) 。德国曾经发行的一款 10 马克的纸币上就印着高斯和正态分布曲线,如下图 6 所示。


