从最小二乘法到正态分布:高斯是如何找到失踪的谷神星的?
By Long Luo
在上一篇文章 正态分布(Normal Distribution)公式为什么长这样? 中,我们使用了投掷飞镖的模型,推导出了正态分布( \(\text{Normal Distribution}\) )的表达式。这种方法既优雅又直观,所以常被用于科普视频或者文章中。那么这个例子是怎么来的呢?我们知道这个方法是天文学家赫歇尔( \(\text{John Herschel}\) )在 1850 年给出的,难道他在投掷飞镖时想到的吗?
答案是否定的,原因是因为赫歇尔作为一个天文学家,需要精确的测量天体的位置,而在观测星星时,必须要考虑误差的影响。星星在天球中的位置误差是二维的,考虑到误差大家不太好理解,所以用了投掷飞镖这个更通俗易懂的例子。
正如法国著名哲学家孔德( \(\text{Auguste Comte}\) ,1798-1857)所说“To understand a science, it is necessary to know its history. ”,只有了解这个学科的发展历史,了解这个学科的重要概念是如何建立起来的,才能真正理解这个学科。不同于我们在课本中学习顺序,科学是用来解决实际问题的,科学是由一个个问题所驱动发展的。正如仅次牛顿和爱因斯坦的伟大物理学家麦克斯韦( \(\text{James Clerk Maxwell}\) ) 曾说过“It is of great advantage to the student of any subject to read the original memoirs on that subject, for science is always most completely assimilated when it is in the nascent state…”,我们学习历史上科学家是如何解决这些问题,用了什么方法,才能获取某个概念的 insight ,建立 intuition 。
正态分布,又被称为高斯分布( \(\text{Gaussian Distribution}\) ),人们可能会以为正态分布是由高斯发现的,但事实并非如此!
正态分布最早是由法国数学家棣莫弗( \(\text{Abraham de Moivre}\) , 1667-1754)在 1718 年左右发现的。他为了解决朋友提出的一个赌博问题,而去认真研究了二项分布。他发现当实验次数增大时,二项分布( \(p=0.5\) )趋近于一个看起来呈钟形的曲线,如下图 1 所示。后来著名法国数学家拉普拉斯( \(\text{Pierre-Simon Laplace}\) , 1749-1827)对此作了更详细的研究,并证明了 \(p \ne 0.5\) 时二项分布的极限也是正态分布。之后人们便将此称为棣莫弗 - 拉普拉斯中心极限定理( \(\text{Central limit theorem}\) )。
失踪的谷神星
16 和 17 世纪是天文学发展的黄金时期,这一时期的科学革命彻底改变了人类对宇宙的理解。哥白尼( \(\text{Nicolaus Copernicus}\) ,1473-1543)的日心说、开普勒( \(\text{Johannes Kepler}\) ,1571-1630)的行星运动三定律、伽利略( \(\text{Galileo Galilei}\) ,1564-1642)的望远镜观测以及牛顿( \(\text{Isaac Newton}\) ,1643-1727)的万有引力定律共同构成了现代天文学的基础。这一时期的科学家们不仅改变了人类对宇宙的理解,还为后续的科学研究提供了重要的方法和工具。