最近读刘未鹏的《数学的番外之美:平凡而又神奇的贝叶斯方法》,该用什么词来形容我的感受呢?是振聋发聩、醍醐灌顶?还是羞愧难当、无地自容?二者皆有吧!我导师是搞贝叶斯的,我也自诩为一个小小的贝叶斯“迷”,但是看了这篇文章,才知道,我不是贝叶斯“迷”,倒是一直在贝叶斯的森林里“迷”路。所谓理解的贝叶斯分析范式,如同只知道在统计学的一片天底下有这么一片贝叶斯的森林,却不知道,是什么样的土壤催生了这样一片森林,并且长得如此茂盛。下面,在这篇文章的基础上,我想谈谈对贝叶斯方法的理解。
第一次接触贝叶斯公式,是在《概率论与数理统计》(高等教育出版社,盛骤、谢式迁和潘承毅),这本书在讲贝叶斯公式时用了一个例子,印象特别深刻,现叙述如下:
某电子设备制造厂所用的元件是由三家元件制造厂提供的,根据以往的记录有以下的数据:制造厂1提供元件的份额为0.15,次品率为0.02;制造厂2提供元件的份额为0.80,次品率为0.01;制造厂3提供元件的份额为0.05,次品率为0.03。设这三家工厂的产品在仓库中是均匀混合的、且无区别的标志。现在仓库中随机取出一只元件,若已知取出的是次品,为分析此次品出自何厂,需求出此次品由三家工厂生产的概率分别是多少。试求这些概率。
问题的解答为:
设\(A\)表示“取到的是一只次品”,\(B_{i}\)(i=1, 2, 3)表示“所取到的产品是由第i家工厂提供的”。易知,\(B_1,B_2,B_3\)是样本空间的一个划分,且有
\(P(B_{1})=0.15,P(B_{2})=0.80,P(B_3)=0.05\) \(P(A|B_1)=0.02,P(A|B_2)=0.01,P(A|B_3)=0.03\)
由全概率公式得:
\[P(A)=P(A \mid B_1)P(B_{1})+P(A \mid B_2)P(B_{2})+P(A \mid B_3)P(B_3)=0.0125\]由贝叶斯公式得:
\[P(B_1 \mid A)=\frac{P(A \mid B_1)P(B_{1})}{P(A)}=\frac{0.02\times 0.15}{0.0125}=0.24\] \[P(B_2 \mid A)=0.64,P(B_3 \mid A)=0.12\]以上结果表明,这只次品来自第2家工厂的可能性最大。
以上的例子,包括贝叶斯同学当年的论文中的例子,对于理解贝叶斯公式是浅显易见的,不过是概率公式的逆推。不过,贝叶斯公式上升为贝叶斯分析方法的时候,以上的例子太简单了,脱离了现实。以前,每当我对贝叶斯迷惑的时候,我就回来看这个例子,结果是更加迷惑了。因为我发现,贝叶斯所解决的问题,与这个例子有个莫名其妙的差距。在这个例子中,我们把份额当做先验分布,这无可挑剔,并且必须这样做!然而,在其他一些问题中,我们根本就没有看到先验分布的影子,却生硬的把它拽过来,加入到我们的分析行列,这是为什么呢?
我来举一个昨天中午发生的例子,这个例子发生在我们宿舍。事情是这样的:我们班有个同学叫“苏瑞娟”,而昨天中午,偶然地,我们就谈论起她来了,我们并没有什么特殊的目的,在这当中,尹金友说,“哎,我高中同学也有个同学叫什么“瑞娟”来者,什么瑞娟来?是“苏瑞娟”还是“孙瑞娟”,我都忘了!应该是孙瑞娟吧!”
以上小尹同学,其实完成了一个典型的贝叶斯数据分析工作。情况是这样的,小尹拥有的“数据信息”是D:我有个同学叫什么瑞娟,而且姓有s的这个音。而小尹要估计的参数\(\theta\)是:我同学具体是什么名字。小尹同学首先借助的仍然是标准的极大似然估计方法,他在找什么样的姓会使\(P(D \mid \theta)\)最大呢?于是小尹想啊想,很快,小尹发现,有两个姓名“孙瑞娟”和“苏瑞娟”都很有可能让他现在产生这样的感觉:我有个同学叫什么瑞娟,而且有s开头。至此,小尹用的还是极大似然估计。与此同时,我们也发现了极大似然估计的一个明显的问题,即有可能估计结果有多个,这时候该怎么选择呢?
于是贝叶斯分析的标签“先验分布”粉墨登场。小尹觉得:没错,是有可能叫“苏瑞娟”,也有可能叫“孙瑞娟”,但是小尹又知道,天底下姓孙的人比姓苏的人要多了去了,所以小尹结合自己的经验,做出了判断:他的高中同学更有可能叫“孙瑞娟”!用公式来说,小尹不是比较\(P(D \mid \theta=孙瑞娟)\)和\(P(D \mid \theta=苏瑞娟)\)(其实也比较了,但他发现这两个一样大),而是进一步比较\(P(D \mid \theta=孙瑞娟)\times p(\theta=孙瑞娟)\)和\(P(D \mid \theta=苏瑞娟)\times p(\theta=苏瑞娟)\),小尹发现前者大于后者,所以他做出了上述判断。
上面举得这个例子不是无的放矢,意在说明,为什么会用到贝叶斯分析的思路,或者更本质地,在极大似然估计的基础上,为什么要添加先验信息。从某种程度上说,极大似然估计是很完美的估计方法了,而刚刚我们也看到了,有时候,其估计也出现了一些问题,因此,这时候就借助了先验信息,形成了贝叶斯的分析范式。
基于当前数据,结合以往经验,对未来进行预测,这是人们探究未来的根本方式。怪不得拉普拉斯说,概率论只不过把人们的常识用概率公式表达出来。不过,真要进入数据分析实践当中,先验信息怎么确定,还是一个依赖统计人员品质的问题。有人,一拍脑瓜就弄出一个先验分布。这种情况下的先验分布,根本就没有基于以往的“经验”,这也是贝叶斯备受频率学派指责的要害。想成为一个真正的贝叶斯er,就必须认真地考察以往经验,设定合理的先验分布。
另外一点,贝叶斯的分析方式,不仅仅是矫正了传统似然估计下的结果,重要的是,它对参数解释与以往不同。似然估计,包括频率学派的矩估计等等,它们认为,被估计的参数,即使是未知的,也是一个确定的值。而贝叶斯们认为,参数本身就是随机的。利用贝叶斯分析,最后我们不能直接给出参数的确定估计,我们得到的仍然是一个参数的不确定性度量,只不过,这时候我们是用“后验分布”来描述的。统计学本身,是一个与不确定性打交道的学问,在统计学家看来,由于人们观察能力是有限的,所以没有东西是恒定不变的。从这种“统计哲学”看,似乎“贝叶斯统计”更加接近于统计的本质。
贝叶斯分析与频率学派并未你死我活,水火不容,二者还是各有优劣平分秋色。我认为,当数据充足的时候,我们大可以就用极大似然估计这样的传统经典的方法;而当数据较少的时候,为了确保估计的稳健,我们需要引入先验信息,用贝叶斯的分析方法进行模型构建。