统计检验在统计研究中占有重要位置,而且几乎所有统计检验的结果都是一个p值。谢益辉说,所有的统计分析最后就是放了个屁,他说的屁其实指的就是p值的p.让人感到惊讶的是,不单是统计学,统计之外的学科,比如会计、经济学等,他们对p值的应用更加广泛。在《会计研究》《经济研究》这些标准专业期刊的文章里,不光有p,而且几乎所有的重要结论都是基于这个p值得出的。p值,这样一个简单的数字,几乎就能左右一篇文章的立意与基本结论,由此可见其重要性。也正因为如此,学者们喜欢用p,因为只要拿这样一个简单的数字和0.05做一个比较,你就可以大说特说一通。不用愁找不到这样一个小于0.05的p值,多做一些检验,总会得到想要的p值。
关于p值的应用,广为人知的是多重假设检验问题,我导师几年前就在《统计研究》上发表文章,专门论述多重假设检验情形下,如何对p值进行修正,现在这个问题似乎已经取得共识(不过可能还没有波及到其他学科)。这次去华师学习,听Berger的报告,才了解到,就算没有多重假设检验情形,只有单个假设检验时,p值也有被误用的可能。我们通过下面一个例子进行说明,这个例子来自于Berger的报告。
艾滋病研究人员在泰国开展一项实验,目的是检验一种新药对艾滋病是否具有显著的预防效果。共有16395名志愿者参加这项实验,这些志愿者按照完全随机的方式在治疗组(新药)和对照组(安慰剂)间进行分配,有8197名个体进入对照组,他们服用安慰剂,另有8198名个体进入治疗组,他们服用的是一种尚不明效果的新药。最后结果发现,服用安慰剂的8198名个体中,有74名个体感染了艾滋病,而在服用新药的8197名个体中,出现了51名艾滋病感染者。
参加实验的两个群体数目差不多,服用新药的群体艾滋病感染数目要明显小于对照组,这里我们能否做出新药显著地降低了艾滋病感染的概率这种结论嫩?如果$p_1$和$p_2$分别表示服用安慰剂和新药的群体中感染艾滋病的概率,那么上述问题就可以归结为以下的假设检验:
\[H_0:p_1=p_2\] \[H_1:p_1 > p_2\]这是双总体均值比较的检验,检验统计量为
\[z=\frac{\hat{p_1}-\hat{p_2}}{\sqrt{\hat{\sigma}_{\hat{p_1}-\hat{p_2}}}}=\frac{0.009027-0.006222}{0.001359}=2.06\]在大样本条件下,$z$近似服从正态分布。根据正态分布累计分布函数,可以得到检验p值为0.02.对研究人员而言,0.02的p值给人的感觉特别好,非常令人激动,因为它似乎暗示着,备择假设成立的可能性是原假设的50倍之多,毫无疑问新药具有显著预防艾滋病的效果。
一切都好像完美无缺,但问题恰恰出在p值的计算。我们根据实验数据计算得到z统计量为2.06,但计算的p值是z统计量超过2.06概率,也就是说,p值表示z统计量等于2.07,2.08,2.09,$\ldots$,一直到正无穷的概率,但是2.07,2.08,2.09,$\ldots$,只是是我们假想的一些极端事件,这些极端事件并没有发生,我们手头仅有2.06这样一个统计量,一个事件。p值包含了我们空想的,没有发生的,不利于原假设的极端事件,所以p值往往有偏好备择假设的倾向。在这个例子中,备择假设的可能性与原假设相比,可能会高一点,但并没有50倍那样夸张,p值高估了备择假设的可能性。
相比之下,贝叶斯假设检验结果可能更合理。在贝叶斯假设检验里,不在计算p值,而是求得两种假设的贝叶斯因子(bayes factor).在上面的例子中,备择假设对原假设的贝叶斯因子:
\[B_{10}(z)=\frac{average likelihood of H_1}{likelihood of H_0 for observed data}=\frac{\int\frac{1}{\sqrt{2\pi}}e^{-(z-\theta)^2/2}\pi(\theta)d\theta}{\frac{1}{\sqrt{2\pi}}e^{-(z-0)^2/2}}\]根据艾滋病研究团队给出的主观先验,可以得到 \(B_{10}(2.06)=4.0\);如果采用均匀先验,\(\pi(\theta)=Uniform(0,2.95)\),可以得到\(B_{10}(2.06)=5.63\).因此,上式的结果依赖于先验分布\(\pi(\theta)\)。但是不论采用何种形式的先验,总会有\(B_{10}(2.06) \leq 8.35\).这表示,在上例中,备择假设成立的可能性顶多也就是原假设的8倍,没有50倍那么夸张。所以,假设检验得到的p值不能用概率的含义进行解释,其大小也不能比较备择假设相对于原假设的可信程度,实际上p值常常高估备择假设的可能性。
p值常常高估备择假设的可能性,有两个原因。第一,p值是一个尾部概率,包含了没有发生的尾部极端事件;第二,相对于原假设,备择假设常常更为复杂,是一个复杂的模型,而复杂模型往往对数据拟合比较好,甚至产生过拟合的可能,所以假设检验有种偏向备择假设的倾向。
贝叶斯假设检验,从贝叶斯定理出发,比较原假设和备择假设,将他们看做两个不同的模型比较,并用概率对其可能性进行度量,结果清晰自然,易于解释。贝叶斯假设检验利用先验分布,控制备择假设的过拟合问题,另外贝叶斯假设检验只从已有数据出发,不会考虑没有发生的极端事件,综合这两点,贝叶斯假设检验的结果比传统p值更为合理。
通过上面的讨论,我们发现,即使在小于0.05的情形下,p值也不能直接用来解释备择假设相对于原假设的可信程度。如果想以概率的方式描述两种假设的相对可能性,只能用贝叶斯因子。在通常的假设检验里,我们得到的是一个p值,把p值快速转化为贝叶斯因子的过程,就是p值的校准。
Good提出了一系列的校准方式:
Berger也提出了一种校准:
\[B_{01}(p) \geq -eplog(p)\]Berger的校准方式表示,对于给定的一个p值,可以迅速校准得到原假设相对于备择假设贝叶斯因子的下界。