在华师学习的一些总结

在华师学习的一些总结
26 Jul 2015

P值

统计检验在统计研究中占有重要位置，而且几乎所有统计检验的结果都是一个p值。谢益辉说，所有的统计分析最后就是放了个屁,他说的屁其实指的就是p值的p.让人感到惊讶的是，不单是统计学，统计之外的学科，比如会计、经济学等，他们对p值的应用更加广泛。在《会计研究》《经济研究》这些标准专业期刊的文章里，不光有p,而且几乎所有的重要结论都是基于这个p值得出的。p值，这样一个简单的数字，几乎就能左右一篇文章的立意与基本结论，由此可见其重要性。也正因为如此，学者们喜欢用p,因为只要拿这样一个简单的数字和0.05做一个比较，你就可以大说特说一通。不用愁找不到这样一个小于0.05的p值，多做一些检验，总会得到想要的p值。

关于p值的应用，广为人知的是多重假设检验问题，我导师几年前就在《统计研究》上发表文章，专门论述多重假设检验情形下，如何对p值进行修正，现在这个问题似乎已经取得共识（不过可能还没有波及到其他学科）。这次去华师学习，听Berger的报告，才了解到，就算没有多重假设检验情形，只有单个假设检验时，p值也有被误用的可能。我们通过下面一个例子进行说明，这个例子来自于Berger的报告。

艾滋病研究人员在泰国开展一项实验，目的是检验一种新药对艾滋病是否具有显著的预防效果。共有16395名志愿者参加这项实验，这些志愿者按照完全随机的方式在治疗组（新药）和对照组（安慰剂）间进行分配，有8197名个体进入对照组，他们服用安慰剂，另有8198名个体进入治疗组，他们服用的是一种尚不明效果的新药。最后结果发现，服用安慰剂的8198名个体中，有74名个体感染了艾滋病，而在服用新药的8197名个体中，出现了51名艾滋病感染者。

参加实验的两个群体数目差不多，服用新药的群体艾滋病感染数目要明显小于对照组，这里我们能否做出新药显著地降低了艾滋病感染的概率这种结论嫩？如果$p_1$和$p_2$分别表示服用安慰剂和新药的群体中感染艾滋病的概率，那么上述问题就可以归结为以下的假设检验：

\[H_0:p_1=p_2\] \[H_1:p_1 > p_2\]

这是双总体均值比较的检验，检验统计量为

\[z=\frac{\hat{p_1}-\hat{p_2}}{\sqrt{\hat{\sigma}_{\hat{p_1}-\hat{p_2}}}}=\frac{0.009027-0.006222}{0.001359}=2.06\]

在大样本条件下，$z$近似服从正态分布。根据正态分布累计分布函数，可以得到检验p值为0.02.对研究人员而言，0.02的p值给人的感觉特别好，非常令人激动，因为它似乎暗示着，备择假设成立的可能性是原假设的50倍之多，毫无疑问新药具有显著预防艾滋病的效果。

一切都好像完美无缺，但问题恰恰出在p值的计算。我们根据实验数据计算得到z统计量为2.06，但计算的p值是z统计量超过2.06概率，也就是说，p值表示z统计量等于2.07，2.08，2.09，$\ldots$,一直到正无穷的概率，但是2.07，2.08，2.09，$\ldots$,只是是我们假想的一些极端事件，这些极端事件并没有发生，我们手头仅有2.06这样一个统计量，一个事件。p值包含了我们空想的，没有发生的，不利于原假设的极端事件，所以p值往往有偏好备择假设的倾向。在这个例子中，备择假设的可能性与原假设相比，可能会高一点，但并没有50倍那样夸张，p值高估了备择假设的可能性。

相比之下，贝叶斯假设检验结果可能更合理。在贝叶斯假设检验里，不在计算p值，而是求得两种假设的贝叶斯因子（bayes factor).在上面的例子中，备择假设对原假设的贝叶斯因子：

\[B_{10}(z)=\frac{average likelihood of H_1}{likelihood of H_0 for observed data}=\frac{\int\frac{1}{\sqrt{2\pi}}e^{-(z-\theta)^2/2}\pi(\theta)d\theta}{\frac{1}{\sqrt{2\pi}}e^{-(z-0)^2/2}}\]

根据艾滋病研究团队给出的主观先验，可以得到 $B_{10}(2.06)=4.0$;如果采用均匀先验,$\pi(\theta)=Uniform(0,2.95)$,可以得到$B_{10}(2.06)=5.63$.因此，上式的结果依赖于先验分布$\pi(\theta)$。但是不论采用何种形式的先验，总会有$B_{10}(2.06) \leq 8.35$.这表示，在上例中，备择假设成立的可能性顶多也就是原假设的8倍，没有50倍那么夸张。所以，假设检验得到的p值不能用概率的含义进行解释，其大小也不能比较备择假设相对于原假设的可信程度，实际上p值常常高估备择假设的可能性。

p值常常高估备择假设的可能性，有两个原因。第一，p值是一个尾部概率，包含了没有发生的尾部极端事件；第二，相对于原假设，备择假设常常更为复杂，是一个复杂的模型，而复杂模型往往对数据拟合比较好，甚至产生过拟合的可能，所以假设检验有种偏向备择假设的倾向。

贝叶斯假设检验，从贝叶斯定理出发，比较原假设和备择假设，将他们看做两个不同的模型比较，并用概率对其可能性进行度量，结果清晰自然，易于解释。贝叶斯假设检验利用先验分布，控制备择假设的过拟合问题，另外贝叶斯假设检验只从已有数据出发，不会考虑没有发生的极端事件，综合这两点，贝叶斯假设检验的结果比传统p值更为合理。

p值的校准

通过上面的讨论，我们发现，即使在小于0.05的情形下，p值也不能直接用来解释备择假设相对于原假设的可信程度。如果想以概率的方式描述两种假设的相对可能性，只能用贝叶斯因子。在通常的假设检验里，我们得到的是一个p值，把p值快速转化为贝叶斯因子的过程，就是p值的校准。

Good提出了一系列的校准方式：

$B_{01}=3(or 4)\times p$
$10p/3 \leq B_{01} \leq 30p$
$B_{01} \approx p\sqrt{n}$
$p\sqrt{2\pi n}/6 \leq B_{01} \leq 6p\sqrt{2\pi n}$

Berger也提出了一种校准：

\[B_{01}(p) \geq -eplog(p)\]

Berger的校准方式表示，对于给定的一个p值，可以迅速校准得到原假设相对于备择假设贝叶斯因子的下界。

上篇：《Bayesian Computation with R》课程讨论班下篇：品牌汽车保值效果哪家强？-基于回归模型的分析