|
美国统计协会:使用P值的6条准则
2016年3月,美国统计协会(ASA)正式发布了一条关于P值的声明:"The ASA's statement on p-values: context, process, and purpose",并提出了6条使用和解释P值的原则。
QQ图片20160412101717.png
(232.31 KB, 下载次数: 0)
QQ图片20160412102138.png
(12.63 KB, 下载次数: 0)
以上是该则声明缘起的背景,看上去多少有点讽刺的味道,但事实却也摆在眼前。从舆论上看,许许多多的文章都在讨论P值的弊端,针对这些对P值的批评,ASA决定起草一份声明,一方面是对这些批评和讨论作一个回应,另一方面是唤起大家对科学结论可重复性问题的重视,力图改变长久以来一些已经过时的关于统计推断的科学实践。经过长时间众多统计学家的研讨和整理,这篇声明今天终于出现在了我们面前。
什么是P值?
P值指的是在一个特定的统计模型下,数据的某个汇总指标(例如两样本的均值之差)等于观测值或比观测值更为极端的概率。这段描述是我们通常能从教科书中找到的P值定义,但在实际问题中,它却经常要么被神话,要么被妖魔化。鉴于此,声明中提出了六条关于P值的准则,作为ASA对P值的“官方”态度。这六条准则算是这条声明中最重要的部分了。
使用P值的6条准则
1. P-values can indicate how incompatible the data are with a specified statistical model.
2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
4. Proper inference requires full reporting and transparency.
5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
翻译过来,大概是这样的。
1. P值可以表示数据与一个特定的统计模型是否相容
我们通常会设立一个假设的模型,称为“原假设”,然后在这个模型下观察数据与这个所谓的原假设的匹配程度。P值越小,说明数据与模型之间越不匹配。
2. P值不能代表假说为真的概率,也不代表数据完全是由随机因素造成的概率
P值是对数据与解释之间关系的说明,而不是对解释本身的说明。
3. 科研结论、商业决定和政策制定不能仅凭P是否小于一个特定的阈值来决定
重大决策的制定,需要考虑诸多因素,如实验设计、数据质量、实际实施可能性等等,仅仅看P值是否小于检验水准(0.05或0.01)是非常具有误导性的。
4. 正确的推理需要全面的报告和透明度
这条准则强调,正确的科学推理需要研究者公布研究中包含的所有假设,所有数据收集的决定,所有进行的统计分析和所有P值,不能有选择地给出P值和相关分析。我们在做研究的过程中,通常会采用多种方法多角来看待某一问题,而研究者为了达到某种目的,一般只报告P值最小的那项,这就可能造成这个P值无法解释。
5. 仅凭P值,或者有统计学意义,不能说明一个效应的大小,或者一个结果的重要性
P值大小不代表效应大小。P值的大小与研究的效应无关联。
6. P值本身不能作为衡量一个模型或假说的好坏的工具
P值,就是一个单独的数字,能提供的信息十分有限。用一个略小于0.05的P值来拒绝零假设,说服力不够;另一方面,一个相对较大的P值也不能就认为是赞成零假设。一句话,数据分析不能仅仅计算P值,而应该探索其他更贴近数据的模型。
声明最后给出了对统计实践者的一些建议:好的科学实践包括方方面面,如好的设计和实施,数值上和图形上对数据进行汇总,对研究中现象的理解,对结果的解释,完整的报告等等——科学的世界里,不存在哪个单一的指标能替代科学的思维方式。
ASA的执行董事Ron Wasserstein说,P值从来都不能取代科学推理,一个好的科学推理也不是仅仅一个数据、以及整个数据是不是在某个范围内能决定的。只关注P<0.05的时代应该过去了。
|
|