科学研究依赖于对结果的仔细观察和对原因的分析。是两个因素真的相关,还是它们之间的表面关系只是偶然?多年来,研究人员一直依靠计算 p 值来帮助确定是否应该相信研究结果。更具体地说,P 值小于 0.05 通常被认为是统计意义的临界值,尽管其历史并不令人信服。这一惯例对学术界有利吗?
从某种程度上讲,选择 0.05 的临界值仍然相当于 二十 分之一的概率认为零假设为真(例如,两个因素之间没有真正的相关性)。但即使是这种不确定性,也是假定基于该临界值得出的结论是准确的。发表在PNAS上的一项研究对许多已发表结果的 p<0.05 临界值的实用性提出了质疑。该研究的作者、得克萨斯农工大学的Valen Johnson使用了一些新的统计方法来检验 p<0.05 是一个有用的临界值这一观点。Johnson采用一种新的贝叶斯检验方式,根据结果,他认为多达25%的已发表结果可能是不真实的。也就是说,在P<0.05时达到显著性的研究只相当于贝叶斯系数3到5,这被认为是支持一个结论的相当弱的证据。
考虑到重复实验相关的更大问题,p<0.05 这一惯例是否应对此负责?当然,使用不恰当的统计方法、研究人员的失误,甚至欺诈都是造成这一问题的原因。尽管如此,Johnson还是建议将P值小于0.005作为目标,这将大大减少可重复性方面的问题,他说:"很少有重复失败的研究是基于0.005或更小的P值"。另一个解决方案是放弃研究论文中最常用的频数检验,转而使用贝叶斯分析方法。
你在工作中是如何使用 P 值的?你认为研究人员是否愿意将标准临界值降至 0.005,以增加对研究结果的信心?由于已发表论文的数量已经高得惊人,因此确保他们所展示的结果可信至关重要。AJE希望听到你的意见。