
你很可能在临床试验中读到过以下类似的陈述:
"我们发现 A 组和 B 组之间存在统计学上的显著差异,A 组比 B 组有更大的改善(P < 0.05)。 因此,我们建议使用 X 干预治疗 Y 病症"。(We found a statistically significant difference between group A and group B, with group A improving more than group B (P < 0.05). Therefore, we recommend using intervention X to treat Y condition)
在没有对试验的进行和报告方式进行评估的情况下,千万不要轻信这句话的表面价值。影响临床试验结果有效性的因素有很多,其中最简单但也是最重要的一个因素就是参与试验的总人数,这就是 "样本量"(sample size)。研究必须招募足够多的参与者,才能在统计学上确信结果是有效的。如果参与人数不足,结果可能会估计错误,导致结论有偏差。
规划临床试验时要考虑样本量
在规划试验时,研究人员要确定必须招募多少参与者参与研究。试验规模受三个因素影响:
1. 效应量
效应量(Effect size)是衡量两个变量之间关系强度的一个数值。 对于临床试验而言,效应量与最小临床意义变化值(MCID)有关。MCID 是临床试验结果必须达到的临界值,它具有改变患者治疗方案的临床重要性。如果干预有效,参与者将观察到对其病情有价值的效果。
2. 显著性水平(Significance level)
显著性水平也称为 P 值或α,是指组间差异偶然发生的概率。
最常见的显著性水平是 0.05、0.01 或 0.001。当你读到 P 值小于 (<) 0.05 时,这意味着组间差异偶然发生的概率小于 5%,因此观察到的差异更有可能是真实的。
3. 统计功效(Statistical power)
统计功效也称为灵敏度,是指正确检测到组间真实差异的概率,通常被描述为正确拒绝 "组间无差异 "这一零假设的概率。
最常见的功效水平是 0.8、0.85 和 0.9,分别表示为 80%、85% 或 90%的功效。
这三个变量用于计算试验所需的样本量,以便就组间是否存在(或不存在)真正的差异得出适当的结论。在这三个变量中,效应量的定义最具挑战性。在这种情况下,必须先进行探索性试验,然后再进行更大规模的临床研究,以确定效应量并建立概念验证。
然而,试验并不总是进行的。相反,研究人员往往在不知道 MCID 的情况下就过早地开展大型研究。在这种情况下,样本量要么是随意选择的,要么是基于假设的合理性。这可能会使实验结果和结论产生偏差。
研究支持力度不足
如果选择的样本量与试验所需的真实样本量相比过小,则该研究属于 "支持力度不足"(underpowered)。
在以下情况下,试验属于 "支持力度不足":
- 注册的样本量足够大,但在研究完成前有足够多的参与者退出试验,导致样本量低于达到研究动力所需的最小数量
- 通过一种称为 "意向治疗分析 "(intention-to-treat analysis)的统计技术,将退出的参与者排除在分析之外
仍然可以计算支持力度不足试验的结果。但是,由于样本量太小,无法拒绝或确认组间无差异的零假设。只能说明缺乏效果证据,或者换句话说,缺乏证据。研究人员不宜就组间差异做出明确结论,因为从统计学角度看,研究人员确实不知道干预措施是否产生了统计学意义上的显著差异。
研究支持力度不足的后果
遗憾的是,许多临床试验的研究支持力度不足,而研究人员却错误地提供了决定性的结论。
支持力度不足的一个后果是,观察到的效果往往被高估。如果试验结果具有高度统计学意义,而 p 值非常小,则夸大的情况会更严重。
因此,在解释样本量不足的研究结果时必须谨慎,尤其是那些参与人数极少的研究。支持力度不足的试验也可以得出更接近真实效应的较小效应量。然而,这些结果不太可能产生具有统计学意义的差异,因此可能会被视为支持力度不足的阴性结果而被忽略。
如果医疗保健决策是由这些试验结果做出的,或至少是受到这些试验结果的强烈影响,那么这些支持力度不足的试验在临床上就可能具有欺骗性。科学出版系统也会受到这些不充分研究的影响。阳性结果偏倚是发表偏倚的一种形式,与效果不显著的试验相比,具有新颖性和统计学意义的试验更受期刊青睐并得以发表。
1990 年至 2007 年间,报告阳性结果的研究数量增长了 22%,每年增长 6%,这一趋势在各国和各学科中都是一致的。
1991 年至 2008 年间,在已发表的研究中,非显著结果与显著结果之比出现了统计学意义上的显著下降。出现阳性结果的部分原因可能是研究中出现了假阳性结果。
1992 年至 2014 年间,在 44 项已发表的研究中,研究的平均统计功效很小,仅为 0.24。六十年来,这一统计量并未增加。
如何避免支持力度不足的研究
解决研究支持力度不足的办法是进行更好的试验。虽然这似乎过于简单,但这是没有办法的办法。
出于正确的原因进行充分的研究,将有助于减少报告假阳性结果的研究数量,因为假阳性结果会高估文献库并造成偏差。研究人员可能没有接受过如何正确计算样本大小的培训。他们可能会根据之前在同一领域进行的研究来选择样本大小,但在临床上并不合理。
不恰当的动机也可能导致研究人员选择较小的样本量。进行临床试验的成本很高。虽然样本量较小的研究成本较低,但如果研究支持力度不足,其结论可能具有欺骗性。
研究人员进行研究的动机可能是为了促进自己的职业发展,而不是为文献库增加有意义的高质量研究。然而,开展临床研究的目的应该是增进知识,改善健康和生活质量,而不是仅仅为了经济利益。
试行探索性试验(exploratory trials)招募少量参与者是完全合适的,因为这些试验需要在婴儿领域进行,以确定后续大型研究的样本量计算,并确定干预措施是否安全。然而,探索性研究只占试验的少数。在这些初步试验中,使用介于 24-50 人之间的方便样本量是合适的,因为建议使用这一样本量来估算标准偏差,以便为后续的大型研究计算样本量。
最后
临床研究需要以最高的方法标准和最低的偏倚风险来进行,以提高研究结果忠实反映事实真相的可能性。如果研究人员忽视了招募适当样本量的重要性,就会浪费时间、资源和资金,最严重的是,还会浪费受研究结果影响的个人的健康和希望。最终,为了优化临床试验结果的可信度,必须教授、理解并在实践中执行适当样本量计算的必要性。