规模很重要: 临床试验中样本量的重要性

影响临床试验结果有效性的因素有很多,其中最简单但也是最重要的一个因素就是参与试验的总人数,这就是 "样本量"(sample size)。本期AJE将详细讲解计算样本量的方法及避免研究支持力不足的问题。

更新于2024年3月19日

规模很重要: 临床试验中样本量的重要性

你很可能在临床试验中读到过以下类似的陈述:

"我们发现 A 组和 B 组之间存在统计学上的显著差异,A 组比 B 组有更大的改善(P < 0.05)。 因此,我们建议使用 X 干预治疗 Y 病症"。(We found a statistically significant difference between group A and group B, with group A improving more than group B (P < 0.05). Therefore, we recommend using intervention X to treat Y condition)

在没有对试验的进行和报告方式进行评估的情况下,千万不要轻信这句话的表面价值。影响临床试验结果有效性的因素有很多,其中最简单但也是最重要的一个因素就是参与试验的总人数,这就是 "样本量"(sample size)。研究必须招募足够多的参与者,才能在统计学上确信结果是有效的。如果参与人数不足,结果可能会估计错误,导致结论有偏差。

规划临床试验时要考虑样本量

在规划试验时,研究人员要确定必须招募多少参与者参与研究。试验规模受三个因素影响:

1. 效应量

效应量(Effect size)是衡量两个变量之间关系强度的一个数值。 对于临床试验而言,效应量与最小临床意义变化值(MCID)有关。MCID 是临床试验结果必须达到的临界值,它具有改变患者治疗方案的临床重要性。如果干预有效,参与者将观察到对其病情有价值的效果。

2. 显著性水平(Significance level)

显著性水平也称为 P 值或α,是指组间差异偶然发生的概率。

最常见的显著性水平是 0.05、0.01 或 0.001。当你读到 P 值小于 (<) 0.05 时,这意味着组间差异偶然发生的概率小于 5%,因此观察到的差异更有可能是真实的。

3. 统计功效(Statistical power)

统计功效也称为灵敏度,是指正确检测到组间真实差异的概率,通常被描述为正确拒绝 "组间无差异 "这一零假设的概率。

最常见的功效水平是 0.8、0.85 和 0.9,分别表示为 80%、85% 或 90%的功效。

这三个变量用于计算试验所需的样本量,以便就组间是否存在(或不存在)真正的差异得出适当的结论。在这三个变量中,效应量的定义最具挑战性。在这种情况下,必须先进行探索性试验,然后再进行更大规模的临床研究,以确定效应量并建立概念验证。

然而,试验并不总是进行的。相反,研究人员往往在不知道 MCID 的情况下就过早地开展大型研究。在这种情况下,样本量要么是随意选择的,要么是基于假设的合理性。这可能会使实验结果和结论产生偏差。

研究支持力度不足

如果选择的样本量与试验所需的真实样本量相比过小,则该研究属于 "支持力度不足"(underpowered)。

在以下情况下,试验属于 "支持力度不足":

  • 注册的样本量足够大,但在研究完成前有足够多的参与者退出试验,导致样本量低于达到研究动力所需的最小数量
  • 通过一种称为 "意向治疗分析 "(intention-to-treat analysis)的统计技术,将退出的参与者排除在分析之外

仍然可以计算支持力度不足试验的结果。但是,由于样本量太小,无法拒绝或确认组间无差异的零假设。只能说明缺乏效果证据,或者换句话说,缺乏证据。研究人员不宜就组间差异做出明确结论,因为从统计学角度看,研究人员确实不知道干预措施是否产生了统计学意义上的显著差异。

研究支持力度不足的后果

遗憾的是,许多临床试验的研究支持力度不足,而研究人员却错误地提供了决定性的结论。

支持力度不足的一个后果是,观察到的效果往往被高估。如果试验结果具有高度统计学意义,而 p 值非常小,则夸大的情况会更严重。

因此,在解释样本量不足的研究结果时必须谨慎,尤其是那些参与人数极少的研究。支持力度不足的试验也可以得出更接近真实效应的较小效应量。然而,这些结果不太可能产生具有统计学意义的差异,因此可能会被视为支持力度不足的阴性结果而被忽略。

如果医疗保健决策是由这些试验结果做出的,或至少是受到这些试验结果的强烈影响,那么这些支持力度不足的试验在临床上就可能具有欺骗性。科学出版系统也会受到这些不充分研究的影响。阳性结果偏倚是发表偏倚的一种形式,与效果不显著的试验相比,具有新颖性和统计学意义的试验更受期刊青睐并得以发表。

1990 年至 2007 年间,报告阳性结果的研究数量增长了 22%,每年增长 6%,这一趋势在各国和各学科中都是一致的。

1991 年至 2008 年间,在已发表的研究中,非显著结果与显著结果之比出现了统计学意义上的显著下降。出现阳性结果的部分原因可能是研究中出现了假阳性结果。

1992 年至 2014 年间,在 44 项已发表的研究中,研究的平均统计功效很小,仅为 0.24。六十年来,这一统计量并未增加。

如何避免支持力度不足的研究

解决研究支持力度不足的办法是进行更好的试验。虽然这似乎过于简单,但这是没有办法的办法。

出于正确的原因进行充分的研究,将有助于减少报告假阳性结果的研究数量,因为假阳性结果会高估文献库并造成偏差。研究人员可能没有接受过如何正确计算样本大小的培训。他们可能会根据之前在同一领域进行的研究来选择样本大小,但在临床上并不合理。

不恰当的动机也可能导致研究人员选择较小的样本量。进行临床试验的成本很高。虽然样本量较小的研究成本较低,但如果研究支持力度不足,其结论可能具有欺骗性。

研究人员进行研究的动机可能是为了促进自己的职业发展,而不是为文献库增加有意义的高质量研究。然而,开展临床研究的目的应该是增进知识,改善健康和生活质量,而不是仅仅为了经济利益。

试行探索性试验(exploratory trials)招募少量参与者是完全合适的,因为这些试验需要在婴儿领域进行,以确定后续大型研究的样本量计算,并确定干预措施是否安全。然而,探索性研究只占试验的少数。在这些初步试验中,使用介于 24-50 人之间的方便样本量是合适的,因为建议使用这一样本量来估算标准偏差,以便为后续的大型研究计算样本量。

最后

临床研究需要以最高的方法标准和最低的偏倚风险来进行,以提高研究结果忠实反映事实真相的可能性。如果研究人员忽视了招募适当样本量的重要性,就会浪费时间、资源和资金,最严重的是,还会浪费受研究结果影响的个人的健康和希望。最终,为了优化临床试验结果的可信度,必须教授、理解并在实践中执行适当样本量计算的必要性。

撰稿人
标签
临床试验实验结果数据统计
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

AJE是Nature合作润色品牌,解决论文语言问题更靠谱!

AJE为您提供英文论文润色、学术论文翻译、期刊选择、文稿排版等一系列学术服务,我们希望可以帮助您充分发挥您的研究潜力,助力您成功将论文发布在国际期刊上。