规模很重要：临床试验中样本量的重要性

文章
研究过程
能见度

影响临床试验结果有效性的因素有很多，其中最简单但也是最重要的一个因素就是参与试验的总人数，这就是 "样本量"（sample size）。本期AJE将详细讲解计算样本量的方法及避免研究支持力不足的问题。

更新于2024年3月19日

你很可能在临床试验中读到过以下类似的陈述：

"我们发现 A 组和 B 组之间存在统计学上的显著差异，A 组比 B 组有更大的改善（P < 0.05）。因此，我们建议使用 X 干预治疗 Y 病症"。（We found a statistically significant difference between group A and group B, with group A improving more than group B (P < 0.05). Therefore, we recommend using intervention X to treat Y condition）

在没有对试验的进行和报告方式进行评估的情况下，千万不要轻信这句话的表面价值。影响临床试验结果有效性的因素有很多，其中最简单但也是最重要的一个因素就是参与试验的总人数，这就是 "样本量"（sample size）。研究必须招募足够多的参与者，才能在统计学上确信结果是有效的。如果参与人数不足，结果可能会估计错误，导致结论有偏差。

规划临床试验时要考虑样本量

在规划试验时，研究人员要确定必须招募多少参与者参与研究。试验规模受三个因素影响：

1. 效应量

效应量（Effect size）是衡量两个变量之间关系强度的一个数值。对于临床试验而言，效应量与最小临床意义变化值（MCID）有关。MCID 是临床试验结果必须达到的临界值，它具有改变患者治疗方案的临床重要性。如果干预有效，参与者将观察到对其病情有价值的效果。

2. 显著性水平（Significance level）

显著性水平也称为 P 值或α，是指组间差异偶然发生的概率。

最常见的显著性水平是 0.05、0.01 或 0.001。当你读到 P 值小于 (<) 0.05 时，这意味着组间差异偶然发生的概率小于 5%，因此观察到的差异更有可能是真实的。

3. 统计功效（Statistical power）

统计功效也称为灵敏度，是指正确检测到组间真实差异的概率，通常被描述为正确拒绝 "组间无差异 "这一零假设的概率。

最常见的功效水平是 0.8、0.85 和 0.9，分别表示为 80%、85% 或 90%的功效。

这三个变量用于计算试验所需的样本量，以便就组间是否存在（或不存在）真正的差异得出适当的结论。在这三个变量中，效应量的定义最具挑战性。在这种情况下，必须先进行探索性试验，然后再进行更大规模的临床研究，以确定效应量并建立概念验证。

然而，试验并不总是进行的。相反，研究人员往往在不知道 MCID 的情况下就过早地开展大型研究。在这种情况下，样本量要么是随意选择的，要么是基于假设的合理性。这可能会使实验结果和结论产生偏差。

研究支持力度不足

如果选择的样本量与试验所需的真实样本量相比过小，则该研究属于 "支持力度不足"（underpowered）。

在以下情况下，试验属于 "支持力度不足"：

注册的样本量足够大，但在研究完成前有足够多的参与者退出试验，导致样本量低于达到研究动力所需的最小数量
通过一种称为 "意向治疗分析 "（intention-to-treat analysis）的统计技术，将退出的参与者排除在分析之外

仍然可以计算支持力度不足试验的结果。但是，由于样本量太小，无法拒绝或确认组间无差异的零假设。只能说明缺乏效果证据，或者换句话说，缺乏证据。研究人员不宜就组间差异做出明确结论，因为从统计学角度看，研究人员确实不知道干预措施是否产生了统计学意义上的显著差异。

研究支持力度不足的后果

遗憾的是，许多临床试验的研究支持力度不足，而研究人员却错误地提供了决定性的结论。

支持力度不足的一个后果是，观察到的效果往往被高估。如果试验结果具有高度统计学意义，而 p 值非常小，则夸大的情况会更严重。

因此，在解释样本量不足的研究结果时必须谨慎，尤其是那些参与人数极少的研究。支持力度不足的试验也可以得出更接近真实效应的较小效应量。然而，这些结果不太可能产生具有统计学意义的差异，因此可能会被视为支持力度不足的阴性结果而被忽略。

如果医疗保健决策是由这些试验结果做出的，或至少是受到这些试验结果的强烈影响，那么这些支持力度不足的试验在临床上就可能具有欺骗性。科学出版系统也会受到这些不充分研究的影响。阳性结果偏倚是发表偏倚的一种形式，与效果不显著的试验相比，具有新颖性和统计学意义的试验更受期刊青睐并得以发表。

1990 年至 2007 年间，报告阳性结果的研究数量增长了 22%，每年增长 6%，这一趋势在各国和各学科中都是一致的。

1991 年至 2008 年间，在已发表的研究中，非显著结果与显著结果之比出现了统计学意义上的显著下降。出现阳性结果的部分原因可能是研究中出现了假阳性结果。

1992 年至 2014 年间，在 44 项已发表的研究中，研究的平均统计功效很小，仅为 0.24。六十年来，这一统计量并未增加。

如何避免支持力度不足的研究

解决研究支持力度不足的办法是进行更好的试验。虽然这似乎过于简单，但这是没有办法的办法。

出于正确的原因进行充分的研究，将有助于减少报告假阳性结果的研究数量，因为假阳性结果会高估文献库并造成偏差。研究人员可能没有接受过如何正确计算样本大小的培训。他们可能会根据之前在同一领域进行的研究来选择样本大小，但在临床上并不合理。

不恰当的动机也可能导致研究人员选择较小的样本量。进行临床试验的成本很高。虽然样本量较小的研究成本较低，但如果研究支持力度不足，其结论可能具有欺骗性。

研究人员进行研究的动机可能是为了促进自己的职业发展，而不是为文献库增加有意义的高质量研究。然而，开展临床研究的目的应该是增进知识，改善健康和生活质量，而不是仅仅为了经济利益。

试行探索性试验（exploratory trials）招募少量参与者是完全合适的，因为这些试验需要在婴儿领域进行，以确定后续大型研究的样本量计算，并确定干预措施是否安全。然而，探索性研究只占试验的少数。在这些初步试验中，使用介于 24-50 人之间的方便样本量是合适的，因为建议使用这一样本量来估算标准偏差，以便为后续的大型研究计算样本量。

最后

临床研究需要以最高的方法标准和最低的偏倚风险来进行，以提高研究结果忠实反映事实真相的可能性。如果研究人员忽视了招募适当样本量的重要性，就会浪费时间、资源和资金，最严重的是，还会浪费受研究结果影响的个人的健康和希望。最终，为了优化临床试验结果的可信度，必须教授、理解并在实践中执行适当样本量计算的必要性。

撰稿人

AJE 美国期刊专家

标签

临床试验实验结果数据统计

订阅邮件

订阅我们的邮箱后可提前获得AJE作者资源的文章，享受AJE服务的折扣，以及更多的优惠

AJE是Nature合作润色品牌，解决论文语言问题更靠谱！

AJE为您提供英文论文润色、学术论文翻译、期刊选择、文稿排版等一系列学术服务，我们希望可以帮助您充分发挥您的研究潜力，助力您成功将论文发布在国际期刊上。

规模很重要： 临床试验中样本量的重要性