如何科学计算动物与人体研究的样本量

Frontiers in Medicine刊登了一篇题为 How to calculate sample size in animal and human studies 的综述,作者来自美国加州大学圣迭戈分校的Xinlian Zhang和Phillipp Hartmann。文章以非常系统且实用的方式,解释了如何在动物实验与临床研究中科学地计算样本量。

更新于2025年10月20日

如何科学计算动物与人体研究的样本量

在科研设计阶段,“要招多少人”或“要用多少只动物”常常是研究者最早、也是最难回答的问题。太少了,结果可能没有统计意义;太多了,又浪费资源、时间,甚至在动物实验中引发伦理争议。

2023年,Frontiers in Medicine刊登了一篇题为 How to calculate sample size in animal and human studies 的综述,作者来自美国加州大学圣迭戈分校的Xinlian Zhang和Phillipp Hartmann。文章以非常系统且实用的方式,解释了如何在动物实验与临床研究中科学地计算样本量。

How to calculate sample size in animal and human studies综述截图

我觉得这篇综述非常实用,今天我们就来拆解这篇论文的核心内容,看懂“样本量”背后的科学逻辑。当然,你也可以自行点击超链接,自行下载学习。

样本量,不是越多越好

在任何动物或人体研究设计中,样本量决定了研究能否以足够的统计功效回答研究问题。Zhang 与 Hartmann 在文中指出,“样本量过少会导致统计功效不足,而过大则造成浪费,甚至违反伦理。”

统计功效(statistical power)代表了研究发现真实差异的能力。如果样本量太小,即使效应真实存在,也可能因为数据波动过大而未能显著,从而得出“无差异”的错误结论(即第二类错误,Type II error)。这类研究的结果往往难以发表,也无法指导后续实验。

反之,如果样本量过大,即便是临床或生物学意义极小的差异,也可能达到统计显著。这种“显著性膨胀”会让研究者误以为发现了重要结果,但其实在实际应用中可能毫无意义。

作者进一步指出,在动物实验中,样本量不仅关乎科学性,更关乎伦理:不必要的动物使用意味着更多的痛苦与资源浪费。因此,动物实验设计中应始终遵循3R原则(Reduction、Refinement、Replacement),在科学目标与伦理要求间取得平衡。

归根结底,样本量的合理性是一种科研理性——既不能凭经验决定,也不能盲目追求“大样本”,而应基于明确的统计推理。

计算样本量的“黄金三角”:α、β、效应量

作者将样本量计算归纳为三个核心要素:显著性水平(α)、统计功效(1−β)和效应量(d)。三者相互制衡,形成样本量设计的“黄金三角”。

1. 显著性水平 α

这是犯第一类错误(Type I error)的概率,即在“无效应”的情况下误判为有效。常用值为0.05或0.01。α值设得越低,说明研究者要求更严格、希望减少假阳性结果;但相应地,需要更大的样本量才能保持同等功效。

2. 功效与第二类错误 β

功效(power)是正确拒绝虚无假设(H₀)的概率,计算公式为1−β。
β 是第二类错误(Type II error),即“漏判”的概率——当真实效应存在却未能检出。
在多数生物医学研究中,β 通常设为0.2(功效=0.8),而在临床药物试验中常取0.1甚至0.05(功效=0.9–0.95),以保证足够的敏感性。

3. 效应量 d

效应量衡量的是组间差异的“实际强度”,不受样本量影响。对于连续变量的两组比较,最常见指标是 Cohen’s d

d = (x₁ − x₂) / s
其中 s 为合并标准差

Cohen(1988)提出了经验分级:

  • 小效应:d = 0.2
  • 中等效应:d = 0.5
  • 大效应:d = 0.8

Zhang 与 Hartmann 还引用 Sawilowsky 的扩展标准:d 值可从 0.01(极微小效应)至 2.0(巨大效应)。

三者的关系可以用近似公式表示:

n ≈ 2 × (Z₁−α/2 + Z₁−β)² / d²

这说明:

  • 想检测更小的效应 → 样本量要增大;
  • 要求更高功效或更低α → 样本量也随之增大。

作者建议,研究者可反向使用此公式:当资源有限时,计算当前样本量所能检测到的最小效应,再评估是否具有临床或生物学意义。

从小鼠到临床:效应量决定样本量

在动物研究中,效应通常较大且个体差异较小,因此所需样本量一般较少。Zhang 与 Hartmann 用多个实例展示了这一点。

1. 动物实验示例

在一项西方饮食诱导的肝病模型中,研究者希望检验胆汁酸结合剂 colesevelam 的疗效。前期研究显示:

  • 对照组肝脏甘油三酯(TG):192.84 mg/g(SD = 48.9)
  • 治疗组:143.26 mg/g(SD = 54.5)

计算得 Cohen’s d = 0.96(属“大效应”)。
按照双侧检验 α = 0.05、功效 = 0.8,每组需 19只小鼠;若考虑10%脱落率,则为 22只/组

当研究指标改为肝脏炎症因子TNF的表达时,差异更大(1.65 vs. 3.37),效应量升至1.35,对应样本量仅 10只/组(修正后12只)
作者指出:“所选终点不同,样本量差距可达一倍以上。

此外,若研究方向明确(例如预期药物只会降低指标而不会升高),可采用单侧检验。在上述示例中,单侧分析可将样本量从15只降至12只,大幅减少实验动物与成本。

2. 复杂动物设计与分配比例

许多动物实验包含多组设计,如饮食×药物的交互作用(例如4组小鼠:高脂饮食±药物 + 对照饮食±药物)。
作者指出,重点组(如高脂饮食组)应基于功效分析决定样本量,而对照组可适当减少。例如某高脂饮食肥胖模型中,因效应极强,对照组3只、高脂组9只即可检测出显著差异。

当然,这仅限于表型清晰、模型成熟的研究。对于新药或机制研究,功效分析仍应覆盖全部主要比较组。

临床研究中的样本量挑战

人体研究中,个体差异、依从性和伦理约束使样本量计算更具挑战。Zhang 与 Hartmann 提供了两个临床实例:

1. 药物试验(Rifaximin 例)

在治疗肠易激综合征(IBS)的研究中,研究者预计:

  • 药物组改善率:55%
  • 安慰剂组:40%
    设定 α = 0.05、功效 = 0.95,采用双侧Z检验,计算得每组需 286人
    考虑5–10%脱落率,修正后应招募 300–320人/组

这类计算显示:在人类研究中,即使差异仅15%,也需近600人才能达到足够的统计功效。

2. 术后并发症预防(Dexmedetomidine 例)

另一项研究关注右美托咪定(Dexmedetomidine)在主动脉手术后预防急性肾损伤(AKI)的作用。研究者依据既往数据假设:

  • 对照组AKI发生率:54%
  • 治疗组:27%(预期下降一半)
    在 α = 0.05、功效 = 0.8 条件下,每组需 51人,修正后 54人

这两个实例揭示:

  • 临床研究往往以**比例差异(proportion difference)**为主要效应指标;
  • 样本量不仅取决于预期差异,还依赖于事件发生率基线。

当缺乏先导研究时,作者建议可采用 Cohen 与 Sawilowsky 的经验标准(小、中、大效应)进行估算,但要在伦理审查中说明依据。

别忽略这些细节:设计中的现实考量

Zhang 与 Hartmann 在文中最后总结了一系列经常被忽略、但实际至关重要的因素:

1. 预期脱落与修正样本量

脱落率(attrition)在长期实验中不可避免。计算修正样本量的通用公式为:

n_corrected = n_required / (1 − attrition rate)

例如若预计10%脱落,需将每组样本除以0.9。

2. 分配比例(allocation ratio)

传统设计采用1:1分配,但在临床中,2:1或3:1分配有时更利于招募(患者更愿意接受实验药)。然而,这种设计代价是:

  • 2:1比例 → 样本量需增加约12%
  • 3:1比例 → 增加约33%

在动物研究中,研究者也可根据资源与实验重点灵活调整,但必须在功效分析中反映。

3. 检验类型:单侧与双侧

双侧检验更稳健,但在有明确假设方向时可使用单侧检验,以减少样本需求。例如当研究只关心药物能否“降低”而非“改变”指标时。

4. 不同统计检验下的样本量

若研究问题超越两组均值比较,还可以使用:

  • F检验:用于方差分析(ANOVA);
  • Z检验:用于相关系数(Pearson R);
  • F检验(基于R²):用于多元回归模型。
    这些检验有各自对应的效应量指标(如Cohen’s f²、R²等),计算逻辑类似。

5. 可用软件与资源

作者列举了几种主流计算工具:

  • G*Power(Faul et al., 2009):界面清晰,适合初学者;
  • R(R Core Team, 2023):提供灵活的 power analysis 包;
  • Epitools(Ausvet, 2023)与 OpenEpi:适合流行病学研究;
  • Biomath.info:提供多种临床研究样本量公式在线计算。

这些工具均为免费资源,可根据研究设计快速估算样本量。

最后

Zhang 与 Hartmann 在结语中强调:“合理的样本量计算是研究设计的核心环节,不仅影响结果的可信度,也关乎伦理、成本与可重复性。”

一个科学的样本量不仅能节省时间与经费,更体现研究者的严谨与责任。
未来,随着科研透明度与可重复性要求提高,样本量计算不再是论文“附加信息”,而应成为研究方案的基本组成部分

撰稿人
标签
数据分析实验数据
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

AJE为您科研之路每一阶段提供坚实支持!

AJE为您提供英文论文润色、学术论文翻译、期刊选择、文稿排版等一系列学术服务,我们希望可以帮助您充分发挥您的研究潜力,助力您成功将论文发布在国际期刊上。