在动手收集研究数据之前,你其实就该知道要多少样本

从统计学的角度看,这个问题并不模糊。样本量并不是凭经验拍脑袋决定的,也不是简单参考几篇前人论文就可以交代过去。它是一个可以在研究启动前被明确计算出来的量。如果这一步被忽略,即便后续分析过程再规范,研究结论依然可能因为统计功效不足而被认为缺乏说服力。

更新于2025年12月24日

在动手收集研究数据之前,你其实就该知道要多少样本

在很多科研人的认知里,样本量往往是在实验过程中“慢慢累积”的:先做一批看看趋势,再决定要不要继续。这种做法在探索性研究中并非完全不可接受,但一旦研究目标是验证假设,样本量就不再是一个可以临时调整的变量,而是实验设计本身的一部分。正因如此,越来越多的审稿人会在方法部分直接追问:你在研究开始之前,是否已经评估过这个研究是否“有能力”检测到你声称要研究的效应。

从统计学的角度看,这个问题并不模糊。样本量并不是凭经验拍脑袋决定的,也不是简单参考几篇前人论文就可以交代过去。它是一个可以在研究启动前被明确计算出来的量。如果这一步被忽略,即便后续分析过程再规范,研究结论依然可能因为统计功效不足而被认为缺乏说服力。

样本量计算究竟在解决什么问题?

所谓样本量计算,更准确的说法是统计功效分析。它关注的并不是“如何得到显著结果”,而是一个更基础的问题:在真实效应存在的前提下,你的研究有多大概率能够检测到它。如果这个概率本身很低,那么“没有发现显著性”就并不能说明效应不存在,只能说明你的研究从设计层面就缺乏足够的信息量。

这也是为什么在审稿语境中,“结果不显著”与“研究功效不足”常常被放在一起讨论。一个功效不足的研究即便使用了正确的统计方法,也很难为结论提供坚实支撑。换句话说,功效分析并不是为了让研究“更好看”,而是为了避免在研究结束后才发现:这项实验在统计意义上从一开始就注定很难得出明确结论。

样本量是重点

如果回顾十几年前的文献,不难发现很多论文在样本量问题上语焉不详,甚至只用一句“样本量参考前人研究”草草带过。但随着可重复性问题在多个学科被系统性讨论,期刊编辑和审稿人已经越来越难以接受这种模糊处理。小样本研究在统计上更容易夸大效应大小,也更容易产生不可重复的阳性结果,这是当前科研评价体系中高度警惕的问题。

因此,在生命科学、心理学、医学等领域,样本量依据逐渐被视为方法学严谨性的组成部分。即便期刊投稿指南没有强制要求提供功效分析,清楚说明样本量设计逻辑,也往往能显著降低审稿人对研究可靠性的疑虑。这种变化并不是形式主义,而是科研共同体对研究可信度要求不断提高的自然结果。

效应大小,才是样本量问题的真正核心

在实际操作中,功效分析最容易让研究者感到困难的,并不是计算本身,而是如何设定效应大小。这一步无法完全由统计软件替代,因为它本质上是一个科学判断:你认为在你的研究问题中,多大的差异才是值得被检测、也值得被解释的。

从数学关系上看,效应越小,所需样本量就越大,而且这种增长往往是非线性的。这也正是很多示意图试图传达的核心信息:当你希望捕捉的是微小差异时,样本量的需求会迅速上升。功效分析在这里起到的作用,并不是逼迫研究者无限扩样,而是促使你认真思考——即便统计上能够检出,这样的差异是否真的具有生物学、临床或理论意义。

一个常见但被低估的场景:两组比较到底需要多少样本?

以最常见的两组比较为例,很多研究计划使用双样本 t 检验来评估实验组与对照组的差异。如果在研究设计阶段明确设定显著性水平(通常为 0.05)、目标统计功效(例如 80%)以及合理的预期效应大小,那么样本量就不再是一个模糊区间,而是一个可以被明确报告的结果。

这种“提前算清楚”的做法,在论文中具有很强的解释力。它向审稿人传递的信息并不是“我们算过一个数”,而是:研究者在实验开始之前,已经系统性评估过研究目标、效应水平和统计不确定性之间的关系。这种前置性的设计思维,往往比事后补充复杂统计分析更能建立信任。

工具并不稀缺,稀缺的是研究前的设计意识

在实际科研中,功效分析之所以常常被跳过,并不是因为缺乏工具,而是因为研究者往往在数据已经开始收集之后,才意识到样本量可能是一个问题。事实上,在技术层面,样本量计算早已被高度标准化。无论是 R 语言、Python,还是各类在线计算器,都可以在几行命令内给出明确结果。真正稀缺的,并不是“会不会算”,而是是否在研究启动前,就主动把这个问题纳入设计流程。

以 R 语言为例,最常被使用的包之一是 pwr。假设你计划进行一个双样本 t 检验,显著性水平设为 0.05,希望达到 80% 的统计功效,并且基于文献或预实验判断,你关心的是一个中等大小的效应(Cohen’s d = 0.5)。在这种非常典型的研究场景下,样本量计算几乎可以直接写成:

library(pwr)

pwr.t.test(
d = 0.5,
sig.level = 0.05,
power = 0.8,
type = "two.sample",
alternative = "two.sided"
)

运行这段代码后,R 会直接返回每一组所需的大致样本量。这个结果本身并不神秘,但它的意义在于:你在实验开始之前,就已经明确知道“做到什么程度,统计上才是合理的”。在此基础上,无论后续是否因为现实条件对样本量进行调整,你都能清楚地意识到这种调整意味着什么代价。

更重要的是,这一步并不要求你一开始就“设定一个完美的效应大小”。在研究设计阶段,你完全可以把功效分析当作一个探索工具。例如,你可以反过来问一个问题:如果我的样本量最多只能做到每组 30 个个体,那么在 80% 功效的前提下,我最多只能检测到多大的效应?

pwr.t.test(
n = 30,
sig.level = 0.05,
power = 0.8,
type = "two.sample",
alternative = "two.sided"
)

这样的计算往往会带来一个非常现实、甚至有些“刺痛”的认知:在样本量受限的情况下,你的研究从统计意义上只能对较大的效应保持敏感。这种认知,本身就是研究前设计意识的一部分,它会直接影响你如何表述研究目的、如何界定“有意义的差异”,以及是否需要调整研究问题本身。

当研究进入写作阶段,这些前期思考也会自然转化为方法部分中一段非常清晰的描述。例如,你不再只是笼统地写“样本量参考前人研究”,而是可以明确说明样本量的统计依据、关键参数以及所使用的软件工具。对审稿人而言,这样的表述意味着:即便他们对你的具体假设持保留态度,也很难否认这项研究在设计层面是经过认真推敲的。

从这个角度看,功效分析并不是一项“统计技能展示”,而是一种研究者对不确定性的主动管理。它要求你在数据尚未出现之前,就对研究是否具备回答问题的能力做出判断。这种判断能力,才是真正稀缺、也最能区分科研成熟度的地方。

最后

样本量计算并不会保证你一定获得显著结果,也不会自动提升研究的创新性。但它能确保一件关键的事情:无论结果是阳性还是阴性,你的研究在统计设计层面是自洽且可被理解的。对于审稿人而言,这往往是判断一项研究是否值得认真对待的前提。

也正因如此,越来越多经验丰富的研究者会把功效分析视为一种“研究前的自我审稿”。它并不是为了迎合期刊要求,而是为了避免在研究结束之后,才意识到一个无法补救的问题:样本量,从一开始就不足以支撑你想要回答的科学问题。

撰稿人
标签
实验数据
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

AJE为您科研之路每一阶段提供坚实支持!

AJE为您提供英文论文润色、学术论文翻译、期刊选择、文稿排版等一系列学术服务,我们希望可以帮助您充分发挥您的研究潜力,助力您成功将论文发布在国际期刊上。