在AJE关于临床研究的系列文章中,我们首先概述了严格评估研究的重要性,以了解研究结果是否可信,其后则分享了评估临床研究偏倚的框架。
最后一个需要评估的部分是试验是否有足够的功效(power),即试验的样本量是否足够大,以检测到组间的真正差异。风险评估工具并不要求评价者确定试验的功效是否正确。然而,功效是合理方法设计的基本要素。假定一项试验的偏倚风险较低,如果试验的功效足够大,能够检测出主要结果之间的差异,那么试验结果的真实概率就会更高。
功效的重要性
在进行试验之前,研究人员需要计算出要观察到主要结果的最小临床重要性疗效所需的参与者人数。样本量必须足够大,以尽量减少发现假阳性和假阴性结果的风险。最小临床重要性疗效取决于所研究的疾病和结果。如果试验的样本量不足,即纳入研究并进行分析的样本量少于计算得出的样本量,则出现假阴性结果的风险较高。
如果没有发现有统计学意义的结果,但试验的功效不足,那么得出组间无差异的结论是不恰当的,因为样本量在统计学上不足以检测出差异。同样,如果获得了有统计学意义的结果,但试验的功效不足,则出现假阳性的风险很高,这意味着显著的效果可能不是真实的,结果不可信。
鉴于样本容量如此重要,所有研究人员在开始试验前都会计算所需样本量。但遗憾的是,试验开始时往往没有足够的样本量,或者很大一部分参与者在研究完成前就退出了试验,导致最终分析的样本量不足。
要确定一项试验的功效是否正确,应将计算出的试验样本量与实际注册并完成研究的参与者人数进行比较。如果完成试验并被纳入分析的参与者人数等于或大于计算出的样本量,则说明试验有足够的功效来检测结果的差异,可以对结果的真实性更有信心(假设偏倚风险也很低)。
严格评价(Critical appraisal)
严格评价过程看似令人生畏。不具备严格评价能力的知识消费者(Knowledge consumers)可以阅读系统性综述/指标分析(SR/MA),这是一种研究报告,用于评估围绕某项干预措施的整体证据,并了解其是否安全有效。
研究人员通过以下步骤对文献进行总结,从而开展 SR/MA:汇总围绕某一领域的全部文献,以叙述和定量的方式汇集每项研究的结果,以检查单个研究之间的关系,评估每项研究的偏倚风险,并就干预措施的方向(有益或有害)和意义(如果结果在统计和临床上有意义)得出结论。从这个 "30,000 英尺高度 "来看,研究人员可以根据数据评估干预措施的有效性。
整个研究领域都致力于开展、评估临床试验结果并将其应用于实践。事实证明,没有一种简单的方法可以确定临床试验的结果是否可信。不过,我们可以使用评估工具,进行并阅读 SR/MA,为知识消费者提供对某一领域的整体论据基础进行评审的途径。
科学、健康和保健在激烈的市场竞争中推陈出新。但是,许多促进健康的治疗方法和产品要么是: 1、背后没有任何证据;2、依赖于来自临床前细胞培养或动物研究的最低限度的证据,而这些研究很少转化为人类研究;3、基于N = 1试验,"生物黑客 "(biohackers)在大师的建议下对未经证实的新疗法进行自我测试,从而引发了一场毫无根据的运动。即使是经过临床试验研究的疗法和产品,也可能存在测量、设计或系统误差,从而降低了试验结果的有效性和可靠性。
最后寄语
在信任任何干预措施之前,必须强调谨慎。一般来说,值得信赖的治疗方法来自于高质量的随机对照试验,这些试验的偏倚风险较低,并且经过精心实施的 SR/MA 在一系列相关研究中证明了干预措施的安全性和有效性。归根结底,无论是临床前研究还是临床研究,细节决定成败。
在阅读临床研究时,请记住研究结论的可靠性取决于研究方法。切勿盲目相信研究论文的结论,无论作者或相关专家对其结果有多么深信不疑。需要对试验进行严格的评估,以检查研究结果的有效性,最好还能得到其他研究的支持,对结果进行再现和复制。
下一次,当你读到 "一项研究表明...... "时,不要轻信表面的说法和研究。踏上寻求真相的道路前,必须具备质疑一切的素养。
AJE希望您对临床研究的系列文章感谢兴趣,该系列其他文章:
AJE祝您科研顺利!