
在循证医学领域,系统综述(Systematic Review)一直被视为证据金字塔顶端的重要研究形式。然而,很多研究者容易忽略一个事实:决定系统评价质量的关键时刻,往往不是数据分析阶段,而是在研究正式开始之前。
这也是近年来学术界越来越重视系统评价方案的原因。
理论上,一份公开、透明且预先制定的研究方案,可以避免研究过程中随意修改研究问题、调整分析方法或选择性报告结果,从而提高研究的可信度。为此,PRISMA-P(Preferred Reporting Items for Systematic Review and Meta-analysis Protocols)自2015年发布以来,已经成为国际上最常用的系统评价方案报告规范之一。
但一个值得思考的问题是:研究人员真的在认真遵循PRISMA-P吗?
最近发表在《Journal of Clinical Epidemiology》的一项研究给出了答案。研究人员评估了100份系统评价方案,并进一步访谈了15位方案作者,结果发现,即便许多作者声称遵循了PRISMA-P,真正完整报告所有关键内容的方案几乎不存在。更重要的是,一些与研究透明度密切相关的核心内容,恰恰是最容易被忽略的部分。
这项研究不仅让我们重新认识了PRISMA-P在实际应用中的现状,也揭示了系统评价方案撰写过程中长期存在但鲜少被讨论的问题。
系统综述方案为什么如此重要?
对于很多初次接触系统综述的研究者来说,Protocol似乎只是正式研究开始前需要完成的一项“行政任务”。事实上,它远比想象中重要。
系统综述与普通文献综述最大的区别之一,在于其研究方法需要事先规划并保持透明。从检索策略、纳入排除标准,到数据提取方法、偏倚风险评估方式以及最终的数据合成方案,都应该在研究开始前确定下来。
这样做的目的,是避免研究者在看到部分结果之后再调整研究方案。
例如,研究团队原本计划分析某个主要结局指标,但在发现结果不显著后转而强调另一个具有统计学意义的指标;或者原本计划进行Meta分析,但因为结果不符合预期而临时改变分析方式。这些做法都可能导致研究结果产生偏倚。
正因为如此,国际循证医学界一直倡导研究团队在研究开始之前公开方案,并使用PRISMA-P进行规范报告。研究方案不仅是研究团队内部执行工作的依据,也是一种向学术共同体公开承诺的方法学文件。
从某种意义上说,系统评价方案相当于研究过程中的“施工图纸”。如果图纸本身不完整,最终建成的建筑质量自然也难以得到保证。
一项覆盖PubMed、OSF和PROSPERO的研究
为了了解PRISMA-P的真实执行情况,研究团队随机抽取了100份系统评价方案进行评估。
其中50份来自PubMed收录期刊发表的方案,另外50份来自OSF(Open Science Framework)和PROSPERO注册平台。值得注意的是,这是目前少数同时覆盖这三类来源的研究,因此能够较全面地反映当前系统评价方案的报告现状。
研究人员依据PRISMA-P的全部条目逐项检查每份方案的报告完整性,并将结果划分为“完整报告”“部分报告”和“未报告”三个等级。与此同时,他们还采访了15位实际撰写过系统评价方案的作者,希望进一步理解这些问题背后的原因。
这种定量评估与定性访谈相结合的方法,使研究不仅能够回答“问题在哪里”,还能进一步解释“为什么会出现这些问题”。
意外发现:没有任何方案达到满分
很多人可能会认为,已经发表在期刊上的系统评价方案理应符合PRISMA-P要求。事实并非如此。
换句话说,即便是经过同行评审并正式发表的研究方案,也普遍存在信息缺失的问题。
从另一个角度来看,这也说明PRISMA-P并不像许多人想象的那样,只是一张简单的核查表。真正做到完整、准确地报告所有条目,远比填写一份Checklist困难得多。
研究团队进一步发现,一些基础信息,例如研究背景、研究目的和检索策略,通常能够得到较好的报告;而那些涉及透明度、责任归属以及分析决策过程的内容,则往往成为被忽略的重灾区。
六个最容易被忽视,却最重要的PRISMA-P条目
研究结果显示,有六个PRISMA-P条目在两类方案中都表现出明显不足,而且这些内容几乎都与研究透明度直接相关。
首先是方案修改记录(Protocol Amendments)。超过70%的方案没有说明,如果未来研究过程中需要修改方案,应该如何记录和公开这些变更。对于系统评价而言,方案修改本身并不可怕,真正的问题在于修改过程缺乏透明度。如果研究者能够事先说明修改机制,读者便能判断研究结果是否受到后期调整的影响。
其次是资助方角色(Role of Sponsor or Funder)。许多方案会说明研究经费来源,但很少进一步解释资助机构是否参与研究设计、数据分析、结果解释或论文撰写。研究发现,这部分信息在大约四分之三的方案中缺失。对于近年来越来越受到关注的利益冲突问题而言,这显然是一个重要漏洞。
第三类问题出现在数据合成(Data Synthesis)部分。许多研究团队会写明计划开展Meta分析,但没有说明在什么条件下才会进行合并分析,也没有说明哪些情况会导致Meta分析无法实施。这意味着研究者虽然列出了分析工具,却没有明确分析决策标准。
与之类似的还有非定量综合方法(Summary Other Than Quantitative)。当Meta分析无法实施时,很多方案只是简单写一句“将采用定性分析”或“进行叙述性综合”,但对于具体分析流程、主题归纳方法以及证据整合策略却缺乏详细说明。研究者在访谈中普遍表示,这部分是PRISMA-P中最难理解和最难填写的内容之一。
此外,Meta-bias评估和证据质量评价也是长期存在的问题。大量方案没有清晰描述如何评估发表偏倚、选择性报告偏倚,也没有明确说明是否采用GRADE等框架评估最终证据质量。对于系统评价而言,这些内容直接关系到研究结论的可靠性,但现实中却经常被简单带过。
从研究透明度的角度来看,这些缺失并非无关紧要的细节,而恰恰是最需要被清晰报告的部分。
问题并不只是“没写”,而是“不会写”
如果仅从统计结果来看,很容易得出一个结论:研究者没有认真遵守PRISMA-P。
但访谈结果揭示了更深层次的问题。
许多作者实际上认可PRISMA-P的价值,并认为它有助于提高研究透明度和可重复性。一些研究者甚至将其描述为撰写系统评价方案的“操作手册”,特别是对于初学者而言,它能够帮助研究团队避免遗漏关键内容。
然而,当涉及具体条目时,情况就变得复杂起来。
不少受访者提到,他们并不完全理解某些条目的真正含义。例如,在Meta-bias评估部分,许多人只知道需要报告发表偏倚,却不知道还应包括选择性报告偏倚的评估方案。还有研究者表示,PRISMA-P中的部分内容明显围绕临床Meta分析设计,对于定性系统评价、方法学综述以及其他新型证据综合方法的适用性有限。
换句话说,很多时候并不是研究者不愿意遵循PRISMA-P,而是不知道应该如何准确地遵循。
这一发现对于科研培训具有重要启示。相比单纯要求作者提交Checklist,也许更重要的是帮助研究者真正理解每个条目的含义和目的。
AI时代的PRISMA-P正在面临新的挑战
研究团队还专门收集了作者对下一版PRISMA-P的建议。其中最有意思的一项内容与人工智能有关。
多位受访者认为,未来系统评价已经越来越多地使用自动化工具和人工智能技术,包括文献筛选、数据提取、偏倚风险评估辅助等。因此,新版PRISMA-P应增加相关报告要求,说明研究团队使用了哪些自动化工具、这些工具的可靠性如何,以及人工审核在整个流程中发挥了什么作用。
除此之外,作者们还建议增加开放科学、数据共享、利益冲突、数据访问权限等内容,并希望提供更多教程、案例和培训资源。
这些建议反映出一个趋势:系统评价的方法学正在快速发展,而PRISMA-P也需要不断更新,才能跟上研究实践的变化。
最重要启示
读完这项研究后,最值得记住的一点或许是:PRISMA-P并不是投稿前需要勾选的一张表格,而是一种帮助研究者提前规划研究全过程的思维框架。
现实中,很多研究团队直到投稿前才开始填写PRISMA-P核查表。但从这项研究来看,那些最容易遗漏的内容,恰恰都是研究开始前就应该认真思考的问题,例如研究方案如何修改、分析决策如何制定、证据质量如何评价以及潜在偏倚如何控制。
当这些问题在研究设计阶段就被明确下来时,PRISMA-P才真正发挥了它的价值。
对于正在开展系统评价、Meta分析或证据综合研究的科研人员来说,这项研究提供了一面难得的镜子。它提醒我们,系统评价的质量不仅取决于最终分析做得有多复杂,更取决于研究开始时的方案设计是否足够透明、完整和可追溯。而这,也正是PRISMA-P存在的根本意义。
