为什么论文数据造假很难被发现?

最近,耿同学揭露一些论文存在数据造假的情况,相比大家也都看到了,这些年,关于论文撤稿、图像造假、虚假同行评审以及AI生成论文的问题,已经越来越频繁地进入大家的讨论范围。很多刚进入科研的人会下意识认为现代学术出版体系有同行评审、有编辑审核、有查重系统,甚至还有AI检测工具,按理说,论文中的数据造假应该很容易暴露才对。

更新于2026年5月21日

为什么论文数据造假很难被发现?

最近,耿同学揭露一些论文存在数据造假的情况,相比大家也都看到了,这些年,关于论文撤稿、图像造假、虚假同行评审以及AI生成论文的问题,已经越来越频繁地进入大家的讨论范围。很多刚进入科研的人会下意识认为现代学术出版体系有同行评审、有编辑审核、有查重系统,甚至还有AI检测工具,按理说,论文中的数据造假应该很容易暴露才对。

但现实恰恰相反。

大量问题论文并不是在投稿阶段被发现,而是在发表几年后,甚至十几年后,才被人偶然揭露。有些论文即便已经被撤稿,相关结论仍然在持续被引用;还有一些研究方向,直到整个领域的重复实验长期失败后,人们才逐渐意识到最初的数据可能存在问题。

这说明了一个很多科研新人容易忽视的事实,现代科学体系,并不是一个“逐篇核查真相”的系统,而更像是一个建立在默认信任基础上的知识协作网络。而这,也恰恰是数据造假最难被发现的根本原因。

同行评审并不会真正“验证”你的实验

很多人第一次接触学术出版时,会对同行评审抱有一种近乎“审判式”的想象,好像审稿人会像侦探一样,一点点核查论文中的所有实验数据。但现实中的同行评审,并不是这样运行的。

绝大多数情况下,审稿人能看到的,只有作者提交的论文、图表以及有限的补充材料。他们通常不会接触实验原始记录、实验室日志、完整代码,当然更不可能亲自重复实验。原因其实非常现实。

首先是没有时间。如今全球每年发表的学术论文数量已经达到数百万篇。许多审稿人本身也是大学教师、PI或博士后,他们的审稿工作通常是在教学、申请基金、管理课题之外额外完成的。很多论文的审稿时间可能只有几个小时。对于复杂的生物医学研究、组学分析或者动物实验来说,审稿人实际上只能做“合理性判断”,而不是真正意义上的“验证”。

其次是没有资源。例如一篇肿瘤生物学论文,里面可能涉及动物模型、Western blot、RNA测序以及复杂统计分析。如果真的要完全重复实验,成本可能高达数万元甚至数十万元,还需要数月时间。对于期刊来说,这在现实中几乎不可能实现。

发表在 PLOS ONE 的研究就曾指出(来源:PLOS ONE),同行评审更多是一种基于信任的质量控制机制,而不是严格的数据审计系统。审稿人通常只能发现明显的问题,却很难识别经过精心设计的数据操纵。

这也是为什么很多后来被撤稿的论文,在最初投稿时其实“看起来完全正常”。因为审稿人真正评估的重点,本来就不是“作者有没有造假”,而是“这个研究故事是否合理”。

最隐蔽的造假,从来不是“完全虚构”

公众对学术造假的想象,往往来自新闻中的极端案例:有人完全伪造实验结果、虚构患者数据、甚至根本没有做实验。但现实中,更难被发现的,其实是另一类问题:半真实数据。

换句话说,实验可能确实做了,但研究者只展示了其中“最好看”的部分。这种现象在科研实践里并不少见。比如,研究者重复实验十次,只选择其中三次结果最一致的数据;统计分析不断更换方法,直到P值小于0.05;实验组和对照组之间出现不符合预期的数据点时,被主观定义为“异常值”并删除;原本设定的研究终点不显著,于是重新定义主要终点。

这些行为最大的危险在于,它们往往不会留下非常明显的痕迹。因为数据本身并非完全虚构,而是建立在真实实验基础上的“选择性呈现”。

2015年发表在 BMC Medicine 的研究指出(来源:BMC),现代科研中存在广泛的“questionable research practices(可疑研究行为)”。很多研究者未必认为自己是在“造假”,但会在结果不理想时进行选择性分析、结果筛选或者后验假设调整。

真正复杂的问题就在这里。科研世界长期存在一种“结果导向”的文化。高影响因子期刊更偏好阳性结果、更完整的机制故事、更戏剧化的发现。于是,研究者会逐渐形成一种潜意识:数据应该呈现出某种“理想形态”。

很多数据操纵,并不是从恶意开始的,而是从“优化结果”开始的。久而久之,“美化结果”和“扭曲结果”之间的边界,就会越来越模糊。

统计学本身,就给了错误结果巨大的生存空间

如果说前面的内容讨论的是人为操作,那么更深层的问题在于:现代科研统计体系本身,也会自然地产生大量“看起来正确,但实际上错误”的结果。

2005年,John P. A. Ioannidis 发表了那篇后来影响极大的论文《Why Most Published Research Findings Are False》(论文地址:https://journals.plos.org/plosmedicine/article?id=10.1371%2Fjournal.pmed.0020124)。这篇文章后来几乎成为“可重复性危机”讨论的基础文献。

Ioannidis指出,当小样本研究、多重统计检验、较大的分析自由度、阳性结果偏好以及热门领域竞争同时存在时,即便研究者没有主观造假,文献体系中也会自然产生大量假阳性结果。

这一点其实非常重要。因为它意味着:很多错误结果,本身就会“伪装”成正常科研。

尤其在生命科学、心理学以及医学研究中,本来就存在高噪音、高变异性的问题。当整个文献环境充满统计波动时,真正的数据造假反而更不容易显得异常。某种意义上说,科研体系中的噪音,本身就在保护造假数据。

这也是为什么很多研究即便后来无法重复,当时依然能顺利发表。因为它们在统计意义上“勉强成立”,而这种“边缘显著性”,本来就是现代科研中极其常见的现象。

很多造假论文,其实非常“符合预期”

真正高水平的数据造假,很少会编造离谱结论。因为太夸张的数据,反而容易引起怀疑。现实中的问题论文,往往都有一个共同特点:它们“看起来太合理了”。

比如,某个新的信号通路影响肿瘤增殖;某种蛋白可能参与炎症调控;一种药物在小鼠模型中显示出“有限但显著”的效果。这些结果既不夸张,也不颠覆世界观,甚至和已有文献方向高度一致。

而同行评审本身,本质上也是一种“基于已有知识框架的判断”。如果一个研究结果符合当前主流理论、符合已有研究趋势、符合编辑和审稿人的认知预期,那么它天然更容易通过审核。

这也是为什么很多后来爆雷的论文,在发表初期甚至会被广泛引用。因为它们不是“不合理”,而是“太合理”。

实际上,很多高水平造假者真正擅长的,并不是编造一个震惊世界的结果,而是编造一个“刚刚好”的结果:足够新颖、足够完整、足够显著,但又没有离谱到让人怀疑。

这种“合理性伪装”,恰恰是数据造假最难识别的部分。

学术体系并不真正奖励“重复验证”

理论上,科学应该依赖可重复性。但现实中,“重复别人实验”长期缺乏足够激励。

重复研究通常很难发表在高影响因子期刊;基金机构更偏好“创新性发现”;高校考核更强调论文数量和影响因子;年轻研究者则需要不断产出新结果来维持职业竞争力。在这样的环境下,大量已发表研究实际上从未被真正验证。

2016年,心理学领域著名的“Reproducibility Project”尝试重复100项经典心理学研究,结果发现只有约36%的研究能够成功重复。相关结果发表于 Science

后来,癌症生物学领域也出现类似问题。多个团队发现,一些高影响力肿瘤研究无法稳定重复。

这些案例并不意味着原论文一定存在恶意造假,但它们说明了一个现实:现代科研体系,对“新发现”的奖励,远远高于“验证发现”。

于是,一个错误结果即便存在问题,也可能因为长期无人重复,而在文献体系中存活很多年。有时候,甚至直到整个研究方向开始出现系统性失败,人们才会重新回头审视最初的数据。

AI和图像检测工具,并没有想象中万能

近年来,越来越多论文因图像问题被撤稿。尤其在生物医学领域,Western blot重复、显微图拼接、图片镜像复制等问题,已经成为学术打假的重点对象。

一些知名学术监督者,例如 Elisabeth Bik ,长期通过人工图像分析发现了大量问题论文。她揭露的图像异常,后来导致数百篇论文被撤稿或修正。

但问题在于,真正复杂的数据造假,未必依赖明显的图像PS。

如果原始实验本身就是经过人为筛选的数据;如果研究者只展示“成功”的重复实验;如果统计分析本身经过大量调试,那么即便AI工具也很难直接识别。因为这些问题更多发生在实验设计和数据选择层面,而不是图像层面。

更现实的是,目前绝大多数期刊并没有资源对每篇论文做深度数据审计。很多期刊甚至连基础图像筛查都尚未全面实施。因此,当前的AI检测,更像是一种“辅助发现工具”,而不是完整解决方案。

技术当然正在进步,但科研造假的复杂性,也远比很多人想象得更高。

最深层的问题,其实是科研文化本身

现在越来越多研究者开始意识到,论文造假之所以难以发现,并不仅仅因为“坏人太聪明”。更重要的是,现代科研体系本身,就在不断制造一种容易滋生问题的环境。

发表压力(publish or perish)、基金竞争、高影响因子崇拜、短期成果导向、职业晋升焦虑……这些因素共同塑造了一种非常现实的科研生态。

在这种环境里,研究者会逐渐形成一种危险倾向:负结果没有价值,数据必须讲出完整故事,论文必须足够漂亮才能发表。而一旦整个体系默认“只有显著结果才值得发表”,那么数据选择、结果修饰甚至更严重的问题,就会逐渐被合理化。

2024年发表于 PubMed Central 的文章就提到,科研不端并不只是个人伦理问题,更与学术评价体系、资源竞争以及发表文化密切相关。

这也是为什么很多学术不端调查最后会发现:问题往往不是某一次突然造假,而是长期处于压力环境中的逐步滑坡。很多研究者最初可能只是“稍微调整一下数据”,但在不断追求显著结果的过程中,边界会一点点后退。

真正值得警惕的,或许并不只是少数极端案例,而是整个科研环境对于“漂亮结果”的过度迷恋。

科学真正的纠错机制,其实非常缓慢

讨论到这里,很多人可能会对科学产生悲观情绪。但科学体系真正值得信任的地方,从来不是“它永远不会出错”,而是它最终具备长期纠错能力。

虽然这个过程通常比人们想象得慢得多。

有些错误结果几年后才被发现;有些造假论文十几年后才撤稿;有些研究方向甚至需要经历整整一代人的重复验证,才会被重新修正。但从长期来看,科学仍然会逐渐朝着更严格、更透明的方向发展。

近年来,开放数据、预注册、开放同行评审、数据共享政策、图像审查以及重复性研究,都正在逐渐加强。一些期刊已经开始要求上传原始数据;越来越多基金机构要求研究数据可公开获取;部分领域甚至开始鼓励发表“负结果”。

这些机制未必能彻底消灭造假,但至少正在减少“长期隐藏问题”的空间。

而这,可能才是现代科学真正重要的地方:它不是一个完美无错的系统,而是一个能够在不断质疑中缓慢修正自己的系统。

撰稿人
标签
学术不端论文数据
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

AJE投稿前同行评审 - 助您获得同行专家反馈建议,投稿更自信  

在投稿前获得结构化、针对目标期刊的反馈建议。强化您的稿件,提前解决潜在的审稿人顾虑,让您的稿件为正式同行评审流程做好充分准备。