为什么论文数据造假很难被发现？

文章
写作
期刊
能见度
研究过程
伦理

最近，耿同学揭露一些论文存在数据造假的情况，相比大家也都看到了，这些年，关于论文撤稿、图像造假、虚假同行评审以及AI生成论文的问题，已经越来越频繁地进入大家的讨论范围。很多刚进入科研的人会下意识认为现代学术出版体系有同行评审、有编辑审核、有查重系统，甚至还有AI检测工具，按理说，论文中的数据造假应该很容易暴露才对。

更新于2026年5月21日

但现实恰恰相反。

大量问题论文并不是在投稿阶段被发现，而是在发表几年后，甚至十几年后，才被人偶然揭露。有些论文即便已经被撤稿，相关结论仍然在持续被引用；还有一些研究方向，直到整个领域的重复实验长期失败后，人们才逐渐意识到最初的数据可能存在问题。

这说明了一个很多科研新人容易忽视的事实，现代科学体系，并不是一个“逐篇核查真相”的系统，而更像是一个建立在默认信任基础上的知识协作网络。而这，也恰恰是数据造假最难被发现的根本原因。

同行评审并不会真正“验证”你的实验

很多人第一次接触学术出版时，会对同行评审抱有一种近乎“审判式”的想象，好像审稿人会像侦探一样，一点点核查论文中的所有实验数据。但现实中的同行评审，并不是这样运行的。

绝大多数情况下，审稿人能看到的，只有作者提交的论文、图表以及有限的补充材料。他们通常不会接触实验原始记录、实验室日志、完整代码，当然更不可能亲自重复实验。原因其实非常现实。

首先是没有时间。如今全球每年发表的学术论文数量已经达到数百万篇。许多审稿人本身也是大学教师、PI或博士后，他们的审稿工作通常是在教学、申请基金、管理课题之外额外完成的。很多论文的审稿时间可能只有几个小时。对于复杂的生物医学研究、组学分析或者动物实验来说，审稿人实际上只能做“合理性判断”，而不是真正意义上的“验证”。

其次是没有资源。例如一篇肿瘤生物学论文，里面可能涉及动物模型、Western blot、RNA测序以及复杂统计分析。如果真的要完全重复实验，成本可能高达数万元甚至数十万元，还需要数月时间。对于期刊来说，这在现实中几乎不可能实现。

发表在 PLOS ONE 的研究就曾指出（来源：PLOS ONE），同行评审更多是一种基于信任的质量控制机制，而不是严格的数据审计系统。审稿人通常只能发现明显的问题，却很难识别经过精心设计的数据操纵。

这也是为什么很多后来被撤稿的论文，在最初投稿时其实“看起来完全正常”。因为审稿人真正评估的重点，本来就不是“作者有没有造假”，而是“这个研究故事是否合理”。

最隐蔽的造假，从来不是“完全虚构”

公众对学术造假的想象，往往来自新闻中的极端案例：有人完全伪造实验结果、虚构患者数据、甚至根本没有做实验。但现实中，更难被发现的，其实是另一类问题：半真实数据。

换句话说，实验可能确实做了，但研究者只展示了其中“最好看”的部分。这种现象在科研实践里并不少见。比如，研究者重复实验十次，只选择其中三次结果最一致的数据；统计分析不断更换方法，直到P值小于0.05；实验组和对照组之间出现不符合预期的数据点时，被主观定义为“异常值”并删除；原本设定的研究终点不显著，于是重新定义主要终点。

这些行为最大的危险在于，它们往往不会留下非常明显的痕迹。因为数据本身并非完全虚构，而是建立在真实实验基础上的“选择性呈现”。

2015年发表在 BMC Medicine 的研究指出(来源：BMC)，现代科研中存在广泛的“questionable research practices（可疑研究行为）”。很多研究者未必认为自己是在“造假”，但会在结果不理想时进行选择性分析、结果筛选或者后验假设调整。

真正复杂的问题就在这里。科研世界长期存在一种“结果导向”的文化。高影响因子期刊更偏好阳性结果、更完整的机制故事、更戏剧化的发现。于是，研究者会逐渐形成一种潜意识：数据应该呈现出某种“理想形态”。

很多数据操纵，并不是从恶意开始的，而是从“优化结果”开始的。久而久之，“美化结果”和“扭曲结果”之间的边界，就会越来越模糊。

统计学本身，就给了错误结果巨大的生存空间

如果说前面的内容讨论的是人为操作，那么更深层的问题在于：现代科研统计体系本身，也会自然地产生大量“看起来正确，但实际上错误”的结果。

2005年，John P. A. Ioannidis 发表了那篇后来影响极大的论文《Why Most Published Research Findings Are False》(论文地址：https://journals.plos.org/plosmedicine/article?id=10.1371%2Fjournal.pmed.0020124)。这篇文章后来几乎成为“可重复性危机”讨论的基础文献。

Ioannidis指出，当小样本研究、多重统计检验、较大的分析自由度、阳性结果偏好以及热门领域竞争同时存在时，即便研究者没有主观造假，文献体系中也会自然产生大量假阳性结果。

这一点其实非常重要。因为它意味着：很多错误结果，本身就会“伪装”成正常科研。

尤其在生命科学、心理学以及医学研究中，本来就存在高噪音、高变异性的问题。当整个文献环境充满统计波动时，真正的数据造假反而更不容易显得异常。某种意义上说，科研体系中的噪音，本身就在保护造假数据。

这也是为什么很多研究即便后来无法重复，当时依然能顺利发表。因为它们在统计意义上“勉强成立”，而这种“边缘显著性”，本来就是现代科研中极其常见的现象。

很多造假论文，其实非常“符合预期”

真正高水平的数据造假，很少会编造离谱结论。因为太夸张的数据，反而容易引起怀疑。现实中的问题论文，往往都有一个共同特点：它们“看起来太合理了”。

比如，某个新的信号通路影响肿瘤增殖；某种蛋白可能参与炎症调控；一种药物在小鼠模型中显示出“有限但显著”的效果。这些结果既不夸张，也不颠覆世界观，甚至和已有文献方向高度一致。

而同行评审本身，本质上也是一种“基于已有知识框架的判断”。如果一个研究结果符合当前主流理论、符合已有研究趋势、符合编辑和审稿人的认知预期，那么它天然更容易通过审核。

这也是为什么很多后来爆雷的论文，在发表初期甚至会被广泛引用。因为它们不是“不合理”，而是“太合理”。

实际上，很多高水平造假者真正擅长的，并不是编造一个震惊世界的结果，而是编造一个“刚刚好”的结果：足够新颖、足够完整、足够显著，但又没有离谱到让人怀疑。

这种“合理性伪装”，恰恰是数据造假最难识别的部分。

学术体系并不真正奖励“重复验证”

理论上，科学应该依赖可重复性。但现实中，“重复别人实验”长期缺乏足够激励。

重复研究通常很难发表在高影响因子期刊；基金机构更偏好“创新性发现”；高校考核更强调论文数量和影响因子；年轻研究者则需要不断产出新结果来维持职业竞争力。在这样的环境下，大量已发表研究实际上从未被真正验证。

2016年，心理学领域著名的“Reproducibility Project”尝试重复100项经典心理学研究，结果发现只有约36%的研究能够成功重复。相关结果发表于 Science 。

后来，癌症生物学领域也出现类似问题。多个团队发现，一些高影响力肿瘤研究无法稳定重复。

这些案例并不意味着原论文一定存在恶意造假，但它们说明了一个现实：现代科研体系，对“新发现”的奖励，远远高于“验证发现”。

于是，一个错误结果即便存在问题，也可能因为长期无人重复，而在文献体系中存活很多年。有时候，甚至直到整个研究方向开始出现系统性失败，人们才会重新回头审视最初的数据。

AI和图像检测工具，并没有想象中万能

近年来，越来越多论文因图像问题被撤稿。尤其在生物医学领域，Western blot重复、显微图拼接、图片镜像复制等问题，已经成为学术打假的重点对象。

一些知名学术监督者，例如 Elisabeth Bik ，长期通过人工图像分析发现了大量问题论文。她揭露的图像异常，后来导致数百篇论文被撤稿或修正。

但问题在于，真正复杂的数据造假，未必依赖明显的图像PS。

如果原始实验本身就是经过人为筛选的数据；如果研究者只展示“成功”的重复实验；如果统计分析本身经过大量调试，那么即便AI工具也很难直接识别。因为这些问题更多发生在实验设计和数据选择层面，而不是图像层面。

更现实的是，目前绝大多数期刊并没有资源对每篇论文做深度数据审计。很多期刊甚至连基础图像筛查都尚未全面实施。因此，当前的AI检测，更像是一种“辅助发现工具”，而不是完整解决方案。

技术当然正在进步，但科研造假的复杂性，也远比很多人想象得更高。

最深层的问题，其实是科研文化本身

现在越来越多研究者开始意识到，论文造假之所以难以发现，并不仅仅因为“坏人太聪明”。更重要的是，现代科研体系本身，就在不断制造一种容易滋生问题的环境。

发表压力（publish or perish）、基金竞争、高影响因子崇拜、短期成果导向、职业晋升焦虑……这些因素共同塑造了一种非常现实的科研生态。

在这种环境里，研究者会逐渐形成一种危险倾向：负结果没有价值，数据必须讲出完整故事，论文必须足够漂亮才能发表。而一旦整个体系默认“只有显著结果才值得发表”，那么数据选择、结果修饰甚至更严重的问题，就会逐渐被合理化。

2024年发表于 PubMed Central 的文章就提到，科研不端并不只是个人伦理问题，更与学术评价体系、资源竞争以及发表文化密切相关。

这也是为什么很多学术不端调查最后会发现：问题往往不是某一次突然造假，而是长期处于压力环境中的逐步滑坡。很多研究者最初可能只是“稍微调整一下数据”，但在不断追求显著结果的过程中，边界会一点点后退。

真正值得警惕的，或许并不只是少数极端案例，而是整个科研环境对于“漂亮结果”的过度迷恋。

科学真正的纠错机制，其实非常缓慢

讨论到这里，很多人可能会对科学产生悲观情绪。但科学体系真正值得信任的地方，从来不是“它永远不会出错”，而是它最终具备长期纠错能力。

虽然这个过程通常比人们想象得慢得多。

有些错误结果几年后才被发现；有些造假论文十几年后才撤稿；有些研究方向甚至需要经历整整一代人的重复验证，才会被重新修正。但从长期来看，科学仍然会逐渐朝着更严格、更透明的方向发展。

近年来，开放数据、预注册、开放同行评审、数据共享政策、图像审查以及重复性研究，都正在逐渐加强。一些期刊已经开始要求上传原始数据；越来越多基金机构要求研究数据可公开获取；部分领域甚至开始鼓励发表“负结果”。

这些机制未必能彻底消灭造假，但至少正在减少“长期隐藏问题”的空间。

而这，可能才是现代科学真正重要的地方：它不是一个完美无错的系统，而是一个能够在不断质疑中缓慢修正自己的系统。

撰稿人

AJE 美国期刊专家

标签

学术不端论文数据

订阅邮件

订阅我们的邮箱后可提前获得AJE作者资源的文章，享受AJE服务的折扣，以及更多的优惠

AJE投稿前同行评审 - 助您获得同行专家反馈建议，投稿更自信

在投稿前获得结构化、针对目标期刊的反馈建议。强化您的稿件，提前解决潜在的审稿人顾虑，让您的稿件为正式同行评审流程做好充分准备。