
最近,一项发表在柳叶刀的分析显示:截至 2026 年初,平均每 277 篇论文中,就有 1 篇包含至少一条“伪造参考文献”。更值得注意的是,这个比例正在快速上升。(论文来源:The Lancet)

这个数字之所以让很多人感到不安,并不只是因为“有人引用了不存在的论文”,而是因为它触碰到了科学研究最核心的一层基础:参考文献的可信度。
在现代科研体系中,参考文献不仅仅是论文末尾的格式化列表,它本质上承担着“证据链”的作用。每一次引用,都意味着作者在向读者传递一个信号:这里存在一项真实、可检索、能够支撑论点的研究。然而,当越来越多“看似真实”的引用实际上并不存在时,整个学术体系赖以建立的信任机制,也开始出现裂缝。
根据 Retraction Watch 的报道,研究作者认为,这类问题的快速增长,很可能与大语言模型(LLMs)和 AI 写作工具的广泛使用有关。而从目前的趋势来看,这种影响可能还只是开始。
一项针对 1.25 亿条参考文献的审计
这项研究由 Columbia University 等机构研究人员完成。研究团队建立了一套自动化参考文献验证系统,对 2023 年 1 月至 2026 年 2 月期间,PubMed 数据库中的 247 万余篇论文进行了扫描。
整个研究的数据规模相当惊人。研究者总共分析了约 1.256 亿条参考文献,其中约 9710 万条带有 PMID(PubMed Identifier),能够进行自动化验证。随后,他们将这些引用与 PubMed、Crossref、OpenAlex 以及 Google Scholar 等数据库进行逐条匹配,以确认这些文献是否真实存在。
这里需要特别说明的是,研究团队关注的并不是普通的引用错误,而是更严重的一类情况:论文中的参考文献标题、作者、年份甚至研究主题都“像真的”,但数据库中实际上根本不存在对应研究。
最终,研究人员在 9710 万条已验证参考文献中,识别出了 4046 条伪造参考文献,涉及 2810 篇论文。
如果只看绝对比例,这个数字或许还没有达到“泛滥”的程度。但真正值得警惕的是增长速度。研究显示,2023 年时,大约每 2828 篇论文中才有 1 篇存在伪造参考文献;而到了 2025 年,这个比例已经恶化到每 458 篇 1 篇;进入 2026 年后,更进一步上升至每 277 篇就有 1 篇。
研究中的一些案例甚至有些令人震惊。例如,一篇关于泌尿外科手术技术的论文,在 30 条已验证参考文献中,有 18 条属于伪造引用,占比达到 60%。更关键的是,这些引用并不是一眼就能看出的“低级错误”——它们主题高度相关、格式规范、作者是真实研究者,甚至连发表年份都十分合理。
这也是为什么问题如此棘手。
AI 幻觉,正在进入正式发表的论文
过去两年,很多科研人员都体验过 AI 工具生成虚假文献的情况。无论是 ChatGPT,还是其他大语言模型,在生成参考文献时,都存在明显的幻觉问题:标题、作者、DOI 看起来非常真实,但实际并不存在。
事实上,这已经不是什么新问题。该研究引用的早期工作显示,在生物医学场景下,大语言模型生成的参考文献中,大约有 30%–69% 是虚构的。
但过去,这更多只是“AI 使用体验”的讨论;而现在,问题已经进入正式学术出版流程。
根据 Retraction Watch 的报道,研究作者指出,伪造参考文献数量的明显上升,出现在 2024 年中期之后,而这个时间点,与 ChatGPT 等大语言模型在 2022–2023 年的大规模普及高度吻合。考虑到医学论文通常存在数月投稿到发表周期,这种时间上的对应关系并非巧合。
某种程度上,这也说明一个现实:越来越多作者,已经开始在正式科研写作中依赖 AI 工具生成引用。
而问题在于,同行评审体系其实并没有为此做好准备。
传统同行评审默认作者引用的研究是真实存在的。绝大多数审稿人不会逐条打开 DOI 检查,更不可能逐篇验证参考文献的真实性。在过去,这种“默认信任”通常没有太大问题,因为伪造参考文献的成本并不低。但 AI 出现后,情况发生了变化。
今天,一个没有真实阅读过文献的人,也能够在几秒钟内生成一份“格式完全正确”的参考文献列表。这才是真正危险的地方。
比引用错误更严重的,是“证据污染”
很多人会觉得:参考文献即使有问题,好像也不会直接影响实验数据。
但实际上,学术研究是一个层层引用、不断累积的体系。尤其是在医学领域,一篇论文可能会进入系统综述,随后被纳入临床指南,最终影响真实世界的医疗决策。
研究中专门引用了一篇发表在 JAMA Network Open 的研究,指出“论文工厂”生产的论文,已经开始污染系统综述的证据体系。
换句话说,当虚假引用进入正式发表论文之后,它们并不会停留在单篇文章内部,而是可能继续被后续研究引用、传播,并最终进入更高层级的循证医学体系。
这也是为什么研究作者特别强调:问题不仅属于“写作规范”,而是已经涉及科研诚信与医学安全。
更令人担忧的是,这些伪造引用并不像传统学术不端那样容易被发现。它们通常具有高度“真实性”:研究主题精准、作者是真实学者、年份合理、期刊方向匹配。很多情况下,即使经验丰富的审稿人,也很难仅凭肉眼识别。
研究团队还发现,一些问题论文之间存在明显关联:同一组作者在多篇论文中重复出现,研究主题围绕 AI、CRISPR、纳米疫苗、肠道微生物等热门方向展开,并共享相似引用模式,呈现出典型“论文工厂”特征。
更现实的问题是,在研究识别出的 2810 篇受影响论文中,98.4% 在审计时仍未受到出版社任何处理。 也就是说,大部分问题论文依然正常存在于数据库中,并继续被其他研究者检索和引用。
AI 时代,科研作者真正需要重新建立的习惯
其实,AI 工具本身并不是问题。今天很多科研人员都会使用 AI 协助润色、整理思路、优化语言表达,这已经逐渐成为新的写作现实。
真正值得警惕的,是一种越来越普遍的倾向:作者开始默认相信 AI 提供的信息,而不再亲自验证。
尤其是在参考文献部分。
很多科研作者其实都有类似经历:时间紧张时,直接复制 AI 给出的引用;或者只看标题“像真的”,便默认它存在。这种习惯短期内或许能提高写作效率,但长期来看,它正在削弱科研写作最基本的一项原则——作者应当真正阅读并确认自己所引用的研究。
从某种意义上说,这篇研究最大的价值,并不只是揭示“有多少伪造参考文献”,而是提醒整个科研界:当 AI 极大提高写作速度时,学术验证机制却并没有同步升级。
过去,科研训练强调如何检索文献、如何构建论证;而未来,或许还需要增加一项新的能力:如何验证 AI 生成的信息。
最后
过去几年,学术界已经经历了数据造假、图片篡改、同行评审操纵等一系列诚信问题。而现在,AI 又带来了另一种更加隐蔽的问题:伪造参考文献。
它不像抄袭那样容易被查重软件发现,也不像图片造假那样能够通过肉眼识别。相反,它往往“过于真实”,甚至能够顺利通过同行评审。
也正因为如此,它可能比很多人想象得更危险。对于科研作者而言,也许最重要的一件事,其实仍然是最传统的学术习惯:不要引用自己没有真正读过的论文。因为无论 AI 工具多么强大,最终需要为论文负责的人,始终是作者自己。
