14条引文，12条不存在！疑似AI生成论文混入Springer Nature期刊

文章
写作
伦理
能见度

这篇论文是关于肠造口患者术后心理支持的医学评论文章。乍看之下，它讨论的是一个合理而重要的医学话题：许多患者在造口手术后会经历显著的心理压力，因此医疗体系应该更加重视心理健康干预。然而，当读者开始追溯文章所引用的研究时，却发现部分文献完全无法找到——就像是凭空出现的“幽灵文献”。

更新于2026年3月13日

14条引文，12条不存在！疑似AI生成论文混入Springer Nature期刊

最近，学术出版界发生一件颇具戏剧性的事件。事情的主角并不是某个著名教授，也不是某个大型研究团队，而是一位医院图书馆员。她在帮助同事查找一篇论文的参考文献时，发现其中两条引用怎么都找不到。最初她以为只是数据库索引问题，于是开始在不同的学术数据库中检索。但随着检索不断深入，她逐渐意识到事情并不简单——这些引用不仅在数据库里找不到，在对应期刊的具体卷期中也完全不存在。

换句话说，这些文献从未发表过。

更令人惊讶的是，当她继续检查论文的参考文献列表时发现一共14条参考文献，12条不存在，这可是发表在Springer nature旗下期刊，这谁受得了。于是当事人把这事爆给了Retraction Watch。

根据报告，这篇题为 From Surgery to Strength: The Case for Mental Health Integration in Ileostomy Care的论文发表在 Springer Nature 旗下期刊 Digestive Diseases and Sciences上。

From Surgery to Strength: The Case for Mental Health Integration in Ileostomy Care论文截图

缺乏验证的研究，细思极恐

如果只是某一两条参考文献错误，其实并不罕见。许多作者在整理引用时可能会出现页码错误、年份错误，或者引用格式不规范。但这次事件之所以引起关注，是因为问题的性质不同：引用的文献根本不存在。

对于学术论文来说，这几乎触及了学术可信度最核心的部分。参考文献不仅仅是论文末尾的一个列表，它实际上承担着三个关键功能。

首先，它是论证证据的来源。当论文提出某个观点时，引用文献意味着读者可以追溯到原始研究。

其次，它帮助读者理解研究在现有知识体系中的位置。

最后，也是最重要的一点，引用体系构成了科学研究的可验证性。如果引用本身是虚假的，那么整个论证体系就会变得非常脆弱。

从这个角度看，这次事件的真正问题并不是“引用写错了”，而是科学论证的基础被掏空了。我们不禁想，在AI时代是不是这仅仅是冰山一角？像这次SN这样的权威期刊都被骗过，那么其他期刊是否也早已被攻陷呢，真是细思极恐啊。

AI时代，警惕幽灵引用

虽然，论文作者在回复记者的疑问时，给的理由是失误，非故意，但随后给的引文列表同样存在错误，第三版才正确，这很难不让人联想到，这篇论文的科学性，引用是不是AI生成的。

事实上，这种现象在过去两年已经被系统性研究过。2026年的一项大规模分析研究调查了大型语言模型生成参考文献的准确性。研究者发现，不同模型生成的引用中，虚假引用比例在14%到94%之间，差异非常大，但无一例外都存在问题。

更值得注意的是，该研究在分析56,000多篇论文时发现，大约 1.07% 的论文包含无法验证的引用。这一比例在2025年之后出现明显增长。研究者将这种现象称为幽灵引用——即引用看起来像真实文献，但实际上并不存在。

这种现象并不难理解。大型语言模型在生成文本时，本质上是根据语言模式进行概率预测。当系统试图生成“看起来像真实论文”的参考文献时，它往往会组合作者姓名、期刊名称和研究主题，形成一个结构上合理但实际上不存在的引用。如果作者在写作过程中没有逐条核查，这些引用就可能直接进入最终稿件。

同行评审和编辑为什么没有发现？

很多人看到这件事后，第一个疑问就是：期刊编辑和同行评审流程在做什么？

理论上，编辑和审稿人应该评估论文的科学性和可信度，但在实际操作中，绝大多数编辑和审稿人并不会逐条检查参考文献。原因也很简单：哪有那么多时间啊。

相关研究调查发现，大约 76% 的审稿人不会系统性核查参考文献，而 80% 的审稿人表示从未怀疑过引用可能是虚构的。这种现象其实反映了学术出版系统的一种长期信任机制。传统上，审稿人假设作者在引用文献时是诚实的，因此他们更关注研究设计、实验方法和数据解释，而不是逐条检查引用。

但AI时代的到来，正在改变这个前提条件。当生成式工具能够轻松创建“看起来合理”的文献列表时，这种信任机制就可能被利用，甚至被无意破坏。

个人看法

其实大家很容易理解为什么这种问题会出现。懂得都懂，无论怎么解释，这种14个引文，12个不存在的情况，正常情况下怎么会发生呢。

现实中的论文写作往往是一个压力很大的过程。科研人需要在短时间内完成文献综述、数据分析和论文撰写。在这种情况下，许多人开始尝试使用AI工具来辅助整理文献或生成初稿。如果作者没有建立严格的核查习惯，就很容易出现这样的情况：AI生成了一条看起来非常合理的引用，而作者在时间压力下没有逐条验证。

但从科研伦理角度来说，这个理由并不能成为借口。

在论文中，每一条引用实际上都是一种隐含的承诺：作者在告诉读者，“你可以去阅读这篇研究，它支持我的论点”。如果引用并不存在，这种承诺就被打破了。长期来看，这种问题不仅影响单篇论文的可信度，也会侵蚀整个学术文献体系的可靠性。

我自己在写论文或指导学生时，往往会强调一个点：任何没有亲自打开并阅读过的文献，都不应该出现在参考文献列表里。这听起来是一个很基础的要求，但在AI写作逐渐泛滥的今天，它可能比过去更加重要。

学术出版系统可能需要一些新机制

这类事件也提醒学术出版界：传统的同行评审流程，可能并没有为AI时代做好准备。

在过去几十年里，期刊编辑和审稿人很少考虑引用造假的问题，因为这种行为在科研文化中成本很高、风险很大。但现在情况不同了。生成式AI可以在几秒钟内创建几十条“看起来真实”的引用，这使得问题的规模和性质都发生了变化。

虽然，一些出版商，如本次事件的核心Springer Nature，在25年上线了一款检查引文的AI工具，但效果怎么样，还有待观察。很多期刊还开始要求作者明确声明是否使用AI工具参与写作，以提高透明度。

这些措施或许不能完全解决问题，但至少说明学术出版界已经意识到，引用体系需要新的防护机制。

撰稿人

Jimmy Wang

AJE Author

标签

AI写作参考文献学术道德

订阅邮件

订阅我们的邮箱后可提前获得AJE作者资源的文章，享受AJE服务的折扣，以及更多的优惠

AJE文稿格式排版：提高期刊接收率

我们可以帮助您对您的稿件进行排版，以准确满足您的目标期刊的规格要求，让您有更多时间投入到研究中。我们的排版专家将排版文稿的页面布局、文本格式、标题、标题页、图片放置、以及引用/参考文献的格式，以确保符合您目标期刊的规格要求；检查文献引用的准确性，并检查标题、栏外标题、摘要、主要文本和图例符合期刊的字数限制。