审稿人能发现论文是 ChatGPT 生成的吗?

近日,The American Journal of Emergency Medicine 发表了一项研究:Can peer reviewers spot ChatGPT-generated manuscripts?这项实验性的研究尝试回答一个前所未有的问题:当前的编辑和审稿人,是否具备辨别 AI 写作的能力?

更新于2025年8月5日

审稿人能发现论文是 ChatGPT 生成的吗?

在越来越多科研作者借助 ChatGPT 等 AI 工具撰写论文的时代,一个令人深思的问题悄然浮现:如果一篇学术论文完全由人工智能生成,审稿人能识别出来吗?

这是一个不仅关乎技术能力,更触及学术诚信与出版机制底线的问题。毕竟,同行评审制度是现代科学出版的核心防线,而 AI 写作的崛起,正悄悄挑战着这道防线的敏感度与可靠性。

近日,The American Journal of Emergency Medicine 发表了一项研究:Can peer reviewers spot ChatGPT-generated manuscripts?这项实验性的研究尝试回答一个前所未有的问题:当前的编辑和审稿人,是否具备辨别 AI 写作的能力?

Can peer reviewers spot ChatGPT-generated manuscripts?论文截图

它并不是一次噱头十足的科技尝试,而是一次以真实同行评审流程为背景、涉及实际评审人的严肃实验。这项研究的设计和结果,或许会让许多科研工作者开始重新思考:AI 时代的学术评审,究竟准备好了没有?

一场隐藏身份的“论文对决”

2024年末,一项别开生面的实验性研究在学术界悄然展开。研究人员提出了一个大胆的问题:如果我们让 ChatGPT 写一篇完整的科研论文,送去给真正的审稿人评审,他们能看出来这不是人写的吗?

研究团队使用了 OpenAI 的 GPT-4o 模型,让它撰写了一篇以“预测院外心脏骤停(OHCA)患者的死亡率与自主循环恢复(ROSC)”为主题的完整科学手稿。整篇论文的生成完全不依赖任何人工干预,从摘要、方法、结果到参考文献,全权交由 ChatGPT-4o 完成。

接下来,这篇“AI写作样本”被发送给14位具有实际SCI-E期刊审稿或编辑经验的专家。这些人并不知道自己面临的是一场“认知挑战”。他们被要求像日常工作一样审稿,给出接受、拒稿或修改建议,事后才被询问:你是否察觉这是一篇AI生成的论文?

多数审稿人被“骗”了

实验结果颇具冲击力:78.6%的审稿人(11位)完全没有察觉出这篇论文是由ChatGPT生成的。

在审稿过程中,有6人(42.9%)在编辑初审阶段选择拒稿,另有6人建议送审。在进一步的同行评审环节,又有6人建议拒稿、4人提出“大修”建议。然而,这些判断均是在未意识到作者是AI的前提下做出的。

也就是说,这些评审人并不是因为发现了AI痕迹而拒稿,而是像平常一样基于内容质量做出判断。而且,其中有不少人给出了正面的语言评价,认为“结构清晰”“表达规范”,甚至比部分人类论文更“易读”。

这反映出一个核心问题:AI生成论文已经具备一定“迷惑性”语言优势,而当前的审稿流程,并不具备足够的识别能力。

少数能够怀疑文章“可能不是人类写作”的审稿人,也多是基于一种“模糊直觉”提出意见,例如指出文章“空洞”“细节不足”“没有具体研究亮点”——这些反馈虽然准确,但并不具备操作性识别标准。

研究最终指出:即使是经验丰富的审稿人,在没有明确提示的前提下,也很难区分AI生成内容与人工撰写内容,这为未来的稿件评估与出版伦理带来了实质性挑战。

评审机制,准备好迎接AI了吗?

这项研究传递出的信号非常清晰:目前的同行评审机制,在识别AI生成内容方面存在明显盲区。

过去,审稿人依赖语言质量、逻辑顺畅性、结构完整性等指标来判断论文的“好坏”。但在AI可以轻松满足这些“表层标准”的今天,评审机制也许需要重新定义它所追求的“科研质量”。

这并不是说审稿人不够细致,而是AI写作正在重塑我们对“写得好”这件事的理解。它可以写出无懈可击的摘要、看似科学的结论、引用得当的参考文献,却可能在背后没有任何真正的实验过程,甚至完全是虚构的数据和设计。

在这样的情况下,仅靠语言判断、结构判断已不够。同行评审机制亟需更新,对AI生成内容形成更有针对性的识别方法和伦理规定。

我们还能用ChatGPT吗?

看到这里,也许你会问:那是不是意味着我们从此不能使用ChatGPT了?

其实正相反。这项研究的意义并不在于“禁止AI写作”,而是提醒我们要对它的能力保持清醒认识。ChatGPT可以是一个非常强大的写作助手,但它不能取代研究本身。数据从哪里来、实验怎么做、推理是否合理,这些才是一篇真正科研论文的“根”。

更关键的是,如果你使用了AI工具,却没有说明——这在很多期刊的规定中已被视为违反学术道德的行为。包括Springer Nature、Elsevier、Wiley 等出版机构都陆续发布政策,要求作者披露使用AI生成内容的范围和方式。

最后

这项研究让我们看到了一个悖论:当一篇论文看起来“太标准”、“太规整”、“太没问题”,它可能就不是人写的。我们一直以为,审稿人可以看穿虚假,分辨质量。但当AI进入写作战场,我们也许需要重新定义“可疑”的标准。也许,未来的审稿人不只要读懂文章,还要学会读懂AI。

撰稿人
标签
AI写论文AI写作
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

影响因子排名前100的期刊,有65本推荐AJE论文润色!

我们的编辑团队全部来自美国,他们有科研背景且熟知您所在领域的专业问题和专业用语。