
过去两年里,很多科研人员已经默认把AI当成了论文写作流程的一部分。有人用它润色摘要,有人让它帮忙整理文献,还有人直接让它生成整段讨论部分。你已经很难再找到一个完全没有接触过ChatGPT、Claude 或 Gemini 的研究团队了。
问题是,AI真的让论文“更好”了吗?
最近,发表在管理研究领域顶级期刊Organization Science上的的一项研究(来源:More Versus Better: Artificial Intelligence, Incentives, and the Emerging Crisis in Peer Review),可能会让很多人感到不舒服。

研究者分析了近7000篇投稿论文和超过1万份审稿意见后发现:AI确实让学术写作“变多了”,但并没有让它“变好了”。相反,那些AI参与度更高的论文,往往更难阅读、语言质量更差,而且更容易在编辑初筛阶段被拒稿。(来源:https://pubsonline.informs.org/)
更重要的是,这并不只是作者的问题。研究还发现,连同行评审本身,也正在被AI“污染”。越来越多审稿意见开始出现AI生成痕迹,而这些评论通常更空泛、更单一,也更难真正帮助作者改进论文。
这篇研究之所以引发巨大讨论,不只是因为数据规模大,更因为它来自期刊编辑部自己。换句话说,这不是外部媒体在猜测“AI是否影响科研”,而是一线编辑第一次系统公开:他们已经明显感受到AI论文潮带来的压力。
有学者在看到这项研究时,用了一个非常直接的词:“AI slop”——大意是“AI垃圾内容”正在淹没学术期刊(来源:Forbes)。从某种程度上说,这个描述虽然尖锐,但看完研究数据之后,你会发现它并不夸张。
AI论文数量暴涨,但质量却在下降
研究团队分析了《Organization Science》从2021年至2026年的投稿记录。结果发现,自从2022年底ChatGPT发布后,期刊投稿量上涨了42%。

如果只看这个数字,很多人第一反应可能会觉得,这是科研生产力提高了。但问题在于,新增的大部分论文,都带有明显AI生成特征。研究使用了一种名为 Pangram 的AI文本检测系统,对论文摘要和全文进行评分。结果显示,在2022年之前,大部分投稿几乎没有AI痕迹;但到了2026年,大量论文已经属于“高AI参与”状态。
更关键的是,这些论文的可读性明显下降。
研究使用了经典的 Flesch Reading Ease 指标评估文本可读性,结果发现:AI参与程度越高,论文越难读。 这其实很有意思,因为大多数研究人员使用AI时,最初的期待恰恰相反——大家觉得AI会让英文更流畅、更像native speaker、更“高级”。
但AI带来的,并不是更清晰的表达,而是另一种问题:它会让论文越来越像“学术腔”。
研究发现,高AI文本通常存在一些非常典型的特点:句子更长、多音节词更多、术语堆砌增加、名词化表达增加,整体阅读负担更重。简单说,就是那种“看起来很学术,但读起来很累”的文本。
很多人其实已经开始有这种直觉了。你会发现,现在越来越多论文有一种奇怪的统一感:语言非常平滑、逻辑结构非常标准,但读完之后,大脑里几乎没有留下真正的信息点。像是有人把“学术写作模板”复制了一万遍。
编辑其实很容易“感觉出来”
很多作者有一种误解:只要AI写得足够像人,就不会被发现。
但现实中的同行评审,并不是靠“AI检测器”来判断论文质量的。编辑每天看几十篇稿件,他们对“低质量论文”的感觉,其实非常敏感。
研究数据显示,AI参与度超过30%的论文,desk reject的概率会明显飙升。 而那些AI痕迹特别重的论文(AI评分超过70%),最终只有3.2%能拿到“修改后重投”的机会。
这意味着,很多编辑虽然未必知道“这是AI写的”,但他们能明显感觉到这篇论文“不值得继续送审”。
研究里有一句话其实特别真实:编辑们正在成为阻挡低质量AI论文洪流的最后一道防线。
很多时候,问题并不只是语言本身。真正的问题是,AI正在让越来越多人跳过“思考”这个过程。
研究作者引用了一个非常形象的概念——“cognitive surrender”,也就是“认知上的放弃”。 当研究者开始习惯让AI生成理论意义、讨论部分、研究贡献、reviewer response,甚至cover letter时,人会慢慢停止真正组织自己的逻辑。最后论文虽然完成了,但作者对自己的研究本身,反而没有形成足够深的理解。
这其实才是AI科研写作里最危险的部分。
连审稿意见也开始AI化了
这项研究最震撼的一部分,其实不是论文,而是审稿意见。
研究者发现,越来越多审稿人开始使用AI写审稿意见。 而且这些AI审稿有几个非常明显的特点:
- 首先,它们更难读;
- 其次,它们关注的问题越来越单一。
研究发现,AI生成的审稿意见会更偏向理论,却减少对数据、实验、方法细节的关注。 换句话说,AI审稿更容易给出那种“听起来很专业”的宏大评论,比如“理论贡献不够明确”“建议加强理论框架”“需要进一步拓展研究意义”等等。
但真正具体的问题——比如实验设计漏洞、统计模型缺陷、数据质量问题——反而讨论得更少。
这会带来一个非常现实的问题:作者收到了一堆“像审稿意见”的文字,但实际上很难真正修改论文。
研究团队甚至发现,AI审稿的“多样性”明显下降。 以前不同审稿人会从不同角度评价论文,而现在,AI正在把所有review慢慢“压平”。最后整个同行评审系统,会越来越像一个统一模板机器。
为什么AI会让科研系统变成这样?
研究作者认为,问题核心不只是AI本身,而是学术界原本就存在的“publish or perish”(不发表就毁灭)机制。
当高校、商学院、研究机构越来越强调发了多少篇、发在哪些期刊、是否进入FT50/UTD列表、年度publication count时,AI自然会被当成“提高产量”的工具。
研究甚至发现,那些原本就特别强调论文数量的学校,在ChatGPT出现后,AI论文增长更明显。 这其实非常符合现实逻辑:如果评价体系奖励的是“数量”,那最理性的行为,当然是用AI尽可能多地产出论文。
问题是,同行评审系统本来就是靠大量人类志愿劳动维持的。编辑、助理编辑、审稿人,本来就已经很疲惫了。现在突然多了40%以上的投稿量,而且很多还是低质量AI论文,整个系统自然开始超载。
研究里有一句很扎心的话:
Humans are getting tired.(人类已经开始疲惫了。)
这可能是全文最真实的一句话。
AI真正的问题,从来不是“使用”,而是“替代”
我觉得这项研究最值得认真思考的一点,其实不是“AI能不能用于论文写作”,而是:“AI是在辅助思考,还是在替代思考?”
研究作者其实也承认,他们自己在写这篇论文时,同样使用了AI。 包括帮助生成代码、调整措辞、优化结构、比较文献等等。但他们强调,核心逻辑、判断、修改和重写,仍然由人完成。
这可能才是未来科研里更合理的AI使用方式。
AI当然可以帮助研究者更快整理信息、提高语言效率、减少机械性劳动,但它不能替代研究判断、科学怀疑、理论思考、数据解释和真正的学术洞察。
因为真正好的论文,本质上不是“语言产物”,它首先是“思想产物”。
而目前的大语言模型,最擅长的事情,其实是模仿“像论文的话”。
这两者之间,差别非常大。
