
近年来,生成式 AI工具在学术界迅速普及,尤其是ChatGPT等大型语言模型的广泛应用,引发了科研工作者在撰写论文时前所未有的技术革命。然而,伴随高效写作体验而来的,也有关于学术诚信、准确性和作者责任的复杂争议。
针对这些问题,Cheng等三位来自加拿大、美国和英国的医疗教育学者于近日在Advances in Simulation上发表了一篇题为Artificial intelligence-assisted academic writing: recommendations for ethical use的评论文章,系统地探讨了生成式AI在学术写作中的伦理边界及其合理使用方式。

AI工具改变了写作方式,也挑战了传统规范
文章指出,与传统科研工具(如文献管理软件、统计分析软件)相比,生成式AI的一大特点是具备自主生成内容的能力。这种能力虽然提升了效率,但也模糊了原创性与辅助性的界限。一些研究者欢迎它作为写作助手,而另一些则担心其会引发抄袭、虚构信息等学术不端问题。
作者特别关注医疗模拟(healthcare simulation)这一领域内,关于AI写作尚缺乏明确使用指南的问题。因此,他们撰文旨在填补这一空白,提出一套具有普适性的使用建议。
期刊对AI的态度
该团队对当前学术出版界的相关政策进行了梳理。他们总结认为,大多数出版机构(如《JAMA》、《ICMJE》、WAME等)已经明确指出以下两点:
- AI不能成为论文作者:因为它无法对内容负责、无法参与同行评审或后续问责;
- 必须透明披露使用情况:AI的参与应如实呈现在论文的“方法部分”或“致谢部分”,包括使用的具体工具、作用范围和人类作者所做的审核与修改工作。
他们强调,将AI的使用明确标注在“方法部分”比放在致谢更具可见性,也更符合透明度原则。
抄袭、虚构与错误引用
尽管生成式AI在学术写作中具有显著的便利性,但作者指出,其引入也带来了三项关键的伦理和实务风险:抄袭、虚构内容以及错误引用。这三类问题不仅挑战了学术写作的基本规范,也直接影响到研究的可信度与可重复性。
抄袭:从“无意识复制”到“二次传播”
生成式AI如ChatGPT主要通过分析和重组其庞大的训练语料(往往包含来自网络的公共文本)来生成内容。这就带来了一个问题:AI可能在生成文本时复用了原始内容中的句式甚至整段内容,但未进行适当标注。
研究指出,这种情况不仅可能违反版权,还可能在作者不知情的情况下构成抄袭。例如,一些研究人员可能缺乏对领域知识的敏感性,无法识别AI是否复制了某篇文章中的表述。一旦这种“无意识的抄袭”未经发现而发表,又被他人引用,就会形成所谓的“二次抄袭”(double plagiarism)现象,即AI生成的重复内容被进一步复制传播。
此外,AI生成的图表、图像或术语使用不当,可能侵犯原始出版物的使用权,进一步加剧学术风险。
虚构信息:看似合理,却无据可依
所谓“AI幻觉”,是指模型在面对复杂或开放式问题时,生成了看似流畅、逻辑自洽但实则虚构的内容。在学术写作中,这类幻觉表现为编造不存在的研究结果、夸张性的推论,甚至伪造的数据描述。
作者指出,ChatGPT等工具在未被明确指示核查事实的情况下,容易输出“编造的摘要”“不存在的病例”“臆测性的理论”。这种现象尤其危险于医学与健康领域的写作中,因为看似权威的语言可能掩盖事实错误,误导读者、审稿人甚至政策制定者。
根本原因在于:当前LLM模型并未内建事实验证机制,它们只是基于统计概率预测“下一个最合理的词句”,而不是基于知识图谱或数据库中“是否真实存在”的判断。这种机制决定了其本质上并非知识生成工具,而是语言生成工具。
引用失真:假的DOI与虚构文献
相比起抄袭和幻觉,错误引用更具有“隐蔽性”和“系统性”。作者引用了多项研究指出,ChatGPT在生成参考文献时的准确率令人堪忧:
- 在一个研究中,ChatGPT生成的50份医学研究提案中,38%的DOI是错误的或伪造的,而16%的引用文献根本不存在。
- 另一项研究发现,30篇由ChatGPT生成的医学短文中,几乎一半的文献引用是捏造的,而即便引用了真实文献,也有接近一半存在作者、标题或期刊信息不一致的情况。
- 在错误引用中,有93%的文献PMID编号是错误的,只有7%的文献引用既真实又准确无误。
这意味着,即使是语言表达流畅、逻辑完整的AI生成文段,也可能在引用部分“根基不稳”,从而动摇整篇论文的可信度。
作者建议:AI可用,但不可盲信
面对上述问题,作者提醒科研人员,切不可将AI作为“全能型写作代理人”。特别是在文献引用部分,不应直接采纳AI输出的文献,而应通过PubMed、Google Scholar等数据库人工核查每一条引用的真实性与准确性。
此外,使用AI生成的内容时,不仅要关注其语言质量,更应对其事实内容、论证链条、数据引用进行专业审查。只有建立起这种“AI使用后的人工责任机制”,才能避免“表面优美、实则失实”的风险。
哪些用法是“伦理可接受”的?
通过与ChatGPT互动、结合现有文献和作者经验,论文提出一个伦理使用模型(Ethical Tier Model),将AI用途分为三个层次:

图源:Advances in Simulation
第一层(最可接受):语言辅助工具
包括润色语法、改进可读性、校对拼写、翻译语言等。这些用途强调形式而非内容,较少引发学术风险。比如非母语作者可借助AI提高表达质量,但仍应由人工作者最终审核。
第二层(取决于人类监督):内容协助生成
如生成大纲、摘要、讨论要点、对抗性论证(pro/con)、灵感激发等。只要AI基于已有内容发挥,且作者对结果进行严格审查与修改,就可以视为合理使用。
第三层(高风险,不建议使用):代替认知性工作
包括完全由AI撰写正文段落、独立完成文献综述、自动分析数据、检查伦理或抄袭等。这些任务本质上需要研究者的批判性思维与专业判断,AI参与反而可能阻碍科研能力的发展。
4个问题,帮助研究者判断AI使用是否合规
为了指导科研人员自我评估,作者提出四个关键问题:
- 我的主要观点、解释和分析是否出自我本人?
- 我的使用方式是否有助于维持和培养学术写作与思辨能力?
- 我是否已核查所有引用和内容的准确性、可靠性与中立性?
- 我是否明确披露了AI工具的使用过程与内容?
如果对任一问题的答案是否定的,作者建议应重新审视写作过程并进行必要调整。
最后
该研究针对的是如ChatGPT一类通用型AI工具,而非像Rubriq这类专门学术论文润色的工具或专业平台。随着AI能力的提升,其风险也可能被部分缓解,但使用者仍需保持警觉。