
近日,Science Advances发表了一项由德国图宾根大学、美国西北大学等机构的联合研究,通过分析PubMed数据库中超过1500万篇英文摘要,首次在大规模语料层面量化了大型语言模型(Large Language Models, LLMs)对生物医学学术写作的真实影响。研究表明,至少13.5%的2024年生物医学论文摘要经由LLM辅助撰写,而这一比例在某些学科领域、国家和期刊中甚至超过40%。

词汇“过度使用”追踪LLM写作痕迹
研究团队提出一种创新的“词汇过度使用”(excess vocabulary)分析方法,以绕开目前LLM检测工具的不透明性与偏见问题。该方法的核心理念类似于“超额死亡率”(excess mortality)分析,即通过对比历史基线与实际值,判断某一现象的异常程度。
具体来说,作者从PubMed中提取了2010至2024年共1,510万篇英文医学摘要,对每年中单词的出现频率进行建模。他们以2021–2022年作为“无AI时代”的基线,预测2024年每个单词的正常使用频率,并将之与实际2024年的频率进行对比。显著高于预期的单词被称为“excess words”,被认为可能是由LLM写作所带来的风格变化所致。

风格词的激增揭示LLM痕迹
研究表明,2024年出现了前所未有的风格性词汇(style words)激增,而不是内容性词汇(content words)的变化。例如,像“delve”(深入探讨)、“showcasing”(展示)、“crucial”(关键)、“notably”(值得注意)、“comprehensive”(全面的)等典型“AI腔”词汇,其使用频率大幅高于历史预期。
作者对2013至2024年间的900个“excess words”进行了手动注释,发现:
- 2020–2022年:由于COVID-19疫情,激增词汇以“content words”(如coronavirus, lockdown等)为主;
- 2024年:激增词汇转向风格性表达(如additionally, delving, pivotal等),其中66%为动词,14%为形容词,显示出LLM输出语言的典型修辞特征。
这一变化表明,LLM的影响并不体现在科学内容上,而是渗透于文本的表达方式和修辞风格中,甚至造成写作语言的“AI化”。
使用率估算:整体13.5%,个别群体高达40%以上
为了估算LLM的实际使用频率,研究者选取了两组风格词汇进行组合分析:
- 常用风格词组(common set):如across, additionally, comprehensive, crucial等;
- 罕见风格词组(rare set):由291个低频但变化显著的风格词组成。
两种组合都得出类似结论:2024年约13.5%的摘要包含这些LLM标记词汇,意味着这些论文至少部分经过了ChatGPT等工具润色或生成。这是一个保守估算的下限,因为一些AI协助写作的文稿可能并未显现出这些语言风格特征。
进一步细化分析显示:
- 按学科:计算与生物信息学领域的使用率可达20%;
- 按国家:中国、韩国、台湾等非英语国家的LLM使用率高(接近20%),而英国、澳大利亚等英语国家较低(约5%);
- 按期刊:开放获取期刊如MDPI的《Sensors》和Cureus等使用率分别高达25%和20%,而《Nature》《Science》《Cell》等高影响力期刊相对较低(约7–10%);
- 交叉分析:中国作者在计算领域、在《Sensors》发表的论文中,LLM使用率可高达41%。
这些数据说明:LLM写作正在迅速渗透各类科研出版场景,尤其是在对语言有更高门槛的非英语作者群体中。
潜在的风险:语言优化掩盖了写作真实性?
LLM的语言生成能力正以前所未有的速度改变学术写作,但研究者指出,这种转变并非单纯的“进步”,它也可能在悄然削弱科研写作的真实性与独立性。一个最直观的变化,是越来越多的论文开始呈现出高度风格化的语言特征。像“pivotal”、“additionally”、“comprehensive”、“delving into”这类带有修饰性、结构性的表达,在大量摘要中频繁出现,使得论文语言趋于一致,缺少原本多样的写作风格与学术声音。
从阅读体验上看,这些由AI优化过的语言让论文显得更流畅、规范,但也容易掩盖作者真实的思维路径。当一篇文章在句式、措辞、节奏上都与他人雷同,评审者和读者很难判断这背后是语言上的规范提升,还是思想上的机械重复。这种“语言上的伪原创”可能削弱对创新性内容的识别,也影响写作本身的学术训练价值。
更深层的问题在于,LLM并不总是准确可靠。模型在撰写过程中可能生成虚假的引用、歪曲研究结论,甚至在逻辑上显得自洽但缺乏事实基础。研究指出,作者在为自己研究写摘要时往往能识别这些问题,但在撰写背景综述或讨论部分时,模型生成的内容可能会被未经仔细审查地直接保留,从而将错误嵌入正式出版物中。
LLM还可能放大已有的语言偏见,并引导科研写作向某种“默认风格”集中。一些模型训练语料偏重欧美出版物,其生成语言在无形中推动非英语背景的科研人员主动或被动地接受某种主流叙事方式。这种趋势不仅影响表达方式,也可能影响研究立意和论证框架,久而久之,形成写作上的趋同和内容上的雷同。
正如作者在论文中的提醒,LLM工具虽然在技术上令人惊艳,但其在学术写作中的角色不能被美化为“中性助手”。它既改变了我们写作的方式,也改变了科研表达的边界。
一场无法逆转的写作革命
过去,学术写作的变化往往是渐进的,随着研究范式的演化或重大事件的推动而缓慢调整。而这一次,LLM带来的语言风格转变,几乎是突如其来地在一年之内显现出来,改变了科研文章的写作“语感”。
作者在论文最后提出了一个发人深省的观点:我们所观察到的语言变化,未必只是模型直接生成的结果,还可能包括作者在潜移默化中模仿LLM语气而形成的“类AI风格”。
这说明,LLM对科研写作的影响,不仅存在于输出结果中,也渗透进了人类作者的语言习惯。这种影响既真实,又难以回避。
面对这种快速演进的写作现实,研究者呼吁建立更为透明和可追踪的使用机制。不是为了限制工具的使用,而是为了让学术界能清晰辨认出技术介入的边界,并思考应对策略。从政策制定到期刊规范,从写作伦理到评审流程,都需要重新审视“作者”这一身份在AI时代的含义。
写作方式正在发生根本性变化,而这场变化已不可能回退。我们或许无法阻止LLM在科研写作中的广泛应用,但我们可以通过更审慎的制度设计和价值判断,引导它成为服务学术、而非重塑学术的工具。这场写作革命的真正走向,将取决于学术共同体的选择与回应。