
近日,据泰晤士高等教育报道,一项由荷兰和英国研究团队联合开展的研究揭示:当前主流的人工智能语言模型在生成科研论文摘要时,常存在夸大、泛化研究发现的倾向,甚至在某些情况下,这种倾向在接受“不要夸大”指令时反而加剧。

超四千条AI摘要中普遍存在“过度泛化”问题
该研究已发表于Royal Society Open Science。研究团队分析了来自200篇期刊论文摘要和100篇完整科研文章的共计近5,000条AI生成摘要,涵盖从医学、公共卫生、心理学到气候变化等多个研究领域。通过比较AI模型(包括GPT-4、LLaMA 2/3、Claude等)生成的摘要与论文原始摘要、专家人工改写版本的差异,研究发现AI输出更倾向于“忽略限定性措辞(qualifiers)”、“弱化不确定性”,进而产生带有误导性的结论。
例如,在一项关于糖尿病药物的研究中,原文结论为“该药物优于安慰剂”,但AI摘要却生成为“这是一种有效且安全的治疗方案”(“an effective and safe treatment”),这在临床传播中可能导致医疗决策偏误。
GPT-4、ChatGPT-4o、LLaMA 3夸大风险更高
研究数据显示,早期的AI工具(如GPT-4和LLaMA 2)生成夸大性结论的可能性为原始人类摘要的2.6倍。而到了ChatGPT-4o(2024年5月发布)和Meta的LLaMA 3(2024年12月发布)版本,夸大风险分别上升至9倍和惊人的39倍。这表明,模型越新,生成摘要的语言虽然更流畅,但其在保留科学准确性和细节方面的表现却更加令人担忧。
更令人惊讶的是,当研究者向AI模型明确提示“忠实于原文”“避免任何不准确”时,AI反而更容易产生泛化结论。研究者指出这可能是一种“讽刺反弹效应”(ironic rebound effect),即“禁止思考某个主题反而促使思维集中于该主题”(例如,越强调“不要想象粉红色大象”,越难抑制相关联想)。
潜在风险
论文指出,在医学和公共健康研究领域,这种夸大的风险尤为敏感。例如,当AI在总结临床试验结果时省略了适用范围、受试人群等限定信息时,可能会误导一线医生过度推广干预措施的适用性,从而危及患者安全。
乌得勒支大学理论哲学副教授、该研究的共同作者Uwe Peters评论称,这些问题“频繁且系统性”地出现,尤其是AI在生成内容时表现出的“流利性”(fluency)掩盖了其在谨慎性(caution)和准确性(precision)上的不足。这种“无根据的自信”(unwarranted confidence)容易让用户误信其结论,从而放大科学传播中的信息失真。
此外,研究还指出AI系统可能受“灾难性遗忘”(catastrophic forgetting)影响,即在新任务中丢失对旧知识的掌握;以及微调(fine-tuning)过程中“有用性”与“准确性”之间的张力:当模型优化以便提供“更简洁友好”的回答时,往往牺牲了表达研究不确定性所必需的复杂性。
此前已有研究指出,AI生成文本往往会采用更加自信的语气,而这正是学术写作中最容易引发误导的风险因素之一。该研究再次提醒科研社区和期刊编辑,在采用AI工具进行科研辅助写作时,必须强化人工审校与伦理监管机制。
BBC的一项研究也发现,多个主流AI聊天机器人在总结新闻时存在严重错误,超过一半的AI生成摘要包含重大问题,包括事实错误、误引内容和过时信息。这进一步强调了在使用AI生成内容时需保持谨慎。
对科研传播与教育的启示
该研究提醒我们,虽然生成式AI在科学传播中具有巨大的潜力,能够协助降低阅读门槛、加快内容产出,但也可能因语言过度简化和缺乏限定而扭曲原意。正如论文中所强调的:“一个输出流畅、措辞华丽的AI摘要,很可能掩盖了其缺乏内容深度与准确性的事实。”
这对于依赖摘要进行快速信息判断的科研人员、新闻媒体、政策制定者乃至临床医生而言,构成了潜在的信息误导风险。该研究因此呼吁,在AI应用迅速渗透科研写作与学术传播的当下,科学共同体需要同步加强伦理规范、审查机制与AI素养培训,以防止人工智能成为“信任的表象”却加剧了信息失真的现实。