
论文撤稿已经不再是什么新鲜事。尤其是近十多年,论文工厂生产的虚假论文正在全球蔓延,假数据、虚构实验、甚至AI生成的内容混入文献库,不仅污染了学术记录,也让真正的科研成果蒙尘。
那么,能否仅凭论文的语言特征,就判断出一篇论文是否可能涉及学术不端?最近在第五届Scholarly Document Processing Workshop (SDP 2025) 上发表的一项研究,就尝试用大规模文本分析和机器学习技术来回答这个问题。
研究背景:文字背后的“指纹”
这项研究的出发点是,论文工厂在批量生产文章时,无论是依赖自动化工具还是人工代写,都不可避免地留下语言模式上的“指纹”。这些文章往往喜欢使用模糊、夸张的副词和形容词,比如“显著地”“逐步地”“有机地”,动词的使用也呈现高度重复,而高质量、证据充分的科研论文则更倾向于精确、谨慎的表述。
为了验证这一假设,研究团队构建了一个规模庞大的语料库,将 Retraction Watch 数据库中带有撤稿原因的文章,与 OpenAlex 的元数据和全文信息结合起来。然后,他们挑选了相同领域、相同年份的高被引非撤稿论文作为对照组,并通过对比两类论文的词汇使用频率、短语模式以及词汇多样性指标,寻找其中的差异。结果显示,撤稿论文的词汇多样性普遍较低,更依赖重复短语,而非撤稿论文的表达方式明显更为谨慎细致。这种差异在计算机科学、物理科学、社会科学等领域尤为明显。
方法与技术路线
研究团队采用了两条互补的技术路线。第一种是混合分布量化模型(Distributional Quantification Framework, DQF),它通过比较撤稿论文和正常论文的语言分布差异,来估算一组文章中“疑似不端”的比例。这种方法运算速度快,适合在大规模文献中做趋势分析。
第二种方法则是基于Transformer的深度学习分类器,包括BERT、SciBERT、SciDeBERTa等预训练模型,通过在带标签的撤稿与非撤稿数据上进行微调,直接对单篇文章进行二分类判断,识别其是否可能来自论文工厂、包含随机生成内容或涉及数据造假。在检测论文工厂和随机生成内容时,最佳模型SciDeBERTa的F1分数可达0.93,准确率相当高。不过在识别数据造假时效果明显下降,因为数据造假更多体现在实验结果层面,而不是文章语言上。
趋势分析与发现
为了观察长期变化,研究团队将模型应用到1980年至2024年间不同学科的超过30万篇论文摘要上,绘制出了学术不端趋势曲线。结果显示,在生命科学和物理科学领域,论文工厂信号与真实撤稿趋势的相关性很高(皮尔逊相关系数约0.79),而数据造假信号的相关性较低,尤其是在健康科学领域。这也印证了一个推测:当不端行为主要发生在数据层面时,语言特征的辨识度就会下降。
值得注意的是,模型估算有10%到15%的论文呈现出与不端论文相似的语言特征,虽然研究者也强调实际比例可能更低。但这种方法的优势在于,它能够在正式撤稿前的数年,就捕捉到潜在风险信号,为期刊、科研机构和资助方提供早期预警。
对科研作者的意义
这项研究提醒我们,科研写作的风格不仅影响论文是否易读,也可能影响外界对其可信度的判断。过度使用模糊和夸大的修饰词,可能无意中让文章显得更可疑;依赖低价代写,更容易引入模板化的语言模式,从而与已知的不端文本产生相似性。
随着AI写作的普及,即便生成的文本流畅自然,也可能在用词分布、短语组合等方面留下可检测的痕迹。未来,越来越多的期刊可能会在稿件初审中引入类似检测手段。科研作者理解这种检测逻辑,不仅能帮助规避无心之失,也有助于维护自身学术声誉。
最后
语言本身或许无法直接证明一篇论文是否造假,但它能提供重要的线索。随着检测技术的成熟,学术界有机会更早发现趋势、遏制扩散。然而对于每一位科研作者来说,最重要的防线依然是自身的科研诚信与真实写作。毕竟,科研的价值从来不只是“写出来”,而是“做出来”的。