警惕论文数据抄袭,它比文字抄袭更隐蔽,也更危险

数据是科学证据的起点,也是科研诚信的底线。比起一份查重报告,我们或许更需要建立一种共识:真正值得保护的,从来不是论文里的那些文字,而是文字背后那些来之不易的数据。

更新于2026年6月26日

警惕论文数据抄袭,它比文字抄袭更隐蔽,也更危险

近日,看到了一个离奇的新闻,发生在国外,说是一位教师在查阅另一位教师的博士论文时,意外发现论文中的大量研究数据、调查结果和研究结论,与自己早在2006年完成的博士论文高度一致,而原论文却没有得到任何引用。

更令人意外的是,这起疑似数据抄袭事件之所以多年未被发现,并不是因为查重系统失效,而是因为原论文一直以纸质形式保存在大学图书馆,没有进入数字化数据库,因此无法参与常规的论文相似度检测。直到作者本人偶然翻阅论文,这一问题才浮出水面。

这起事件让很多人再次把目光投向一个长期存在却容易被忽视的问题——当学术界越来越重视论文文字查重时,我们是否忽略了真正需要保护的对象,其实是论文背后的数据?

过去十几年,随着Turnitin、iThenticate等查重系统的普及,文字抄袭已经越来越难逃过检测。然而,数据抄袭却始终是一块"盲区"。一组实验数据、一份调查结果、一张统计图表,即使经过重新排版、重新绘图甚至重新分析,也很难被现有的查重工具识别。相比文字抄袭,数据抄袭更加隐蔽,也往往造成更加深远的影响,因为它侵犯的不仅是一篇论文的表达方式,而是科研成果最核心的价值。

作为科研工作者,我们或许应该重新思考一个问题:一篇论文真正属于作者的,到底是那些文字,还是那些数据?

真正昂贵的,从来不是论文,而是数据

如果问一位科研人员,一篇论文最耗费时间的是什么,相信大多数人的答案都不会是写作,而是获取数据。

对于实验科学而言,一组可靠的数据可能意味着几个月甚至几年的实验积累。生命科学研究者需要不断优化实验条件、重复验证结果;临床研究需要经历伦理审批、患者招募和长期随访;社会科学研究往往需要设计问卷、开展实地调查并完成大量数据清洗;生态学、环境科学等领域甚至依赖连续数年的野外监测才能形成一套完整的数据集。最终发表出来的论文或许只有十几页,但支撑这些结论的数据,却凝聚了大量科研经费、时间成本和研究人员的劳动投入。

也正因为如此,数据本身就是科研活动中最重要的原创成果之一。从知识产权的角度来看,它不仅是一组数字,更是一项研究能够成立的基础。如果没有真实可靠的数据,再精彩的讨论、再严谨的写作都失去了意义。

国际科研诚信规范对此早已有明确界定。美国Office of Research Integrity(ORI)提出的科研不端经典定义,即广为人知的 FFP,包括三类行为:Fabrication(捏造数据)、Falsification(篡改数据)和 Plagiarism(剽窃)。这里所说的剽窃,并不仅仅是复制几段文字,而是未经授权使用他人的数据、图片、研究结果、原创思想等科研成果。

遗憾的是,在实际科研过程中,不少年轻研究者仍然存在一种误解,认为只要重新组织语言、修改图表样式或重新进行统计分析,就不属于抄袭。事实上,真正受到保护的从来不是论文的文字表达,而是产生这些结果的科研劳动。如果数据本身来自他人的研究,即使论文没有一句话照搬,也已经触碰了科研诚信的底线。

为什么数据抄袭比文字抄袭更难发现?

文字查重之所以越来越成熟,是因为文字具有稳定的表达形式。今天的大多数论文都会经过相似度检测,只要连续出现大量重复内容,系统通常都能够识别出来。

然而,数据并不具备这样的特征。

同一组实验数据,可以重新绘制成不同风格的图表;同一份调查结果,可以改变统计方法后重新展示;同一张实验图片,可以通过裁剪、旋转、调整亮度或颜色等方式进行"加工"。这些修改虽然不会改变数据的本质,却足以避开传统文本查重系统的检测。因此,数据抄袭更多依赖同行评议、读者举报以及科研诚信调查,而不是自动化软件。

这次,印度德里大学事件就是一个典型例子。由于原始论文没有进入数字数据库,查重系统无法进行比对,即使后来的论文大量使用了相同的数据,也没有任何技术手段能够自动识别。这并不是个例,而是当前不少高校和科研机构仍然面临的现实问题:文字已经进入数字化监管时代,而数据管理体系却仍然存在不少空白。

近年来,国际上越来越多的科研诚信案件,也证明了这一点。很多轰动学术界的数据造假事件,并不是因为查重系统报警,而是同行在阅读论文时发现图像重复、统计结果异常或实验数据前后矛盾,随后经过人工核查才最终确认存在学术不端。随着科研诚信调查越来越专业,图像取证、原始数据核验、统计异常分析等方法正在成为发现数据问题的重要手段,而这也说明,单纯依赖论文查重已经无法满足当前科研诚信建设的需求。

数据抄袭带来的危害,远比想象中更大

很多人会认为,数据抄袭只是侵犯了原创作者的权益,最多影响一篇论文的归属。然而,它真正造成的影响,远远超出了个人层面。

科学研究之所以能够不断发展,是因为每一项新的研究都建立在前人的证据之上。如果一组数据本身就存在问题,或者来源并不合法,那么后续所有引用这些数据的研究,都可能建立在错误的基础上。一个看似不起眼的数据抄袭行为,最终可能影响整个研究方向的发展,甚至误导未来的科研工作。

在医学和公共卫生领域,这种影响尤为明显。一项临床研究的数据如果存在问题,可能影响后续的系统评价、临床指南甚至治疗决策;公共卫生调查中的统计数据如果失真,也可能影响疾病防控策略和卫生资源配置。对于社会科学而言,调查数据的真实性同样关系到政策制定和社会治理的科学性。

除此之外,数据抄袭还会造成大量科研资源的浪费。当其他研究团队试图重复相关实验却始终无法获得一致结果时,他们投入的实验材料、人力和科研经费都可能付诸东流。近年来,国际学术界持续关注研究可重复性问题,其中一个重要原因就在于,数据真实性已经成为影响科研质量的重要因素。

因此,数据抄袭绝不仅仅是"借用了别人的成果"这么简单,它伤害的是整个科学共同体赖以运行的信任机制。

数据抄袭并不是少数人的问题

如果把科研不端理解为极少数人的个别行为,我们很容易低估它的普遍性。

早在2009年,Daniele Fanelli发表于《PLOS ONE》的一项经典Meta分析,对21项科研诚信调查进行了系统整合。研究发现,大约2%的研究人员承认自己至少实施过一次数据捏造或数据篡改等严重科研不端,而当他们评价同行时,认为身边存在此类行为的比例则超过14%。更值得关注的是,对于各种可疑科研行为,超过30%的研究者承认自己曾经实施过,而认为同行存在类似行为的比例甚至超过70%。

Fanelli在论文中特别指出,这类调查主要依赖匿名自我报告,而科研不端本身具有明显的隐瞒倾向,因此真实发生率很可能比调查结果更高。这也是为什么国际科研诚信研究一直强调,现有统计数据更可能是"保守估计",而不是全部事实。

这些数据并不意味着科研界已经失去了诚信,而是提醒我们,数据相关的不端行为并不像很多人想象的那样罕见。随着科研竞争不断加剧,数据诚信已经成为全球科研治理共同面对的重要课题。

AI时代,真正需要守住的是数据诚信

过去两年,关于生成式AI的讨论几乎覆盖了整个科研出版行业。很多人担心,AI会不会让论文抄袭越来越容易,也有人担忧未来的论文都将由机器完成。

在我看来,这些讨论虽然重要,但真正值得关注的并不是论文文字,而是数据本身。

AI可以帮助作者润色语言、优化结构、总结文献,甚至辅助完成统计分析,但它无法替代真实实验,也无法凭空创造可信的数据。无论未来写作工具如何发展,一篇论文是否具有科学价值,最终仍然取决于实验是否真实开展、数据是否真实产生、分析过程是否透明,以及研究结果是否能够被其他团队重复验证。

事实上,国际学术出版的发展方向已经说明了一切。越来越多的国际期刊开始要求作者提交原始数据、分析代码、数据共享声明,不少高影响力期刊甚至要求上传未经处理的实验图片和完整的数据文件,以便同行评审和后续核查。这说明,学术出版正在逐渐把关注重点从"论文写得怎么样",转向"证据是否真实可信"。

可以预见,未来科研诚信建设的重点,也将越来越多地围绕数据展开。AI可以帮助科研工作者提高写作效率,但任何先进的技术,都无法替代真实的数据,更无法替代科学研究最基本的诚信原则。

比查重更重要的,是尊重数据

回到文章开头提到的德里大学事件,它最终会得到怎样的调查结论,还有待学校进一步公布。但无论结果如何,这起事件都暴露了当前科研诚信体系中一个值得深思的问题:今天,我们已经建立了越来越成熟的论文查重机制,却仍然缺乏对数据原创性的系统保护。

很多高校在论文送审前都会要求提交相似度检测报告,作者也会反复修改文字,努力降低重复率。然而,真正决定一项研究价值的,并不是相似度百分之几,而是数据是否真实、来源是否清晰、是否能够追溯和验证。如果科研评价始终把注意力集中在文字,而忽视数据本身,那么科研诚信体系始终存在一块难以弥补的短板。

我始终认为,一篇优秀的论文,不一定拥有最华丽的语言,却一定拥有最真实的数据。每一个数字、每一张图表、每一次统计分析,都应该能够回答一个最基本的问题:这些证据究竟来自哪里?

科学之所以能够不断前进,不是因为论文写得越来越漂亮,而是因为每一代研究者都愿意尊重事实、尊重证据,也尊重前人的劳动成果。数据是科学证据的起点,也是科研诚信的底线。比起一份查重报告,我们或许更需要建立一种共识:真正值得保护的,从来不是论文里的那些文字,而是文字背后那些来之不易的数据。

撰稿人
标签
论文数据
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

欢迎使用AJE论文查重服务

AJE的查重服务由 iThenticate 提供,我们与Turnitin正式合作,获得其在中国的官方授权。在您投稿目标期刊前,可使用我们的正版查重服务,先行扫描您的稿件。避免意外抄袭争议侵扰,为您的科研成果保驾护航。AJE 作为 iThenticate 的官方合作渠道,价格比单独在 iThenticate 官网购买更实惠