研究数据的FAIR原则是什么?

我们如何出版和获取研究成果取决于数字资产和计算机通信。为了改善这些方面,我们可以应用FAIR 原则。FAIR 代表数据的可查找性、可访问性、互操作性和可重复使用。

更新于2024年4月22日

研究数据的FAIR原则是什么?

研究工作高度依赖数字化。我们使用计算机来存储、分析和交流研究成果。研究的可见性高度依赖于互联网和搜索引擎。如今,出版也大多在网上进行,同样依赖于数字出版或数据存储库。

研究数据以一种被称为 "数字资产"的特定形式进行传播,如果信息是通过机器和计算机读取并传播给受众和其他作者,那么 "数字资产"实际上就是一种数字形式。

我们如何出版和获取研究成果取决于数字资产和计算机通信。为了改善这些方面,我们可以应用FAIR 原则。FAIR 代表数据的可查找性、可访问性、互操作性和可重复使用。

1. 可查找性

研究成果和相关数据的可访问性至关重要。让受众了解研究成果并进行交流是出版任何研究数据的主要原因之一。

可查找性是 FAIR 原则的第一个特征。它描述的是潜在读者如何才能找到研究成果。研究就是要将研究成果传达给读者和利益相关者。今天,我们生活在一个数字化的世界。查找研究成果的最佳途径是电脑和搜索引擎,如谷歌、百度、必应或我们日常使用的其他搜索引擎。

如果你想知道为什么doi号对研究很重要,那么可查找性就是你的答案。doi 编号是唯一的标识符,可以实现人机交互(搜索引擎),更容易找到结果。

此外,doi 编号还能确保作者的研究具有唯一身份,保护作者的权利。

另一种常见的标识符是ORCID。ORCID 是研究作者的唯一标识符。与 doi 结合使用,ORCID 编号为在数字世界中识别研究成果提供了一个绝佳的框架。此外,在当今世界数以亿计的在线学术文章中,查找学术文章非常准确,避免了类似研究人员及其研究的混淆。

元数据对于实现研究成果的可查找性至关重要。利用数据的上下文,如协议、使用的方法、仪器、使用的试剂、研究中的分类群名称、地点、时间或任何其他上下文细节,可以提供关键字,使你的研究更具可读性,更容易被搜索引擎找到。

FAIR 的另一个重要原则是将主要数据与元数据联系起来。数据中的唯一标识符应与元数据中的信息明确关联。

索引对于确保数据能被不同的数据存储库找到至关重要。

除了 FAIR 原则之外,还可以通过在社交媒体和专业媒体上提供研究链接来提高研究的可查找性。这些方面可以大大提高研究的可查找性。

2. 可访问性

尽可能使你的研究具有可访问性。对于潜在用户来说,数据检索应该非常简单。数据应免费获取并开放源代码。免费是指 "不收取任何费用",开源是指 "与数据绑定的代码和脚本是公开的"。这两项原则对于任何研究人员获取数据都至关重要。根据 FAIR 原则,元数据应可获取并开放源代码,但现在的趋势是尽可能获取完整的数据。

大多数数据存储库都有非常明确的方式通过互联网与任何人进行交流。它们使用http- 特定的互联网协议,使通过互联网发送和接收信息变得更加容易。

保护你的数据

尽管数据的可访问性通常是件好事,但敏感数据也应受到保护,只有合适的研究人员和作者才能访问这些数据。

即使不是 100% 向所有人开放,数据也可以是 FAIR 的。FAIR 原则认为,最基本的原则是对谁 可以访问数据以及如何访问数据有明确的定义和协议。身份验证是数据存储库中应用的原则之一,这样正确的资料就能在正确的条件下访问数据。作者应就如何访问数据制定一套明确的规则。

3. 互操作性

互操作性使不同平台能以不同方式使用已发布的研究成果和数据,有助于更有效地利用研究成果。

互操作性意味着数据的存储方式应能让研究人员在不同平台上轻松访问。数据的描述和存储方式应使其能够与其他数据源、不同程序、编程语言和平台进行标准化重用和整合。这意味着研究人员可以通过准确、可预测的数据交流方式,为不同目的重复使用数据。

标记数据的词汇

对数据使用标准化单位、唯一标识符和其他标记,使其易于阅读和操作。

数据分析的重要部分是在不同的编程语言中进行的。以 JSON 或 .csv 文件等适用格式存储数据。这些格式可在大多数平台和编程语言中互操作。

4. 重复使用

最后,重复使用数据意味着最大限度地使用数据,而不是在首次使用后将其束之高阁。

做出科学贡献的最佳方式之一就是将数据提供给他人重用。一个特定的数据集总是可以从不同的角度进行观察,并用于不同的研究领域。如果数据集只被主要作者使用过一次,那么数据集的大部分潜力往往都不会被使用。

可重复使用的数据使科学界能够增加在线数据量,并使每个人都能访问这些数据。

如今,一些最重要的研究驱动力是在线开放数据存储库,如Harvard Dataverse、NCBI、EMBL 等。

数据贡献者

提供数据供重复使用的作者(数据贡献者data contributors)为科学做出了巨大贡献。他们不仅通过透明度促进科学发展,还为许多其他研究人员提供数据。数据贡献者在当今科学中至关重要。数据贡献者也会像其他研究作者一样被引用;数据贡献是研究数据作者身份的一种形式。

重复使用许可

不仅仅是重复使用数据,还要确保重复使用许可证存在于存储数据的数据库或存储库中。许可证应准确、直观,能为研究人员提供使用数据的条件。

如果你正在寻找研究中经常使用的许可,MIT--最宽松的许可之一,免费,但也允许对研究数据进行许多修改和使用。 Apache 2.0- 许可证与 MIT 类似,也是许可性的,在这两种情况下,引用许可证并在重复使用数据时显示许可证始终是一种好方法。

确定你可以重用其他作者或数据存储库数据的许可条款。如果许可证不详,请联系作者了解相关条款。

最后

FAIR 原则可确保数据对于数据贡献者和为自己的研究寻找数据的研究人员都是可查找和有用的。明确定义的可访问性将使数据更加透明和安全,同时应具备互操作性,以避免不同平台无法使用研究数据。

重复使用数据是当今研究的最重要驱动力之一。通过使数据可重复使用并明确定义数据可重复使用的条件,数据贡献者与研究成果的发布者一起成为研究的关键利益相关者。

研究人员经常同时发布研究成果和相应数据,以提高研究的透明度,并使其他作者能够重复使用数据。

撰稿人
标签
实验数据数据处理数据共享
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

分享与AJE的故事,赢取千元大奖!

我们邀请您分享与AJE的点滴回忆,展现AJE如何助您一臂之力,共同见证学术之路上的每一个重要时刻。我们准备了丰厚的礼物感谢每一位参与者。快来参与吧,期待您的精彩故事!