收集和处理数据的最佳方法

本文AJE将详细介绍数据收集及处理的方式及注意事项,并用示例介绍各种数据类型的样式。希望本期内容对大家有帮助。

更新于2023年12月13日

收集和处理数据的最佳方法

收集和处理数据是科学研究的一个环节,不仅能决定研究的质量,还能决定研究的有效性和发表潜力。如果数据收集流程执行得好,但没有详细描述,可能会导致被某些期刊拒稿。

另一方面,从技术和科学角度处理数据是研究中处理数据的另一个重要领域。数据收集的最佳方法告诉我们,这一过程应事先规划,并预先确定其特点。数据收集不应无章可循(混乱)。

原始数据收集

数据收集可涉及原始数据或以前未收集过的数据。这就是所谓的原始数据收集。

原始数据收集在很大程度上取决于我们用来收集数据的工具和方法。在所有研究中,数据的准确性至关重要。你必须了解数据的准确性和有效性水平,才能将数据纳入其中。收集数据的工具可以是以下仪器 :

  • 温度计
  • 显微镜
  • 生化仪器
  • 测距仪
  • 卡尺
  • 标尺

标准化

标准化是研究中最重要的原则之一。标准化的一个重要部分与工具及其与数据收集流程的关系有关。标准化是一个确保在收集数据时有一定标准可循的过程。这些标准通常基于以下两个原则 A- 确保工具或方法的准确性,B- 确保数据的有效性,C- 确保数据收集过程的可重复性以及与其他数据源的可比性。在每个数据收集流程中,首先要考虑的是数据收集工具或手段是否标准化,其测量方法是否为学术界所接受。

除工具标准化外,数据收集过程也可以标准化。

例如 :

  • 生化实验的标准化生化试剂制备
  • 显微镜标准化染色原理
  • 古生物学中采集化石的标准方法

通过标准化,可实现研究数据收集的可重复性和可信度。

在某些研究领域,特别是生命科学领域,可以通过观察来进一步实现数据拼凑过程,例如生物学家进行分类单元鉴定。在动物学和生态学中,观察自然界中的分类单元并根据识别出的分类单元制作数据表是一个常见的流程。为了确保数据收集工作正确无误,研究人员应准备一份分类单元识别文件,即分类检索表(taxon identification keys)

许多研究领域都可能包括观察数据。在这种情况下,重要的是要记录下进行这些观察的原则。关键在于可重复性。

原始数据来源

一些原始数据来源可能包括来自简单答案的数据。这类数据收集以调查为基础。调查文件应清晰明了,与学习或研究的目标相关,并对可能的答案有很好的区分能力。

参与者的可用性可能是一个问题。有时参与者不愿意提供信息。缺乏某些信息可能会导致数据偏向于那些愿意参与调查的人。调查是社会科学、心理学、经济学和许多领域最常用的工具。

辅助数据

辅助数据(Secondary data)收集是指收集以前收集和储存的数据,供未来的研究人员参考。这些数据通常是数字形式的,包括数字文档以及计算工具和平台的使用。

评估辅助数据的经验法则是什么?很简单:找到数据的所有方面,如果数据是从二手来源收集的,这些方面也是需要的。收集有关工具、收集方法、数据质量、调查问题、收集数据的原则和标准化状况的所有数据。

辅助数据一般存储在一个特定的文件中,称为元数据。辅助数据的重点是检索元数据,确保信息完整,并包含原始数据收集的所有相关信息。

一般来说,研究问题是否与元数据相辅相成是个好主意。在使用以前收集的原始数据时,最常见的错误之一就是只关注处理与分析相关的数据集,而不是首先关注元数据。

下面是从 NCBI(美国国家生物技术信息中心)检索到的基因表达示例数据集:

基因表达示例

以下是元数据如何为数据集中的术语添加信息。这是美国国家科学与生物研究所(NCBI)提供的小鼠肥胖研究实验数据集。

元数据示例

元数据包含实验类型、实验设计、应用方法、协议、收集的数据类型以及数据集中术语的所有相关信息。在本例中,元数据包括实验中使用的动物和应用的干预措施。研究结论的得出在很大程度上取决于这些数据类型。

我们现在可以得出另一个结论。回到原始数据,你应该记录所有的数据收集程序、工具、标准、实验设计和其他细节,创建一个元数据文档。这样,未来的研究人员就可以看到这些数据,并重新利用这些数据。

收集数据最重要的一个方面是收集完整有效的元数据--数据的一部分,即围绕观察、测量或调查答案的上下文。元数据会对数据产生重大影响,因此必须加以收集。

元数据非常重要的另一个原因是研究的纳入标准。每个好的研究项目都有非常明确的纳入标准,以确定哪些数据点可以纳入。元数据通常可以帮助回答有关纳入标准的问题,并促进数据收集过程顺利进行下去。

缺失数据

数据表或电子数据表中的部分数据经常会有缺失。这些数据可能是空白或标记为 NA(不适用)。在这两种情况下,这意味着由于某种原因无法收集数据。这些原因可能包括被调查人没空、调查问题没有得到回答或其他任何原因导致数据点无法存储。

问题是,这些应该属于丢失的数据点吗?答案可能各不相同。有时,数据专家可能会根据某些算法对缺失数据进行推算(创建人工数据),但应注意的是,这只能在某些领域进行。例如,在专业性很强的计算机模拟中,有时会使用数据填补(data imputation)方式。但在生物医学研究中,重要的是只使用真实世界的数据,并最大限度地保证数据的完整性。因此,在生物医学研究中,缺失的数据通常不会进行填补,而是作为缺失数据(留空的数据点)处理。根据数据量的大小,表格中包含缺失值的数据行可以被排除,只留下没有缺失数据的行。如果样本量较小,这不是一个好方式,因为这可能会减少样本量,以至于样本中没有足够的数据来支撑研究问题。

清理数据

处理数据的另一个重要过程是确保识别并删除数据中的任何无效部分。 这一过程与另一套名为 "数据验证 "(Data Validation)的原则密切相关。根据预设的质量标准、纳入标准和研究中有效数据的参考值,应删除任何无效数据。但研究人员应谨慎对待这一过程。任何无效数据点都应多次重新检查其有效性。数据处理中最大的错误之一就是删除有效数据点。有时,作者倾向于删除数据中的异常值,只是因为它们与其他数据相距甚远。这会导致删除有效的数据点,应该避免。与此相反,只有在测量误差、不准确、不符合纳入标准或其他细节导致数据点对某个研究项目无效时,才应删除数据。

分析数据并将其提交给团队小组

分析数据以获得见解并回答研究问题是处理数据的一个非常重要的阶段。在这一环节,最重要的一点是选择正确的分析方法来应用于数据。每种分析方法都有一套明确的数据类型与之对应,反之亦然。数据分析的另一个重要方面是客观对待数据的各个部分,不偏袒任何结果。研究中的负面结果也是结果。没有结果也是结果。作者绝不应只分析产生积极结果的数据,而应同样关注研究中的所有数据。

主要数据输出是数字或字符,因此是数字或文本形式。为了使数据分析得出的结果和见解更直观、更易于理解,最好的方法之一就是通过数据可视化来呈现。数据可视化应与研究中提出的问题和采用的方法相关。这意味着研究中的图形要回答主要的研究问题,并与回答这些问题的方法相匹配。例如,如果研究项目的目标是分析频率,那么就应该用数据可视化来分析和展示频率。

数据可视化示例

数据可视化是让研究中的数学部分更加直观的最佳方法之一。这意味着,数据展示应:

  • 易于理解和解释
  • 一致--用于可视化的风格不应差异太大
  • 适合受众--作者应了解哪些受众会参与研究,哪些数据可视化方式可以让他们理解
  • 简单明了--高度复杂的可视化会让读者感到困惑,因此数据可视化应简单明了,但又能说明数据的全部情况
  • 在有比较的情况下,与比较结果保持一致
  • 遵循标准 - 学术研究或不同行业的研究有一定的标准。例如,一些学术期刊要求图表具有适应期刊受众的特定风格。
  • 拥有正确的可视化类型 - 选择正确的可视化类型非常重要。例如,报告中位数时应使用方框图,但报告频率时可以使用条形图。数据类型往往决定了要使用的数据可视化方式

最后,尽管数据可视化是向受众或研究中的其他利益相关者直观展示数据的好方法,但你仍应在可视化的同时提供数字。数字是获得准确指标的最佳方式。数字使指标易于比较,并可作为未来研究的参考。在研究中提供所有相关的数字数据可使数据具有高度可比性,这在研究中至关重要。

撰稿人
标签
数据分析数据处理数据收集研究数据
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

AJE为您的科研之路每一阶段提供帮助!

AJE为您提供英文论文润色、学术论文翻译、期刊选择、文稿排版等一系列学术服务,我们希望可以帮助您充分发挥您的研究潜力,助力您成功将论文发布在国际期刊上。