秩相关检验是什么?它该怎么做?一文解答

在我们日常的研究中,经常需要探讨两组变量之间的关系。例如,我们可能想知道学生的学习时间与考试成绩是否相关,或者某种药物的剂量与疗效之间是否存在关联。当数据不满足正态分布假设,或者变量是序数型(有序分类数据)而非连续型时,传统的皮尔逊相关系数(Pearson Correlation Coefficient)可能不再适用。这时,秩相关检验(Rank Correlation Test)就成为一种强大而实用的工具。

更新于2025年4月3日

秩相关检验是什么?它该怎么做?一文解答

在我们日常的研究中,经常需要探讨两组变量之间的关系。例如,我们可能想知道学生的学习时间与考试成绩是否相关,或者某种药物的剂量与疗效之间是否存在关联。当数据不满足正态分布假设,或者变量是序数型(有序分类数据)而非连续型时,传统的皮尔逊相关系数(Pearson Correlation Coefficient)可能不再适用。这时,秩相关检验(Rank Correlation Test)就成为一种强大而实用的工具。

秩相关检验是什么?

秩相关检验是一种非参数统计方法,用于衡量两组变量之间单调关系的强度和方向。所谓“单调关系”,指的是随着一个变量的增加,另一个变量要么持续增加(正相关),要么持续减少(负相关),但这种变化不一定是线性的。秩相关检验的核心思想是将原始数据转换为秩(rank,即顺序),然后基于这些秩计算相关系数,从而避免对数据分布的假设。

秩相关检验主要有两种常见形式:

  1. 斯皮尔曼秩相关检验(Spearman’s Rank Correlation Test):最常用的秩相关方法,适用于连续变量、序数变量或混合数据。
  2. 肯德尔秩相关检验(Kendall’s Rank Correlation Test):另一种秩相关方法,侧重于一致性(concordance)的测量,通常计算量稍大,但在某些情况下更稳健。

两种方法各有优势,斯皮尔曼方法更简单直观,而肯德尔方法在小样本或数据中有较多并列值(ties)时表现更好。我们将以斯皮尔曼秩相关检验为主进行详细讲解,但在最后会简要介绍肯德尔方法。

秩相关检验的适用场景

秩相关检验属于非参数方法,因此它的适用范围较广,尤其适合以下情况:

  • 数据不满足正态分布:例如,变量呈现偏态分布(如对数分布或幂律分布)。
  • 序数数据:如问卷调查中的等级评分(“非常满意”到“非常不满意”)。
  • 非线性但单调的关系:如果两变量之间的关系不是严格线性,但存在单调趋势。
  • 小样本研究:非参数方法对样本量要求较低,适合初步分析。
  • 存在异常值:秩方法对离群值不敏感,因为它只关心顺序而非具体数值。

例如,假设一位科研人员想研究某地区降雨量(连续变量)与居民幸福感评分(1-5的序数变量)之间的关系。由于幸福感是序数数据,且降雨量可能不服从正态分布,秩相关检验是理想的选择。

斯皮尔曼秩相关检验的原理与计算步骤

斯皮尔曼秩相关系数(记为ρ)的计算基于数据的秩差。以下是具体步骤:

1. 数据准备

假设有两组变量 X 和Y ,每组有n个观测值。例如:

  • X : [4, 7, 2, 9, 5](如学习时间,单位:小时)
  • Y: [80, 85, 70, 90, 75](如考试成绩)

2. 将原始数据转换为秩

对X 和 Y 分别从小到大排序,并赋予秩(1, 2, 3, …, n)。如果有并列值(ties),取平均秩。例如:

  • X的秩:2(4)、4(7)、1(2)、5(9)、3(5)
  • Y的秩:3(80)、4(85)、1(70)、5(90)、2(75)

3. 计算秩差并平方

对每一对观测值,计算X和Y的秩差di(即di​=rank(Xi​)−rank(Yi​))),然后平方:

4. 计算斯皮尔曼相关系数

使用公式:

其中,∑di2是秩差平方的总和,n 是观测值的数量。代入数据:

5. 结果解释

rs​ 的取值范围为 [-1, 1]:

  • rs > 0:正相关,值越接近1,单调递增关系越强。
  • rs < 0:负相关,值越接近-1,单调递减关系越强。
  • rs = 0:无单调相关。在本例中,rs = 0.9,表明学习时间与考试成绩之间存在强烈的正单调关系。

6. 显著性检验(可选)

为了判断相关系数是否显著,可进行假设检验:

  • 零假设H0 :ρ=0 ((无相关)。
  • 对立假设H1:ρ≠0 (存在相关)。对于小样本,可查斯皮尔曼相关系数的临界值表;对于大样本(n > 10 ),可用近似t 检验:

计算 t 值后,与 t 分布表比较,确定ρ值。

当数据有并列值时怎么办?

如果数据中有并列值(如两个观测值都是7),秩的赋值需调整。例如:

  • X = [4, 7, 7, 9]
  • 秩:1(4)、2.5(7)、2.5(7)、4(9),其中7的秩取平均值 (2 + 3) / 2 = 2.5 。

此时,标准公式仍适用,但若并列值较多,可考虑修正公式或直接使用统计软件(如SPSS、R、Python)计算。

使用统计软件实现

手动计算适合小样本,但科研中常涉及大数据。以下是常用工具的实现方法:

1. Python

from scipy.stats import spearmanr

x = [4, 7, 2, 9, 5]

y = [80, 85, 70, 90, 75]

rho, pval = spearmanr(x, y)

print(f"斯皮尔曼相关系数: {rho}, p值: {pval}")

2. R

x <- c(4, 7, 2, 9, 5)

y <- c(80, 85, 70, 90, 75)

cor.test(x, y, method = "spearman")

肯德尔秩相关检验简介

肯德尔相关系数(记为 \( \tau \))基于一致对(concordant pairs)和不一致对(discordant pairs)的数量。公式为:

计算较复杂,但适合并列值较多的情况。软件实现类似,Python 用 scipy.stats.kendalltau,R 用 cor.test(method = "kendall")。

注意事项

  1. 样本量:秩相关对小样本有效,但样本过小时显著性检验可能缺乏统计效力。
  2. 因果关系:相关不代表因果,需结合研究设计进一步验证。
  3. 数据质量:确保数据无系统性缺失或错误。

最后

秩相关检验是一种灵活、稳健的统计工具,特别适合处理非正态分布或序数数据。斯皮尔曼方法简单易用,肯德尔方法则在特定场景下更优。科研人员可根据数据特点选择合适方法,并借助软件提高效率。AJE希望本文能为您的研究提供清晰的指导!

撰稿人
标签
分享研究成果
目录
订阅邮件
订阅我们的邮箱后可提前获得AJE作者资源的文章,享受AJE服务的折扣,以及更多的优惠

查看 "隐私协议"

AJE是Nature等顶刊推荐的润色机构,全球用户超100万!

来自Nature的实验数据表明, 使用AJE的润色服务之后,来自中国的稿件接收率提高了50%。