【数据科学】斯皮尔曼的等级相关系数（Spearman's coefficient）-白红宇的个人博客

【数据科学】斯皮尔曼的等级相关系数（Spearman's coefficient）

发布日期：2021-09-18 21:55:48 浏览次数：2 分类：技术文章

本文共 2492 字，大约阅读时间需要 8 分钟。

在统计数据中，斯皮尔曼的等级相关系数或斯皮尔曼的rho，以查尔斯斯皮尔曼命名并经常用希腊字母表示 $\rho$ 或 $r_{s}$ ，是秩相关的非参数度量（两个变量的排名之间的统计依赖性）。它评估了使用单调函数描述两个变量之间关系的程度。

两个变量之间的Spearman相关性等于这两个变量的秩值之间的Pearson相关性 ; 当Pearson的相关性评估线性关系时，Spearman的相关性评估单调关系（无论是线性的还是非线性关系）。如果没有重复的数据值，当每个变量是另一个的完美单调函数时，发生+1或-1的完美斯皮尔曼相关。

直观地，当两个变量之间的观察具有相似（或相关的1）等级（即变量内的观察的相对位置标签：第一，第二，第三等）时，两个变量之间的Spearman相关性将是高的。当观察结果与两个变量之间具有不相似（或完全相反的相关性）时，变量和低值。

Spearman系数适用于连续和离散序数变量。Spearman's $\rho$ 和肯德尔的 $\tau$ 可以表述为更一般的相关系数的特殊情况。

定义和计算

Spearman相关系数定义为排序变量之间的Pearson相关系数。

对于大小的样品n，所述n 原始分数 $X_{i}$ ， $Y_{i}$ 转换为排名 $rgX_{i}$ ， $rgY_{i}$ ，和 $r_{s}$ 计算自：

${\ displaystyle r_ {s} = \ rho _ {\ operatorname {rg} _ {X}ï¼\ operatorname {rg} _ {Y}} = {\ frac {\ operatorname {cov}ï¼\ operatorname {rg} _ { X}ï¼\ operatorname {rg} _ {Y}ï¼} {\ sigma _ {\ _è¿è¥å{rg} _ {X}} \ sigma _ {\ _è¿è¥ååç§°{rg} _ {Y}}}}}$

$\ RHO$ 表示通常的，但应用于秩变量。

${\ displaystyle \ operatorname {cov}（\ operatorname {rg} _ {X}，\ operatorname {rg} _ {Y}）}$ 是秩变量的。

${\ displaystyle \ sigma _ {\ _ operator {Rg} _ {X}}}$ 和 ${\ displaystyle \ sigma _ {\ _ operator {Rg} _ {Y}}}$ 是秩变量的。

只有当所有n个等级都是不同的整数时，才能使用流行的公式计算

${\ displaystyle r_ {s} = {1 - {\ frac {6 \ sum d_ {i} ^ {2}} {nï¼n ^ {2} -1ï¼}}}ã}$

${\ displaystyle d_ {i} = \ operatorname {rg}（X_ {i}） - \ operatorname {rg}（Y_ {i}）}$ ，是每个观察的两个等级之间的差异。

n是观察的数量

相同的值通常是，每个分配的小数等级等于它们在值的升序中的位置的平均值，这相当于对所有可能的排列进行平均。

如果数据集中存在联系，则上面的简化公式会产生不正确的结果：只有在两个变量中，所有等级都是不同的，那么 ${\ displaystyle \ sigma _ {\ _ operator {rg} _ {X}} \ sigma _ {\ _è¿è¥ååç§°{rg} _ {Y}} = \ operatorname {Var} {\ operatorname {rg} _ {X}} = \ operatorname {Var} {\ operatorname {rg} _ {Y}} =ï¼n ^ {2} -1ï¼/ 12}$ （根据有偏差的方差计算）。即使当秩被归一化为[0; 1]（“相对等级”）时，甚至可以使用通过标准偏差归一化的第一个等式 - 因为它对平移和线性缩放都不敏感。

这个在数据集被截断的情况下也不应使用]方法; 也就是说，当前X个记录（无论是通过改变前等级还是改变后等级，或两者）都需要Spearman相关系数时，用户应使用上面给出的Pearson相关系数公式。

系数（σ）的标准误差由Pearson于1907年和Gosset于1920年确定

${\ displaystyle \ sigma _ {r_ {s}} = {\ frac {0.6325} {\ sqrt {n-1}}}}$

解释

Spearman相关的符号表示X（自变量）和Y（因变量）之间的关联方向。如果 X在X增加时趋于增加，则Spearman相关系数为正。如果X在X增加时趋于减小，则Spearman相关系数为负。Spearman相关系数为零表示当X增加时Y没有增加或减少的趋势。随着X和Y变得更接近彼此的完美单调函数，Spearman相关性的幅度增加。什么时候X和Y完全单调相关，Spearman相关系数变为1.完美的单调增加关系意味着对于任何两对数据值X i，Y i和X j，Y j，X i - X j和Y i - Y j总是有相同的符号。完美的单调递减关系意味着这些差异总是具有相反的符号。

Spearman相关系数通常被描述为“非参数”。这可以有两个含义。首先，当X和Y通过任何相关时，产生完美的Spearman相关。将此与Pearson相关性进行对比，Pearson相关性仅在X和Y通过线性函数相关时给出完美值。其他感测，其中所述Spearman相关是，在不需要知识来获得其准确的采样分布（非参数即，知道参数）的接头的的X和Y。