【相关系数的两个表达式】在统计学中,相关系数是用来衡量两个变量之间线性关系强度和方向的一个重要指标。常见的相关系数有皮尔逊相关系数(Pearson correlation coefficient)和斯皮尔曼等级相关系数(Spearman's rank correlation coefficient)。这两种相关系数虽然都用于衡量变量间的相关性,但它们的计算方式和适用场景有所不同。
本文将对这两个相关系数的表达式进行总结,并通过表格形式清晰展示其区别与联系。
一、相关系数的基本概念
相关系数的取值范围通常在 -1 到 +1 之间:
- +1 表示完全正相关;
- 0 表示无线性相关;
- -1 表示完全负相关。
不同类型的变量(如连续变量、有序变量)适用于不同的相关系数计算方法。
二、两种相关系数的表达式
1. 皮尔逊相关系数(Pearson Correlation Coefficient)
定义:
皮尔逊相关系数是基于两个变量的协方差与其标准差乘积的比值,用来衡量两个连续变量之间的线性相关程度。
公式:
$$
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}
$$
其中:
- $ x_i, y_i $ 是样本数据点;
- $ \bar{x}, \bar{y} $ 是 $ x $ 和 $ y $ 的均值。
适用条件:
- 两变量为连续型变量;
- 数据呈正态分布或近似正态分布;
- 变量间存在线性关系。
2. 斯皮尔曼等级相关系数(Spearman's Rank Correlation Coefficient)
定义:
斯皮尔曼相关系数是对变量进行排序后,再计算它们的等级之间的相关性,适用于非正态分布或有序变量。
公式:
$$
\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}
$$
其中:
- $ d_i $ 是第 $ i $ 个样本在两个变量中的排名差;
- $ n $ 是样本数量。
如果存在相同等级(即并列),则需要使用更复杂的修正公式。
适用条件:
- 数据为有序变量或非正态分布;
- 不要求变量间具有线性关系;
- 适用于小样本或数据中存在异常值的情况。
三、对比总结
| 特征 | 皮尔逊相关系数 | 斯皮尔曼等级相关系数 |
| 定义 | 协方差除以标准差乘积 | 排名差的平方和计算 |
| 数据类型 | 连续变量 | 有序变量或非正态变量 |
| 假设条件 | 线性关系、正态分布 | 不要求线性、不要求正态分布 |
| 计算复杂度 | 较低 | 中等(需排序) |
| 对异常值敏感 | 是 | 否(因使用排名) |
| 应用场景 | 两个连续变量间的线性关系 | 有序变量或非正态变量间的相关性 |
四、结语
无论是皮尔逊相关系数还是斯皮尔曼等级相关系数,都是研究变量之间相关性的有力工具。选择哪种相关系数,应根据数据的性质、分布情况以及研究目的来决定。在实际应用中,建议先对数据进行探索性分析,再选择合适的统计方法。


