【相关系数公式】在统计学中,相关系数是用来衡量两个变量之间线性关系的强度和方向的一个数值指标。常见的相关系数有皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。其中,皮尔逊相关系数是最常用的一种,用于衡量两个连续变量之间的线性相关程度。
一、相关系数的基本概念
相关系数的取值范围在 -1 到 1 之间:
- 1:表示完全正相关;
- 0:表示无线性相关;
- -1:表示完全负相关。
相关系数越大,说明两个变量之间的线性关系越强;反之则越弱。
二、相关系数公式总结
以下是几种常见相关系数的计算公式及适用场景:
| 相关系数类型 | 公式 | 说明 |
| 皮尔逊相关系数(Pearson) | $ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} $ | 衡量两个连续变量之间的线性相关程度,适用于正态分布数据 |
| 斯皮尔曼等级相关系数(Spearman) | $ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $ | 基于变量的排名计算,适用于非正态或有序数据 |
| 肯德尔等级相关系数(Kendall) | $ \tau = \frac{C - D}{\frac{n(n - 1)}{2}} $ | 用于评估两个排序变量之间的一致性,适用于小样本或有序数据 |
三、相关系数的应用场景
- 皮尔逊相关系数:常用于分析两个连续变量之间的线性关系,如身高与体重、温度与销售量等。
- 斯皮尔曼相关系数:适用于数据不符合正态分布或存在异常值的情况,如满意度评分与客户忠诚度。
- 肯德尔相关系数:常用于评估多个评委对同一对象的评分一致性,如电影评分或比赛评判。
四、注意事项
- 相关系数仅反映线性关系,不能说明因果关系;
- 数据的分布、样本大小和异常值都可能影响相关系数的准确性;
- 在实际应用中,建议结合散点图进行直观判断。
通过合理选择相关系数公式,可以更准确地分析变量之间的关系,为决策提供科学依据。


