【相关系数r的计算公式怎么算】在统计学中,相关系数(Pearson相关系数)是衡量两个变量之间线性关系密切程度的一个重要指标。它通常用字母 r 表示,取值范围在 -1 到 1 之间。其中,r = 1 表示完全正相关,r = -1 表示完全负相关,r = 0 表示无相关性。
一、相关系数r的定义与意义
相关系数r 是通过计算两个变量之间的协方差与各自标准差的比值得到的。其核心目的是判断两个变量是否具有线性关系,以及这种关系的强弱和方向。
二、相关系数r的计算公式
相关系数r的计算公式如下:
$$
r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}
$$
其中:
- $ n $:数据对的数量
- $ x $:第一个变量的值
- $ y $:第二个变量的值
- $ \sum xy $:所有x与y乘积之和
- $ \sum x $、$ \sum y $:x和y的总和
- $ \sum x^2 $、$ \sum y^2 $:x和y的平方和
三、计算步骤详解
| 步骤 | 内容 |
| 1 | 收集两组数据(x, y),并列出每一对数据 |
| 2 | 计算每对数据的乘积xy,并求出总和$\sum xy$ |
| 3 | 分别计算x和y的总和$\sum x$、$\sum y$ |
| 4 | 计算x和y的平方和$\sum x^2$、$\sum y^2$ |
| 5 | 代入公式计算分子和分母 |
| 6 | 最后计算r的值 |
四、举例说明
假设我们有以下数据:
| x | y |
| 1 | 2 |
| 2 | 4 |
| 3 | 6 |
| 4 | 8 |
根据上述数据,我们可以计算出:
- $ \sum x = 1 + 2 + 3 + 4 = 10 $
- $ \sum y = 2 + 4 + 6 + 8 = 20 $
- $ \sum xy = (1×2) + (2×4) + (3×6) + (4×8) = 2 + 8 + 18 + 32 = 60 $
- $ \sum x^2 = 1² + 2² + 3² + 4² = 1 + 4 + 9 + 16 = 30 $
- $ \sum y^2 = 2² + 4² + 6² + 8² = 4 + 16 + 36 + 64 = 120 $
代入公式:
$$
r = \frac{4×60 - (10×20)}{\sqrt{[4×30 - 10^2][4×120 - 20^2]}} = \frac{240 - 200}{\sqrt{(120 - 100)(480 - 400)}} = \frac{40}{\sqrt{20×80}} = \frac{40}{\sqrt{1600}} = \frac{40}{40} = 1
$$
这表示x和y之间存在完全正相关。
五、相关系数r的表格总结
| 指标 | 公式表达 | 说明 |
| 相关系数r | $ r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}} $ | 衡量两个变量间的线性相关程度 |
| 取值范围 | [-1, 1] | -1表示完全负相关,1表示完全正相关,0表示无相关 |
| 数据要求 | 成对数据 | 需要至少两组对应的数据点 |
| 应用场景 | 统计分析、回归分析、数据分析 | 常用于评估变量间的关系强度 |
六、注意事项
- 相关系数只能反映线性关系,不能说明因果关系。
- 若数据为非线性或存在异常值,可能会影响结果的准确性。
- 相关系数不等于斜率,需结合回归分析来进一步理解变量间的关系。
结语
相关系数r是一个非常实用的统计工具,能够帮助我们快速判断两个变量之间是否存在线性关系。掌握其计算方法不仅有助于提升数据分析能力,也能增强对统计学基本概念的理解。


