现在的位置: 首页 > web前端 > 正文

如何理解皮尔逊相关系数

2020年07月20日 web前端 ⁄ 共 971字 ⁄ 字号 评论关闭

  在统计学中,皮尔逊相关系数(Pearsoncorrelationcoefficient),又称皮尔逊积矩相关系数(Pearsonproduct-momentcorrelationcoefficient,简称PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。


  皮尔逊相关系数函数介绍


  在自然科学领域中,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔逊积矩相关系数”。


  几组的点集,以及各个点集中和之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量是0。


  皮尔逊相关系数定义


  两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:


  上式定义了总体相关系数,常用希腊小写字母作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母代表:


  亦可由样本点的标准分数均值估计,得到与上式等价的表达式:


  其中、及分别是对样本的标准分数、样本平均值和样本标准差。


  数学特性编辑


  总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的:。


  皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量(由符号确定)。也就是说,我们如果把移动到和把Y移动到,其中a、b、c和d是常数,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数:


  由于,,也类似,并且


  故相关系数也可以表示成


  对于样本皮尔逊相关系数:


  以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。


  总之,皮尔逊相关系数给大家简单的介绍了一些,希望大家多看看。

抱歉!评论已关闭.