回归中的相关度和决定系数

来源:互联网 发布:如何查看光猫端口速率 编辑:程序博客网 时间:2024/04/29 11:20

1.皮尔逊相关系数(Pearson Correlation Coefficient)

1)衡量两个值线性相关强度的量;

2)取值范围:[-1,1]

正向相关:>0,负向相关:<0,无相关性:=0

3)定义


2.R平方值

1)定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例;

2)描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异;即如果自变量不变,则因变量的变异程度会减少80%

3)简单线性回归:R^2=r*r

多元线性回归:



3.R平方局限性

R平方随着自变量的增大会变大,R平方和样本量是有关系的。所以,需要对R平方进行修正,修正方法为:


4.代码实现相关系数和R平方的计算

1)代码

# -*- coding: utf-8 -*-
import numpy as np
from astropy.units import Ybarn
import math


#根据相关系数计算公式给出实现过程
def computerCorrelation(X,Y):
    xBar = np.mean(X)
    yBar = np.mean(Y)
    SSR = 0
    varX = 0
    varY = 0
    for i in range(0,len(X)):
        diffXXBar = X[i]-xBar
        diffYYBar = Y[i]-yBar
        SSR+=(diffXXBar*diffYYBar)
        varX += diffXXBar**2
        varY += diffYYBar**2
    SST = math.sqrt(varX*varY)
    return SSR/SST


#计算R平方
#degree为最高次的数值
def polyfit(X,Y,degree):
    results = {}
    #调用函数实现回归中参数计算
    coeffs = np.polyfit(X,Y,degree)
    #将结果转化为list
    results["polynomial"] = coeffs.tolist()
    #传入参数给出预测方程
    p = np.poly1d(coeffs)
    #给出y的预测值
    yhat = p(X)
    ybar = np.sum(Y)/len(Y)
    ssreg = np.sum((yhat-ybar)**2)
    sstot = np.sum((Y-ybar)**2)
    results["determirnation"] = ssreg/sstot
    return results
    
    
testX = [1,3,8,7,9]
testY = [10,12,24,21,34]
print("r:",computerCorrelation(testX,testY))
#线性相关时的特殊情况
print("r平方:",computerCorrelation(testX,testY)**2)
print("r平方",polyfit(testX,testY,1)["determirnation"])

2)结果

r: 0.940310076545
r平方: 0.884183040052

r平方 0.884183040052

3)结果说明

在一元线性相关的情况下:R^2=r*r

原创粉丝点击