基本线性回归两种方法实现

来源：互联网发布：java maven ant 编辑：程序博客网时间：2024/06/08 03:17

摘要：

分类是对离散性数据进行预测，而回归则是对连续性数据进行预测

找出最佳拟合直线

假设输入数据为X，回归系数放在向量W中，预测结果为Y = W^T *X，那么如何找到W呢平方误差

def loadDataSet(filename):    numFeat = len(open(filename).readline().split('\t')) - 1    dataMat = [];labelMat=[]    fr = open(filename)    for line in fr.readlines():        lineArr =[]        curLine = line.strip().split('\t')        for i in range(numFeat):            lineArr.append(float(curLine[i]))        dataMat.append(lineArr)        labelMat.append(float(curLine[-1]))    return dataMat,labelMatdef standRegres(xArr,yArr):    xMat = mat(xArr);yMat = mat(yArr).T    xTx = xMat.T*xMat    if linalg.det(xTx)==0.0:        print "this matrix is singular ,cannot do inverse"        return    ws = xTx.I*(xMat.T*yMat)    return ws

至于为什么用A^T*A来求解，其实相当于最小二乘跟投影等价，可以看网易公开课线性代数的16节

获得的回归系数如下：

import regressionfrom numpy import*xArr,yArr = regression.loadDataSet('ex0.txt')ws = regression.standRegres(xArr,yArr)print ws

获得回归系数以后就可以进行预测并绘制出拟合直线

xMat = mat(xArr)yMat = mat(yArr)yHat = xMat*wsimport matplotlib.pyplot as pltfig = plt.figure()ax = fig.add_subplot(111)ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0])xCopy = xMat.copy()xCopy.sort(0)yHat = xCopy*wsax.plot(xCopy[:,1],yHat)plt.show()

局部加权回归

我们当用线性回归的时候，可能出线的问题的是欠拟合，如果模型欠拟合无法获得好的效果。其中一个方法是局部加权线性回归（LWLR),给带预测点附近的每一个点

都赋予一定的权重，类似与KNN算法获得回归系数的w形式如下：

其中W可能是类似于对角矩阵的形式，X^T的维度并没有进行改变，而切可以使用核来对附近点进行权重赋值

这样改建了一个只含有对焦元素的权重矩阵w，若点x和x(i)越近那么w(i,i)越大

我们根据参数k和权重关系来得到如何控制K的值进行训练

其中K=0.5的时候大部分数据都要用来训练，而k=0.01的时候很少的局部点需要用来训练模型。下面用代码来进行实现

def lwlr(testPoint,xArr,yArr,k=1.0):    xMat = mat(xArr);yMat = mat(yArr).T    m = shape(xMat)[0]    weights = mat(eye((m))) #对角矩阵    for j in range(m):        diffMat = testPoint - xMat[j,:]        weights[j,j]  = exp(diffMat*diffMat.T)/(-2.0*k**2)    xTx = xMat.T*(weights*xMat)    if linalg.det(xTx)==0.0:        print "this matrix is singular"        return    ws = xTx*(xMat.T*(weights*yMat))    return testPoint*wsdef lwlrTest(testArr,xArr,yArr,k=1.0):    m = shape(testArr)[0]    yHat = zeros(m)    for i in range(m):        yHat[i] = lwlr(testArr[i],xArr,yArr,k)    return yHat

下面可以看看预测的效果：

xArr,yArr = regression.loadDataSet('ex0.txt')yHat = regression.lwlrTest(xArr,xArr,yArr,0.003)

为了直观获得效果我们仍然进行绘图，我们用matplotlib库进行。我们首先需要对xArr进行排序

xMat = mat(xArr)arrInd = xMat[:,1].argsort(0)xSort = xMat[arrInd][:,0,:]import matplotlib.pyplot as pltfig  = plt.figure()ax = fig.add_subplot(111)ax.plot(xSort[:,1],yHat[arrInd])ax.scatter(xMat[:,1].flatten().A[0],mat(yArr).T.flatten().A[0],s=2,c='red')plt.show()

获得效果如下：

0 0