基本线性回归两种方法实现
来源:互联网 发布:java maven ant 编辑:程序博客网 时间:2024/06/08 03:17
摘要:
分类是对离散性数据进行预测,而回归则是对连续性数据进行预测
找出最佳拟合直线
假设输入数据为X,回归系数放在向量W中,预测结果为Y = W^T *X,那么如何找到W呢 平方误差
def loadDataSet(filename): numFeat = len(open(filename).readline().split('\t')) - 1 dataMat = [];labelMat=[] fr = open(filename) for line in fr.readlines(): lineArr =[] curLine = line.strip().split('\t') for i in range(numFeat): lineArr.append(float(curLine[i])) dataMat.append(lineArr) labelMat.append(float(curLine[-1])) return dataMat,labelMatdef standRegres(xArr,yArr): xMat = mat(xArr);yMat = mat(yArr).T xTx = xMat.T*xMat if linalg.det(xTx)==0.0: print "this matrix is singular ,cannot do inverse" return ws = xTx.I*(xMat.T*yMat) return ws
至于为什么用A^T*A来求解,其实相当于最小二乘跟投影等价,可以看网易公开课线性代数的16节
获得的回归系数如下:
import regressionfrom numpy import*xArr,yArr = regression.loadDataSet('ex0.txt')ws = regression.standRegres(xArr,yArr)print ws
获得回归系数以后就可以进行预测并绘制出拟合直线
xMat = mat(xArr)yMat = mat(yArr)yHat = xMat*wsimport matplotlib.pyplot as pltfig = plt.figure()ax = fig.add_subplot(111)ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0])xCopy = xMat.copy()xCopy.sort(0)yHat = xCopy*wsax.plot(xCopy[:,1],yHat)plt.show()
局部加权回归
我们当用线性回归的时候,可能出线的问题的是欠拟合,如果模型欠拟合无法获得好的效果。其中一个方法是局部加权线性回归(LWLR),给带预测点附近的每一个点
都赋予一定的权重,类似与KNN算法获得回归系数的w形式如下:
其中W可能是类似于对角矩阵的形式,X^T的维度并没有进行改变,而切可以使用核来对附近点进行权重赋值
这样改建了一个只含有对焦元素的权重矩阵w,若点x和x(i)越近那么w(i,i)越大
我们根据参数k和权重关系来得到如何控制K的值进行训练
其中K=0.5的时候大部分数据都要用来训练,而k=0.01的时候很少的局部点需要用来训练模型。下面用代码来进行实现
def lwlr(testPoint,xArr,yArr,k=1.0): xMat = mat(xArr);yMat = mat(yArr).T m = shape(xMat)[0] weights = mat(eye((m))) #对角矩阵 for j in range(m): diffMat = testPoint - xMat[j,:] weights[j,j] = exp(diffMat*diffMat.T)/(-2.0*k**2) xTx = xMat.T*(weights*xMat) if linalg.det(xTx)==0.0: print "this matrix is singular" return ws = xTx*(xMat.T*(weights*yMat)) return testPoint*wsdef lwlrTest(testArr,xArr,yArr,k=1.0): m = shape(testArr)[0] yHat = zeros(m) for i in range(m): yHat[i] = lwlr(testArr[i],xArr,yArr,k) return yHat
下面可以看看预测的效果:
xArr,yArr = regression.loadDataSet('ex0.txt')yHat = regression.lwlrTest(xArr,xArr,yArr,0.003)
为了直观获得效果我们仍然进行绘图,我们用matplotlib库进行。我们首先需要对xArr进行排序
xMat = mat(xArr)arrInd = xMat[:,1].argsort(0)xSort = xMat[arrInd][:,0,:]import matplotlib.pyplot as pltfig = plt.figure()ax = fig.add_subplot(111)ax.plot(xSort[:,1],yHat[arrInd])ax.scatter(xMat[:,1].flatten().A[0],mat(yArr).T.flatten().A[0],s=2,c='red')plt.show()
获得效果如下:
0 0
- 基本线性回归两种方法实现
- 线性回归原理和实现基本认识
- SPSS多元线性回归残差分析的基本方法
- 基于Tensorflow实现基本的线性回归(Linear regression)
- 基本线性回归、局部加权线性回归和缩减方法(岭回归、前向逐步回归) in Python
- 线性回归方法(1)
- RHadoop实现线性回归
- 线性回归--Octave实现
- MapReduce实现线性回归
- tensorflow 实现线性回归
- SparkMlib实现线性回归
- Tensorflow实现线性回归
- Tensorflow实现线性回归
- TensorFlow实现线性回归
- 实现标准线性回归
- 线性回归python实现
- 线性回归---Python实现
- 线性回归c++实现
- Linux命令种类和帮助
- 一起talk C栗子吧(第一百九十回:C语言实例--文件定位三 )
- gdfsg
- poj 2352 Stars
- 类图
- 基本线性回归两种方法实现
- Python--CentOS 从Python2.6升级到Python2.7
- 数据结构实验之排序二:交换排序
- 实例恢复中备份可恢复性和归档模式浅析
- Linux进程间通信——使用消息队列
- 多类、属性、后代、子元素、相邻兄弟选择器
- 交换变量
- maven总结
- 微信隐藏代码大全(来源于网络)