最小二乘法的证明以及最优化系数的求解 Least squares

来源:互联网 发布:飞凌单片机开发工具 编辑:程序博客网 时间:2024/06/01 09:52

定理:最小二乘法就是通过最小化误差的平方和寻找数据的最佳函数匹配,使得最后预测和真实值之差的平方的最小值最小


一、矩阵求导

Af(A) 代表的意思是:对于一个A矩阵(M x N), ij系数满足 ∂f/∂Aij ,即对矩阵里的元素求导


For example : 

A为一个2 x 2矩阵即


有函数f(X)


则根据上面对矩阵求导法则



二、矩阵的迹以及相关公式

我们规定,矩阵的迹为矩阵的对角线元素之和


注:特别的,当矩阵为1 x 1位,它的迹就是它本身 ,tr A = A

相关迹的公式:

(1)

(2)

(3)3,4在记忆的时候,只需要把最后一个依次挪至前面即可

(4)

(5)

(6)

相关矩阵求导的公式:



三、最小二乘法证明

1.我们仍旧是需要找到最相似的θ ,使J(θ)最小 (这里的J(θ)仍旧是方差最小值)

2.我们将已知数据集的输入部分X看做是一个M*N的数据集矩阵,将标签y看做M*1的矩阵 

     

3.我们仍旧使用前面根据线性回归的公式 : hθ(x(i)) = (x(i))Tθ , 所以用Xθ - y 得到的就是一个矩阵形式的差值。 而在梯度下降里,得到的是每一行的差值



4.根据矩阵的定理:

就有:

也就印证了前面梯度下降法那里推导出来的公式


5.使用前面关于迹和矩阵求导的公式推导左边这个公式即可:

根据矩阵求导那里的(2),(3),把tr后的看为一个整体,对A的转置矩阵求导,得到的也都是转置后的结果



6.对其进行推导:


(注:第三行第一个运用了迹求导的(3),最后一个因为没有theta所以为0,中间两个运用了trA= trA^T , 将里面的看为一个整体A,就可以得到两个一模一样的) 

最优化的时候,导数为0,所以带入最终可得:



0 0
原创粉丝点击