机器学习最基础算法之最小二乘法(最小平方法)

来源:互联网 发布:知无涯者电影 编辑:程序博客网 时间:2024/06/03 17:47

最小二乘法(Least Squares Method, 简称LSE,又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

“最小二乘法”是对过度确定系统,即其中存在比未知数更多的方程组,以回归分析求得近似解的标准方法。在这整个解决方案中,最小二乘法演算为每一方程式的结果中,将残差平方和的总和最小化。

应用是在曲线拟合上。最小平方所涵义的最佳拟合,即残差(残差为:观测值与模型提供的拟合值之间的差距)平方总和的最小化。当问题在自变量(x变量)有重大不确定性时,那么使用简易回归和最小二乘法会发生问题;在这种情况下,须另外考虑变量-误差-拟合模型所需的方法,而不是最小二乘法。——维基百科

公式: 这里写图片描述

欧几里得度量: 这里写图片描述

  • 简单来讲,就是能够找到未知参数,使得理论值与观测值之差的平方和达到最小。

这里写图片描述

假设投影点时向量上的一点P,定义p=xa(x为某常数),则e=b-p,称e为误差。e与p也就是a垂直,所以有这里写图片描述,展开为:这里写图片描述这里写图片描述

根据公式得:如果改变b,那么p相对应改变,然而改变a,p无变化

这里写图片描述

平面的基向量a1、a2,矩阵A的列空间就是以a1,a2组成的平面,假设不在该平面的向量b,在该平面上的投影是p.找到一个x,使得p=Ax,e与该平面垂直,所以 这里写图片描述

展开得 这里写图片描述

这里写图片描述

投影矩阵(projection matrix):

这里写图片描述

根据投影矩阵的两个性质:

1) 这里写图片描述 (转置矩阵等于它本身,则此矩阵为对称矩阵)

2) 这里写图片描述(此矩阵是零矩阵或是单位矩阵;投影到a上后,再投影一次,没有变,也就是二次投影是它本身)

简单来讲就是,向量b在p矩阵上的投影成向量p
Ax=b不一定有解(当A的置小于A的增广矩阵的置时),但实际遇到(m>n),一定有解。p在a1,a2的平面上,所以Ax = p有解的,所以b可以投影到p上。

最小二乘法的应用,请看下面的散列图:

这里写图片描述

在一张散列点图中作一条直线来近似表述这些点的关系。
设y与t为线性关系,m个点(ai,bi),求两个未知参数C,D。代入方程组得:

  • 这里写图片描述

则:

  • 这里写图片描述

    推导得:

  • 这里写图片描述

  • 记:Ax = b , 则 x = 这里写图片描述

  • A的列向量的线性组合无法充满整个列向量空间,也就是此方程无解.
  • 从图中上看,则就是没有一条直线经过所有蓝色的点,为了让等式成立,选取最合适的x,则残差平方和函数min(H) = min(||e||^2) = min(||b-Ax||^2), 也就是最小二乘法。
  • 当x取最优解时,Ax恰好对应图中橙色点,b则对应图中蓝色的点,e的值对应红色的长度,记蓝色b到直线对应点x的距离长度。

  • 那最小二乘法问题的解可以写成:

    这里写图片描述

A 称为结构矩阵, b 称为数据矩阵,

A^{T}A 称为信息矩阵,

A^{T}b 称为常数矩阵。

而最小二乘的求解实质上就是 Ax=b 没有解,我们就把 b 投影到向量 p 上,求解 Ax =p.

向量定义为:

这里写图片描述

r为向量a,b间的向量夹角,r越接近1,y与t的线程关系越好,r为正数时,直线斜率为正,正相关,r为负数时,斜率为负,负相关,接近0时,测量数据点分散或之间为非线性,不论测量数据好坏都能求出和。判断测量数据好坏的方法,不宜拟合的判断方法是测量数据非线性的。r接近0成为关系数的基本值,与测量次数n有关。

  • 最小二乘法可以将从实验中数据中寻找一定规律,拟合出一条曲线,反映所给数据点总趋势,消除局部波动。用于从误差拟合角度对回归模型进行参数估计或系统辨识,并在参数估计、系统辨识以及预测、预报等众多领域中。

—————————————————————————————————————————–

参考:《最小二乘法》

《最小二乘法的本质是什么?》