回归----多项式拟合正弦曲线

来源：互联网发布：淘宝实时交易编辑：程序博客网时间：2024/05/04 17:57

使用多项式拟合一个周期内、加入噪声的正弦曲线。

在正弦函数sin(x)一个周期中均匀产生N个数据点，并在y轴上加入标准高斯分布的噪声，即
yⁱ= sin(xⁱ)+e，
e服从N(0,1),i<=N && i>=1, (xⁱ, yⁱ)表示第i个数据

假设空间：
这里使用多项式：
h(x,w) = w₀+w₁*x+w₂*x²+…
即h(x) = w^T*X，w为多项式系数（M维列向量），X的形式如下，
X= [ 1 x x² x³ … ]^T
优化目标：
首先求解不加正则项的多项式，接着再求加入正则项的；
我们想要使多项式尽可能的经过数据点，必须有某种指标去衡量多项式的好坏，这里使用每个数据点相对拟合多项式的偏差的平方和来衡量，当然希望这个损失越小越好。如果多项式的阶数越大，则损失会越小，但是这只是在训练集上的损失越来越小，即较好的拟合了训练集，这在训练集数量足够多的情况下是没有问题的；但是如果数据集数量较少，有可能在训练集上拟合的较好，但是有可能会出现过学习问题，即在验证集上的泛化能力降低，因此希望降低模型的复杂度，即通过加入正则项对模型复杂度进行惩罚（这里正则项采用二范式，也可使用一范式或者平方和等等）。下面对两种优化目标分别求解：
1.    不加正则项的最小二乘法：


2.    加入正则项的最小二乘法：


其中为w的二范式，y为N维列向量，X为N×M矩阵, X具体形式如下：