Jordan Lecture Note-4: Linear & Ridge Regression

来源:互联网 发布:aes加密原理及算法 编辑:程序博客网 时间:2024/04/30 02:44
Linear & Ridge Regression

    对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y_i\in\mathbb{R}$。我们采用以下矩阵来记上述数据:

\begin{equation}\mathbf{X}=\left[\begin{array}& x_1^\prime\\ x_2^\prime\\\vdots\\ x_n^\prime\end{array}\right]\quad y=\left(\begin{array}&y_1\\y_2\\\vdots\\y_n\end{array}\right)\end{equation}

我们想要拟合出$y=\mathbf{X}\beta+\epsilon$,其中$\epsilon$为服从均值为0,方差为$\sigma^2$的高斯分布。

一、 最大似然估计

$\epsilon$的密度函数:

$$f(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\epsilon^2}{\sigma^2}\}=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\|y-\mathbf{X}\beta\|^2}{\sigma^2}\}$$

似然函数:

$$L(\beta)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y_i-x_i^\prime\beta)^\prime(y_i-x_i^\prime\beta)}{\sigma^2}\}$$

log-似然函数:

$$l(\beta)=n\mathop{log}\frac{1}{\sqrt{2\pi}\sigma}-\sum_{i=1}^n\frac{(y_i-x_i^\prime\beta)^\prime(y_i-x_i^\prime\beta)}{\sigma^2}$$

令$\frac{dl(\beta)}{d\beta}=0$ $\Longrightarrow$ $(\mathbf{X}^\prime\mathbf{X})\hat{\beta}_{ML}=\mathbf{X}^\prime y$

其中$\mathbf{X}^\prime\mathbf{X}$和$\mathbf{X}^\prime y$是充分统计量。

充分统计量:直观来讲应该能够将样本中所有包含的关于未知参数的信息全部包括起来,这样的统计量就是充分统计量。具体的说,在统计量$T$给定后,样本的条件分布已经不在依赖于参数$\theta$。数学定义:设有一个分布族$\mathcal{F}=\{F\},(x_1,x_2,\cdots,x_n)$是从某总体$F\in\mathcal{F}$中抽取的一个样本,$T=T(x_1,x_2,\cdots,x_n)$为一个(一维或多维)统计量,如果当给定$T=t$下, 样本$(x_1,x_2,\cdots,x_n)$的条件分布于总体分布$F$无关,则称$T$为此分布族的充分统计量(sufficient statistic)。

 假设$(\mathbf{X}^\prime\mathbf{X})^{-1}$存在,则

\begin{align*}\hat{\beta}_{ML}&=(\mathbf{X}^\prime\mathbf{X})^{-1}\mathbf{X}^\prime y\\&=\mathbf{X}^\prime\mathbf{X}(\mathbf{X}^\prime\mathbf{X})^{-2}y\\&=\mathbf{X}^\prime\alpha\end{align*}

其中$\alpha=\mathbf{X}(\mathbf{X}^\prime\mathbf{X})^{-2}y$。最后的预测模型:$y=x\hat{\beta}_{ML}=x\mathbf{X}^\prime\alpha$

二、最小二乘法

原则:使拟合出来的直线到各点的距离之和最小。其模型如下:

\begin{equation}\mathop{\min}\quad  \sum_{i=1}^n(y_i-x_i^\prime\beta)^2\label{equ:leastSquare}\end{equation}

对式子\ref{equ:leastSquare}求导,并令其为0可得:$\mathbf{X}^\prime\mathbf{X}\beta=\mathbf{X}^\prime y$,同样假设$\mathbf{X}^\prime\mathbf{X}$可逆,故$\hat{\beta}_{LS}=(\mathbf{X}^\prime\mathbf{X})^{-1}\mathbf{X}^\prime y$。

三、岭回归(Ridge regression)

当自变量之间存在多重相关性的时候,矩阵$\mathbf{X}^\prime\mathbf{X}$并不一定可逆,或者$|\mathbf{X}^\prime\mathbf{X}|$非常小,导致最小二乘法回归出来的系数会产生过拟合现象。此时可以给最小二乘法加入二次的penalty,得到岭回归。

1)从最大似然函数加上penalized $-\lambda\|\beta\|^2$来看。

    其中$\epsilon$的密度函数:

$$f(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{\epsilon^2+\lambda\|\beta\|^2}{2\sigma^2}\}=\frac{1}{\sqrt{2\pi}\sigma}exp\{-frac{(y-x^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}\}$$

     似然函数:

$$L(\theta)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y_i-x_i^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}\}$$

     log-似然函数:

$$l(\theta)=n\mathop{log}\frac{1}{\sqrt{2\pi}\sigma}-\sum_{i=1}^n\frac{(y_i-x_i^\prime\beta)^2+\lambda\beta^\prime\beta}{2\sigma^2}$$

    对log-似然函数求导得:

$$\frac{dl(\theta)}{d\theta}=-\mathbf{X}^\prime y+\mathbf{X}^\prime\mathbf{X}\beta+\lambda\beta=0 \Longrightarrow \mathbf{X}^\prime y=(\mathbf{X}^\prime\mathbf{X}+\lambda\mathbf{I})\hat{\beta_{ML}}$$

由于矩阵$(\mathbf{X}^\prime \mathbf{X}+\lambda\mathbf{I})$必定可逆,故:

$$\hat{\beta_{ML}}=(\mathbf{X}^\prime \mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^\prime y$$

2)从贝叶斯角度

    假设待考察的量遵循某概率分布,且根据这些概率及观察到的数据进行推断,以作出最优的决策。

    贝叶斯公式:$\mathbb{P}(h|D)=\frac{\mathbb{P}(h)\mathbb{P}(D|h)}{\mathbb{P}(D)}$.

    最大后验概率(Maximum a Posteriori Probability,MAP):

$$h_{MAP}=\mathop{argmin}_{h\in H}\mathbb{P}(h|D)=\mathop{argmin}_{h\in H}\frac{\mathbb{P}(h)\mathbb{P}(D|h)}{\mathbb{P}(D)}=\mathop{argmin}_{h\in H}\mathbb{P}(h)\mathbb{P}(D|h)$$

假设$\beta$服从先验分布$\beta\sim N(0,\lambda^{-1})$,则

\begin{align*}\mathop{\max}_{h\in H}\mathbb{P}(h|D)&=\frac{1}{\sqrt{2\pi}\sigma}exp\{-\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}\}\frac{\sqrt{\lambda}}{\sqrt{2\pi}}exp\{-\frac{\beta^\prime\beta}{\frac{2}{\lambda}}\}\\ &=\frac{\sqrt{\lambda}}{2\pi\sigma}exp\{-\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}-\frac{\lambda\beta^\prime\beta}{2}\}\end{align*}

$$\Longrightarrow\mathop{\min}\frac{(y-\mathbf{X}\beta)^\prime(y-\mathbf{X}\beta)}{2\sigma^2}+\frac{\lambda}{2}\beta^\prime\beta$$

令导数等于0$\Longrightarrow \frac{-\mathbf{X}^\prime(y-\mathbf{X}\beta)}{\sigma^2}+\lambda\beta=0$

$$\Longrightarrow (\mathbf{X}^\prime\mathbf{X}+\sigma^2\lambda\mathbf{I})\hat{\beta_{MAP}}=\mathbf{X}^\prime y$$

$$\Longrightarrow \sigma^2\lambda\hat{\beta_{MAP}}=\mathbf{X}^\prime y-\mathbf{X}^\prime\mathbf{X}\hat{\beta_{MAP}}=\mathbf{X}^\prime(y-\mathbf{X}\hat{\beta_{MAP}})$$ $$\Longrightarrow \hat{\beta_{MAP}}=(\sigma^2\lambda)^{-1}\mathbf{X}^\prime(y-\mathbf{X}\hat{\beta_{MAP}})\triangleq\mathbf{X}^\prime\alpha$$

 其中$\alpha = (\sigma^2\lambda)^{-1}(y-\mathbf{X}\hat{\beta_{MAP}})$。

由$\sigma^2\lambda\alpha = y-\mathbf{X}\hat{\beta_{MAP}}=y-\mathbf{X}\mathbf{X}^\prime\alpha$

$$\Longrightarrow (\sigma^2\lambda+\mathbf{X}\mathbf{X}^\prime)\alpha=y$$

$$\Longrightarrow \alpha=(\mathbf{X}\mathbf{X}^\prime+\sigma^2\lambda)^{-1}y=(\mathbf{K}+\lambda\sigma^2)^{-1}y$$

故我们只需要知道矩阵$\mathbf{K}$即可计算出$\alpha$和$\beta$值。当我们将上述矩阵$\mathbf{K}$替换成kernel矩阵,则可在更高维的空间进行回归,而且我们并不需要去关心这个映射的具体形式。

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 前保险杠和叶子板缝隙大怎么办 新奥拓的大灯调节螺丝滑丝了怎么办 小米手环2计步不准怎么办 小米手环3计步不准怎么办 眼镜用洗发水洗了后模糊怎么办 雷朋近视镜眼镜腿折了怎么办 近视镜眼镜腿断了该怎么办 老师把学生的眼镜打坏了怎么办 生死狙击忘了密保改不了密码怎么办 我叫mt狂猎之弓怎么办 你能利用你的弱点打击你怎么办 研控两相混合伺服电机反转怎么办? 战地一要我升级显卡驱动怎么办 刺客信条兄弟会存档损坏了怎么办 电脑上所有软件和文件被删了怎么办 电脑显示文件已打开无法删除怎么办 金立手机桌面停止运行黑屏怎么办 苹果平板电脑玩游戏黑屏闪退怎么办 电脑开机时显示无法找到入口怎么办 我的世界显示网络玩不了的怎么办啊 网页被设置成不可以到下一页怎么办 小天鹅热水器排污螺丝拧不动怎么办 葡萄霜霉严重叶片开始发焦了怎么办 上海高架gps定位信号差怎么办 老公开车技术不行还非要开怎么办 我偷了同学手机被发现应该怎么办 没满月孩孑4天没大便了怎么办 电机轴总是从皮带轮处断裂怎么办 天花板吊顶里的热水管经常坏怎么办 摩托车油箱下面的废油管漏油怎么办 大修机械压力机轴取不下来怎么办 萌侠传说账号密码没了怎么办 车子前保护杠塑料刮花了怎么办 糖猫电话手表关机了找不到了怎么办 小天才电话手表被洗衣机洗了怎么办 小天才电话手表放洗衣机洗了怎么办 小天才电话手表泡水了怎么办 小天才电话手表联不上网怎么办 肺炎用激素治疗后肚子大了怎么办 8岁以下儿童总是低烧不退怎么办? 微博里面的视频不能改变方向怎么办