http://www.cnblogs.com/tbcaaa8/p/4415429.html

来源：互联网发布：阿里云服务器硬盘扩容编辑：程序博客网时间：2024/06/05 20:40

1. 线性回归 (Linear Regression)

线性回归是对自变量和因变量之间关系进行建模的回归分析，回归函数满足如下形式：

$h_\theta(x)=\theta^Tx$ 　　

我们使用 $m$ 表示数据组数，使用 $n$ 表示数据的维数；使用 $x^{(i)}$ 和 $y^{(i)}$ 表示第 $i$ 组数据的自变量和因变量，使用 $x^{(i)}_j$ 表示第 $i$ 组数据自变量的第 $j$ 个分量。推导过程基于如下假设：

$h_\theta(x^{(i)})-y^{(i)} \sim N(0,\sigma^2) \quad for\ i=1\ldots m$

即每一组数据的误差项相互独立，且均服从均值为0，方差为 $\sigma^2$ 的正态分布。进而，我们可以得到似然函数：

$L(y\mid x;\theta)=\prod_{i=1}^m P(y^{(i)}\mid x^{(i)};\theta) = \prod_{i=1}^m N(h_\theta(x^{(i)})-y^{(i)};0,\sigma^2)$

对数似然函数：

$\ln L(y\mid x;\theta)= \sum_{i=1}^m \ln N(h_\theta(x^{(i)})-y^{(i)};0,\sigma^2) = \sum_{i=1}^m \ln (\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2\sigma^2}( h_\theta(x^{(i)})-y^{(i)} )^2))$

化简，可得：

$\ln L(y\mid x;\theta)= c_1-c_2\sum_{i=1}^{m}( h_\theta(x^{(i)})-y^{(i)} )^2 \quad c_2 > 0$

定义损失函数：

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m ( h_\theta(x^{(i)})-y^{(i)} )^2$

要使似然函数最大，只需使损失函数最小。我们使用损失函数的极小值代替最小值，只需对每一个 $\theta_j$ 求偏导数：

$\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \quad for\ j=0\ldots n$

最后，使用梯度下降法迭代求解：

$\theta^{(k+1)}_j=\theta^{(k)}_j-\alpha \frac{\partial}{\partial \theta_j} J(\theta) \quad for\ j=0\ldots n$

其中， $\alpha$ 为学习率，是一个大于0的常数。学习率应当慎重选择，过大会导致算法不收敛，过小会导致收敛速度缓慢。在实际应用中，可以根据具体情况对学习率进行调节。有资料表明，当 $\alpha <\frac{2}{\lambda_{max}}$ $(note:\ \lambda_{max}=\max\{\lambda \mid \lambda\ is\ an\ eigenvalue\ of\ Var(x) \})$ 时，上述算法收敛。由于 $\lambda_{max}$ 难以高效计算，因此往往使用 $tr(Var(x))$ 来代替。

2. 逻辑回归 (Logistic Regression)

当因变量只能在{0,1}中取值时，线性回归模型不再适合，因为极端数据的存在会使阀值的选择变得困难。我们可以使用逻辑回归对数据进行建模。回归函数满足如下形式：

$h_\theta(x)=sigmoid(\theta^Tx)$

其中：

$sigmoid(z)=\frac{1}{1+\exp(-z)}$

sigmoid函数具有如下性质：

$\frac{d}{dz}sigmoid(z)=sigmoid(z)(1-sigmoid(z))$

推导过程基于如下假设：（其实就是假设y⁽ⁱ⁾~Bernoulli(h_θ(x⁽ⁱ⁾))）

$P(y^{(i)}=1\mid x^{(i)};\theta)=h_\theta(x^{(i)})$

$P(y^{(i)}=0\mid x^{(i)};\theta)=1-h_\theta(x^{(i)})$

$for\ i=1\ldots m$

考虑到 $y$ 取值的特殊性，上述假设等价于以下形式：

$P(y^{(i)}\mid x^{(i)};\theta)=(h_\theta(x^{(i)}))^{y^{(i)}} (1-h_\theta(x^{(i)}))^{1-y^{(i)}} \quad for\ i=1\ldots m$

进而得到似然函数：

$L(y\mid x;\theta)=\prod_{i=1}^m P(y^{(i)}\mid x^{(i)};\theta)$

对数似然函数：

$\ln L(y\mid x;\theta)= \sum_{i=1}^m \ln P(y^{(i)}\mid x^{(i)};\theta)$

化简，得：

$\ln L(y\mid x;\theta)= \sum_{i=1}^m ( y^{(i)}\ln (h_\theta(x^{(i)}))+(1-y^{(i)})\ln(1-h_\theta(x^{(i)})) )$

定义损失函数：

$J(\theta)=-\frac{1}{m}\sum_{i=1}^m ( y^{(i)}\ln (h_\theta(x^{(i)}))+(1-y^{(i)})\ln(1-h_\theta(x^{(i)})) )$

要使似然函数最大，只需使损失函数最小。我们使用损失函数的极小值代替最小值，只需对每一个 $\theta_j$ 求偏导数：

$\frac{\partial}{\partial \theta_j} J(\theta) = -\frac{1}{m}\sum_{i=1}^m ( \frac{y^{(i)}}{h_\theta(x^{(i)})} - \frac{1-y^{(i)}}{1-h_\theta(x^{(i)})} )h_\theta(x^{(i)}) (1-h_\theta(x^{(i)})) x_j^{(i)}$

化简，得：

$\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \quad for\ j=0\ldots n$

最后，使用梯度下降法迭代求解：

$\theta^{(k+1)}_j=\theta^{(k)}_j-\alpha \frac{\partial}{\partial \theta_j} J(\theta) \quad for\ j=0\ldots n$

$\alpha$ 含义同上。

阅读全文

0 0