【机器学习】逻辑回归（Linear Regression）模型推导

来源：互联网发布：美国ip代理软件编辑：程序博客网时间：2024/06/15 02:57

LR中文翻译作逻辑斯蒂回归，用于二分类。为什么回归和分类搅在一起了呢。因为可以这样想：线性回归

y=θTx 得到的结果是一个实数。如果我们将这个结果“压缩”到 [0,1] 之间，那么就可以表示概率接近1的程度，进而可以用来二分类。最简单的“压缩”可以是单位阶跃函数：

但单位阶跃函数是不连续的，在求导的过程中会产生问题。所以，我们用sigmoid函数来近似单位阶跃函数：

σ (x) = 1 1 + e - x

可以看到，在0附近其函数值变化较快。

从而我们得到：

h θ (x i) = p (y i = 1 | x i) = σ (θ T x i) = 1 1 + e - θ T x i

p (y i = 0 | x i) = 1 - σ (θ T x i) = e - θ T x i 1 + e - θ T x i

将两式合并：

p (y | x) = (h θ (x)) y (1 - h θ (x)) 1 - y

对所有样本取最大似然：

L (θ) = \prod i = 1 m p (y i | x i)

记 hθ(x)=g(θTx)=11+e−θTx
取对数得：

l (θ) = log L (θ) = log \prod i = 1 m p (y i | x i) = \sum i = 1 m log p (y i | x i) = \sum i = 1 m log [(h θ (x i)) y i (1 - h θ (x i)) 1 - y i] = \sum i = 1 m [y i log (h θ (x i)) + (1 - y i) log (1 - h θ (x i))] = \sum i = 1 m [y i log (g (θ T x i)) + (1 - y i) log (1 - g (θ T x i))]

sigmoid函数导数形式为： σ′(x)=σ(x)(1−σ(x))
参数第 j 个分量的梯度：

\partial l ( θ ) \partial θ j = \sum i = 1 m [y i 1 g \partial g \partial θ j - (1 - y i) 1 1 - g \partial g \partial θ j] = \sum i = 1 m [y i 1 g g' \partial ( θ T x i ) \partial θ j - (1 - y i) 1 1 - g g' \partial ( θ T x i ) \partial θ j] = \sum i = 1 m [y i 1 g g (1 - g) x j i - (1 - y i) 1 1 - g g (1 - g) x j i] = \sum i = 1 m (y i - g (θ T x i)) x j i

由于要求最大似然，所以用梯度上升法：

θ j k + 1 = θ j k + η \sum i = 1 m (y i - g (θ T k x i)) x j i

阅读全文

0 0