Logistic Regression(逻辑回归)（二）—深入理解

来源：互联网发布：数据加密标准编辑：程序博客网时间：2024/05/16 15:56

（整理自AndrewNG的课件，转载请注明。整理者：华科小涛@http://www.cnblogs.com/hust-ghtao/）

上一篇讲解了Logistic Regression的基础知识，感觉有很多知识没说清楚，自己理解的也不透彻，好在coursera上NG又从另外的角度讲了一下。这里我权当个搬运工，把他讲的搬过来，加上自己的理解整理一下。主要分成三个部分：对的再理解、Decision Boundary(决策边界)、多类问题。

1 对的再理解

这部分采用启发式的方式来讲解，循序渐进的在跟大家讲一下选择的合理性。我们知道Linear Regression不适合用来解决分类问题，从下面角度来理解：

对于Logistic Regression，

QQ截图20140423223947

${h_\theta }\left( x \right) = {\theta ^T}x$ ，由图显然，若x从负无穷到正无穷变化时，的变化范围也是从负无穷到正无穷，而y的取值只能是0或1 。这岂不是很奇怪，直观想象：即使不能映射到0或1，也至少将 $\left( { - \infty , + \infty } \right)$ 映射到 $\left( {0,1} \right)$ ，数学里还真有一个函数，那就是我们上次提到的：

那直接将特征x从 $\left( { - \infty , + \infty } \right)$ 映射到 $\left( {0,1} \right)$ 可以吗？显然不合理，若是那样：当x大于0时，就判断为1类，否则为0类，显然不符合实际情况，应该具体问题具体分析。所以就将 ${\theta ^T}x$ 进行映射，对于分类问题，通过恰当的选择特征构造，通过梯度下降法，是可以训练出分类器的。

从概率上这也是合理的，计算出的是，对于输入x，输出y=1的概率。假如对于输入x，计算出=0.7，则表示y=1的概率为70%，则判断为y=1 。

2 Decision Boundary(决策边界)

上面介绍了分类，却没对 ${\theta ^T}x$ 的含义，给出形象的解释：

111

图示如下：

假如已经训练好分类器为，我们对新输入x，判断其类别的依据是：

QQ截图20140423234201 ，由于 $g\left( 0 \right) = 0.5$ ，所以等价于判断：

1111

所以 ${\theta ^T}x = 0$ 就是我们的分类面，即Decision Boundary 。举例说明：

0001 ，对于这个分类问题有两个特征 ${x_1}$ 和 ${x_2}$ 。我们假设 ${h_\theta }\left( x \right) = g\left( {{\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2}} \right)$ ，经过训练求解：

123 ，则分界面为

1234 ，即

0001 。

再来看一个非线性决策边界的例子：

，对于这个分类问题有4个特征，分别是 ${x_1}$ ， ${x_2}$ ， ${x_1}^2$ 和 ${x_2}^2$ 。我们假设 ${h_\theta }\left( x \right) = g\left( {{\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + {\theta _3}{x_1}^2 + {\theta _4}{x_2}^2} \right)$ ，经过训练求解：

，则分界面的方程为：，为一个圆，图如下：

。

也就是说，虽然罗辑回归的假设函数为 ${h_\theta }\left( x \right) = g\left( {{\theta ^T}x} \right)$ ，但分类结果的直观表示却是 ${\theta ^T}x = 0$ ，即Decision Boundary(决策边界)。

3 多类问题

以上我们主要介绍了用逻辑回归解决二值分类的问题，下面我们简要介绍一下多类问题。现实生活中有很多的多类问题，例如要根据掌握的信息进行天气的预测，就有阴、晴、雨、雪等情况；对邮件进行分类管理，也可分为家人、朋友、同事等管理类别。

用Logistic Regression解决多类问题的思路很简单：就是把就绝K类的问题，转化为求解K的二值分类问题。下面以一个例子来说明：

，这是一个简单的3类问题，我们把它分解成下面3个二值问题来解决：

QQ截图20140426141024 ，经过这样的处理就把问题转换成已知的二值分类问题了，用逻辑回归分别进行求解：

就可以得到 ${h_\theta }^{\left( i \right)}\left( x \right)$ ， ${h_\theta }^{\left( i \right)}\left( x \right)$ 表示对于输入变量x，它属于i类的概率。如果要对新来的输入进行类别的预测，分别计算 ${h_\theta }^{\left( i \right)}\left( x \right)$ ，那类对应的 ${h_\theta }^{\left( i \right)}\left( x \right)$ 最大，说明输入属于这个类别的概率最大，就判断为这个类别。

这里有一点需要注意：对于K类的多类问题，是要分解成K个二值问题的，而不是（K-1）个或更少。因为各个 ${h_\theta }^{\left( i \right)}\left( x \right)$ 之间没有什么直接的关系（之和不为1）：

，可以看到它们之间有交叉，也有都不包含的区域。

原文地址：http://www.cnblogs.com/hust-ghtao/p/3684346.html

0 0