感知机1 -- 感知机模型

来源：互联网发布：npm 淘宝源编辑：程序博客网时间：2024/04/30 02:53

声明：

1，本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结，不得用作商用，欢迎转载，但请注明出处（即：本帖地址）。

2，由于本人在学习初始时有很多数学知识都已忘记，因此为了弄懂其中的内容查阅了很多资料，所以里面应该会有引用其他帖子的小部分内容，如果原作者看到可以私信我，我会将您的帖子的地址付到下面。

3，如果有内容错误或不准确欢迎大家指正。

4，如果能帮到你，那真是太好了。

定义

感知机模型说白了就是判断“属于规定类？还是不属于规定类”的模型。

其函数为：

F(x)= sign(w·x + b)

w、b ：感知机模型的参数

w∈Rⁿ：权值/权值向量

b∈R ：偏置

w·x ：w和x的内积

Sign ：符号函数

感知机为一种线性分类模型，属于一宗判别模型

感知机的几何解释

首先，其线性方程为w·x + b = 0，于是如下图所示：

若该线性方程对应特征空间Rⁿ中的一个超平面S，则w为该超平面的法向量，b为超平面的截距，该超平面将Rⁿ分成正负两类，于是该超平面也被称为分离超平面。

第一次总结

综上所述，感知机预测就是通过学习得到的感知机模型，给出新输入实力对应的输出类别。

线性可不可分

对数据集 T={(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中x₁∈Rⁿ，y_i={+1,-1}, i=1, 2, ...,n，若存在一超平面S：

w·x + b = 0

可将数据集的正实例点和负实例点完全正确的划分到超平面的两侧，即：

对所有的y_i= +1的实例i，有w·x_i+ b > 0

对所有的y_i= -1的实例i，有w·x_i+ b < 0

则称数据集T为线性可分数据集，反之，称其为线性不可分数据集。

感知机学习策略

于是，其学习策略就是找出一个可将数据集完全正确分离的超平面：

w·x + b = 0

话句话说，就是确定w和b这两个参数

而为了确定这两个参数，我们需了解下“损失函数”。

损失函数

我们规定，损失函数为误分类点到超平面S的总距离。

于是，我们先写出输入空间Rⁿ中任一点x₀到超平面S的距离：

|w·x + b| / ||w||

这里||w||为w的L₂范数。

对于误分类的数据(x_i,y_i)来说：

-y_i(wx_i + b) > 0

因为，对于误分类的数据：

w·x + b > 0 时，y_i = -1

w·x + b < 0 时，y_i = +1

于是

∵误分类点x_i到超平面S的距离为：

-y_i(wx_i + b) / ||w||

∴ 对于误分类点集合M，所有误分类点到S的总距离为：

∴若不考虑1/||w|||，就得到了感知机学习模型的损失函数

最后，损失函数定义为：

对给定数据集 T={(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中x₁∈Rⁿ，y_i={+1,-1}, i=1, 2, ...,n

感知机sign(w·x + b)学习的损失函数定义为：

L(w,b) = -y_i(w·x_i + b)

其中，M为误分类点的集合。

第二次总结（关于损失函数）

1，损失函数L(w, b) 是非负的

2，若无误分类点，则损失函数为0

而随着误分类点的减少，损失函数的值也会降低

3，一个特定的样本的损失函数：

在误分类时为参数w，b 的线性函数，在正确分类时为0

4，于是，对给定训练数据T，损失函数L(w, b)为：w，b的连续可导函数

感知机学习算法的最优化方法

感知机学习算法的最优化的方法为：随机梯度下降算法。

(类似的还有个：最小二乘法)

感知机学习算法的原始形式

现已知，对于误分类点的几何，损失函数为：

L(w,b) = -y_i(w·x_i + b)

于是乎，我们的目的就是求L(w, b)的极小值，而这里，我们选择随机梯度下降算法来求此极小值。

下面请转到“随机梯度下降算法”的总结。

0 0