统计学习方法(第二章)感知机

来源:互联网 发布:网络公关公司排行 编辑:程序博客网 时间:2024/06/05 09:05

1 什么是感知机

机器学习中,感知机(perceptron)是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用梯度下降法 对损失函数进行最优化(最优化)。感知机的学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的实例进行预测的,因此属于判别模型。感知机由Rosenblatt于1957年提出的,是神经网络支持向量机的基础。输入X表示实例的特征向量,对应输入空间的点,输出空间Y表示实例的类别,属兔空间到输出空间的函数,称为感知机。

感知机是在输入空间中将实例划分为两类的超平面,感知机是判别模型。

感知机是神经网络和支持向量机(SVM)的基础,表达式如下:


sign是符号函数:

   

在二分类问题中f(x)等于+1 表示正例,f(x)等于-1表示负例。线性方程wx+b=0(直线,平面,超平面)可以分离正例和负例,如所示:



2 感知机的损失函数定义

1)自然选择:误分类的点的数目(不是w和b的函数,难以用来优化w和b)

2)误分类的点到超平面的距离和

           |wx +b|(函数距离,可以衡量相对距离)

   (几何距离)

因为正例y值为1 负例y值为-1,所以所有正确的划分:


错误的划分上式的值为负,

误分类到超平面的距离为


不考虑||w||,得到的误差函数为:


这个损失函数就是感知机学习的经验风险函数

这样,分类问题转化成求L函数的最优化问题。

         

2 感知机的学习策略


最优化的方法是随机梯度下降法(stochastic gradient descent)。简单的说,SGD是误分类驱动的就是随机初始化W0和b0,使用梯度下降法不断地最小化目标函数,即:

 


通过计算梯度(偏导数)来更新W和b,n是步长学习率,也就是更新的步长,通过不断的迭代,将误差下降为0,此后,w和b将不会改变(因为是误分类驱动的),分类模型稳定。

 η


 

实例

正样本点:x1=(3,3)T,x2=(4,3)T 
负样本点:
x1=(1,1)T 

求感知机模型f(x)=(wx+b) 其中 w=(w1,w2),

解答思路:根据上面讲解的,写初始化权值w和偏置b,然后一步一步的更新权值,直到所有的点都分正确为止。

解:

(1) 令w0=0,b0=0 
(2) 随机的取一个点,x1


未正确分类。更新w0--> w1=w0+ny1x1,b1=b0+ny1

同理计算,最后得到w=(1,1)b=-3



yi(



原创粉丝点击