数据挖掘学习------------------4-分类方法-7-支持向量机(SVM)

来源:互联网 发布:多级会员管理系统源码 编辑:程序博客网 时间:2024/05/21 14:49

4.7支持向量机

SVM是有监督的学习方法,即已知训练点的类别,求训练点和类别之间的对应关系,以便将训练集按照类别分开,或者预测新的训练点所对应的类别。

1、基本思想

SVM构建了一个分割两个类的超平面(这也可以拓展到多类问题)。在构建的过程中,SVM算法试图使两类之间的分割达到最大化。

以一个很大的边缘分割两个类可以使期望泛化误差最小化。

(1)概念:

①最小化泛化误差:当对新的版本进行分类时,基于学习所得的分类器(超平面)使分析人员对其所属类别预测错误的概率被最小化。

②直觉上,这样的一个分类器实现了两个分类之间的分离边缘最大化。

③与分类器平面平行、分别穿过数据集中的一个或多个点的两个平面称为边界平面。

④这些边界平面的距离称为边缘。

⑤而通过SVM学习的含义是找到最大化这个边缘的超平面。

⑥落在边界平面上的(数据集中的)点称为支持向量。

⑦这些点在这一理论中的作用至关重要,故称为支持向量机。

(2)总结:

就是与分类器平行的两个平面,此两个平面能很好的分开两类不同的数据,且穿越两类数据区域集中的点,现在欲寻找最佳超几何分隔平面使之与两个平面间的距离最大,如此便能实现分类总误差最小。

支持向量机是基于统计学模式识别理论之上的,其理论相对难懂,因此这里侧重用实例来引导和讲解。

2、理论基础

(1)支持向量机最初是研究线性可分问题的过程中提出的,所以这里先将线性SVM的基本原理。

假设容量为n,训练样本集{(xi,yi),i = 1,2,3,..n}由两个类别组成(注意:下面的字符加粗的都是向量或矩阵,细的为数值),x为数据,y为种类。若Xi属于第一类,则记为yi = 1;若Xi属于第二类,则记为yi = -1;

若存在分类超平面:


能够将样本正确的划分成两类,即相同类别的样本都落在分类超平面的同一侧,则称该样本集是线性可分的,即满足

WтX + B >=1,yi = 1

http://blog.csdn.net/macyang/article/details/38782399/

阅读全文
0 0
原创粉丝点击