数据挖掘学习------------------4-分类方法-7-支持向量机（SVM）

来源：互联网发布：多级会员管理系统源码编辑：程序博客网时间：2024/05/21 14:49

4.7支持向量机

SVM是有监督的学习方法，即已知训练点的类别，求训练点和类别之间的对应关系，以便将训练集按照类别分开，或者预测新的训练点所对应的类别。

1、基本思想

SVM构建了一个分割两个类的超平面（这也可以拓展到多类问题）。在构建的过程中，SVM算法试图使两类之间的分割达到最大化。

以一个很大的边缘分割两个类可以使期望泛化误差最小化。

（1）概念：
①最小化泛化误差：当对新的版本进行分类时，基于学习所得的分类器（超平面）使分析人员对其所属类别预测错误的概率被最小化。
②直觉上，这样的一个分类器实现了两个分类之间的分离边缘最大化。
③与分类器平面平行、分别穿过数据集中的一个或多个点的两个平面称为边界平面。
④这些边界平面的距离称为边缘。
⑤而通过SVM学习的含义是找到最大化这个边缘的超平面。
⑥落在边界平面上的（数据集中的）点称为支持向量。
⑦这些点在这一理论中的作用至关重要，故称为支持向量机。
（2）总结：
就是与分类器平行的两个平面，此两个平面能很好的分开两类不同的数据，且穿越两类数据区域集中的点，现在欲寻找最佳超几何分隔平面使之与两个平面间的距离最大，如此便能实现分类总误差最小。
支持向量机是基于统计学模式识别理论之上的，其理论相对难懂，因此这里侧重用实例来引导和讲解。

2、理论基础

（1）支持向量机最初是研究线性可分问题的过程中提出的，所以这里先将线性SVM的基本原理。

假设容量为n，训练样本集{（xi，yi）,i = 1,2,3,..n}由两个类别组成（注意：下面的字符加粗的都是向量或矩阵，细的为数值），x为数据，y为种类。若Xi属于第一类，则记为yi = 1；若Xi属于第二类，则记为yi = -1;

若存在分类超平面：

能够将样本正确的划分成两类，即相同类别的样本都落在分类超平面的同一侧，则称该样本集是线性可分的，即满足

WтX + B >=1，yi = 1

http://blog.csdn.net/macyang/article/details/38782399/

阅读全文

0 0