关于SVM的一些思考

来源:互联网 发布:小米笔记本 显卡知乎 编辑:程序博客网 时间:2024/06/06 04:32

问1:支持向量机适合解决什么问题?

答1:小样本、非线性、高维


问2:VC维是什么?

答2:VC维是对函数的度量,VC维越高,函数越复杂


问3:经验风险、置信风险、结构风险的差别是什么?

答3:1)经验风险:模型在给定样本上的误差

2)置信风险:多大程度上可以信任模型在未知样本上的结果,无法准确获得,只能估计一个区间

3)结构风险:也叫泛化误差界,是经验风险加上置信风险的上界。


问4:置信风险由什么决定?

答4:1)样本量越大,学习的结果可能越正确,置信风险越小

2)VC维越大,推广能力越差,置信风险越大


问5:SVM凭什么擅长解决非线性问题?

答5:通过松弛变量和核函数


问6:线性函数使连续函数,而分类是离散输出,怎么解决?

答6:可以设定阈值,大于阈值为一类;小于阈值为一类


问7:间隔和几何间隔的定义?

答7:1)线性函数:g(xi)=wxi+b,其中w和x均为向量

2)超平面公式:wx+b=0

3)几何间隔di‘=|g(xi)| / |w|

4)点的集合到超平面的距离定义为集合中距离超平面距离最近的点到超平面的距离

5)间隔di=yi*(w*xi+b)=|g(xi)|

6)di'=di/ |w|


问8:svm的目标是什么?

答8:1)最大化几何间隔di’

2)固定间隔di,最小化|w|

3)最小化|w|^2/2


问9:svm的约束是什么?

答9:1)间隔为1,yi*(w*xi+b)>=1

2)yi*(w*xi+b)-1>=0


问10:svm如何求解?

答10:1)这是一个凸二次规划问题

2)求解出w,b自然代入就可求得


问11:如何求解w?

答11:1)w=a1y1x1+a2y2x2+...+anynxn=∑aiyixi

2)g(x)=<w,x>+b=<∑aiyixi,x>+b=∑aiyi<xi,x>+b


问12:什么是核函数?

答12:1)g(x)=c0+c1*x+c2*x^2,二次函数,【二维空间】

2) f(y) =<a,y> =ay其中,y=[y0 y1 y2]=[1 x x^2]  a=[c0 c1 c2] , 线性函数 【四维空间】

3)关键要能找到y和x之间的映射关系,纯粹靠猜

4)g(x)=∑aiyi<xi,x>+b=∑aiyiK(xi,x)+b

5)f(x')=∑aiyi<xi',x'>+b

6)核函数的基本作用就是接受两个低维空间中的向量,能够计算出在经过某个变换后在高维空间中的向量内积值


问13:什么是松弛变量?

答13:1)yi*(w*xi+b)>=1-si,其中si>0,允许间隔小于1

2)衡量损失常用的方式:∑si 或 ∑si^2

3)最小化目标函数:|w|^2/2+C∑si,C叫做惩罚银子

4)只有离群点才有松弛变量,或者说非离群点松弛变量都为0

5)松弛变量标记了点离群多元,离群越远,松弛变量越大

6)惩罚因子C不是变量,是预先指定的值,只不过要多次尝试建立不同分类器,选择最优值,验证集


问14:核函数和松弛变量的作用有什么不同?

答14:1)核函数解决低维空间中不可分问题

2)松弛变量解决少量离群点


问15:svm如何解决多酚类问题?

答15:1)一对多余

2)一对一,然后投票

3)DAG SVM: 1 VS 5;如果回答5,则看 2 VS 5;如果回答5,则看 3 VS 5


问16:常用的核函数有哪些?

答16:1)径向基核函数:k(x,y)=exp(-r*||x-y||^2)

2)高斯核函数:k(x,y)=exp(-||x-y||^2/2o^2)

3)多项式核函数:k(x,y)=(axy+b)^d


问17:SVM优化目标、核函数之间有和关系?
答17:1)几何间隔定义:|g(x)|/||w||
2)优化目标:最大化几何间隔,即:
2.1)最小化||w||,进而推导出最小化(1/2)*||w||^2
2.2)约束: g(x)-1>=0 
2.3)通过拉格朗日乘子法使不等式加到目标函数后边
3)为什么需要核函数
3.1)如果样本线性可分,则:g(x)=w*x+b=<w,x>+b=<∑ai*xi*yi,x>+b=∑ai*yi*<xi,x>+b
3.2)如果样本线性不可分,则:x,w映射到高维空间为x',w'后线性可分:f(x')=<w',x'>+b=<∑ai*yi*xi',x'>+b=∑ai*yi*<xi',x'>+b
3.3)g(x)和f(x')除了样本映射到高维空间求内积外,ai、yi、b都是一致的
3.4)可以使用核函数K<xi,x>=<xi',x'>,则g(x)=∑ai*yi*K<xi,x>+b




原创粉丝点击