机器学习基石-Support Vector Regression
来源:互联网 发布:公安部已备案域名 编辑:程序博客网 时间:2024/06/16 12:49
大纲
上节课我们主要介绍了Kernel Logistic Regression,讨论如何把SVM的技巧应用在soft-binary classification上。方法是使用2-level learning,先利用SVM得到参数b和w,然后再用通用的logistic regression优化算法,通过迭代优化,对参数b和w进行微调,得到最佳解。然后,也介绍了可以通过Representer Theorem,在z空间中,引入SVM的kernel技巧,直接对logistic regression进行求解。本节课将延伸上节课的内容,讨论如何将SVM的kernel技巧应用到regression问题上。
Kernel Ridge Regression
1 Recall: Representer Theorem
首先回顾一下上节课学过的表示定理,对于任何L2-regularized linear model,如果我们存在这样的最小化问题,
我们可以把最优的w表示为
所以我们可以得出结论,任何的L2-regualrized线性模型都可以被kernelized
那么如何将regression模型变成kernel的形式呢?我们之前介绍的linear/ridge regression最常用的错误估计是squared error,即
2 Kernel Ridge Regression Problem
我们先把Ridge Regression 问题写下来
因为
所以我们可以将原问题转化为一个之与
不失一般性,我们可以通过求解
总结一下Kernel Ridge Regression Problem就是就是利用表示定理,在ridge regression问题上应用核技巧
3 Solving Kernel Ridge Regression
这种凸二次最优化问题,只需要先计算其梯度,再令梯度为零即可。我们就可以得到
现在我们就可以很容易的做非线性回归啦
4 Linear versus Kernel Ridge Regression
如上图所示,左边是linear ridge regression,是一条直线;右边是kernel ridge regression,是一条曲线。大致比较一下,右边的曲线拟合的效果更好一些。这两种regression有什么样的优点和缺点呢?对于linear ridge regression来说,它是线性模型,只能拟合直线;其次,它的训练复杂度是
Support Vector Regression Primal
1 Soft-Margin SVM versus Least-Squares SVM
我们在机器学习基石课程中介绍过linear regression可以用来做classification,那么上一部分介绍的kernel ridge regression同样可以来做classification。我们把kernel ridge regression应用在classification上取个新的名字,叫做least-squares SVM(LSSVM)
如上图所示:
Gaussian LSSVM和soft-margin Gaussian SVM有着相似的边界,但是Gaussian LSSVM有更多的SVs,SVs太多会带来一个问题,就是做预测的
那么,针对LSSVM中dense
2 Tube Regression
Tube Regression的做法是在回归线先上下划定一个区域,叫做Tube。数据点在这个区域内,则不计算错误,数据点落在Tube的外面,则计算错误。我们可以把错误函数表示为
3 Tube versus Squared Regression
我们对比一下Tube Regression和Squared Regression的损失函数。我们可以发现
当
|s−y| 很小的时候,tube≈squared tube Regression不易受outliers的影响
4 L2-Regularized Tube Regression
这个最优化问题,由于其中包含max项,并不是处处可微分的,所以不适合用GD/SGD来求解。而且,虽然满足representer theorem,有可能通过引入kernel来求解,但是也并不能保证得到sparsity β。从另一方面考虑,我们可以把这个问题转换为带条件的QP问题,仿照dual SVM的推导方法,引入kernel,得到KKT条件,从而保证解
5 Standard Support Vector Regression Primal
现在我们已经有了Standard Support Vector Regression的初始形式,这还是不是一个标准的QP问题。我们继续对该表达式做一些转化和推导:
如上图右边所示,即为标准的QP问题,其中
6 Quadratic Programming for SVR
参数C是用来权衡regularization和tube violation的
参数
ϵ 是表示tube的宽度这个QP问题有
d̂ +1+2N 个变量,2N+2N 个约束
接下来我们要把它转化为对偶问题,并且进行核化,移除对
Support Vector Regression Dual
1 Lagrange Multipliers α∧ & α∨
首先,与SVM对偶形式一样,先令拉格朗日因子
然后,与SVM一样做同样的推导和化简,拉格朗日函数对相关参数偏微分为零,得到相应的KKT条件:
2 SVM Dual and SVR Dual
接下来,通过观察SVM primal与SVM dual的参数对应关系,直接从SVR primal推导出SVR dual的形式。
3 Sparsity of SVR Solution
我们的解
对应的complementary slackness有:
对于在tube里面的点,我们有
从而
进一步可得
从而
对于在tube或者在tube外面的点,
所以SVR的解是稀疏的。
Summary of Kernel Models
1 Map of Linear Models
这部分将对我们介绍过的所有的kernel模型做个概括和总结。我们总共介绍过三种线性模型,分别是PLA/pocket,regularized logistic regression和linear ridge regression。
另外,我们介绍了linear soft-margin SVM,其中的error function是
2 Map of Linear/Kernel Models
将Linear soft-margin SVM核化之后,我们可以得到SVM
将Linear SVR核化之后,我们可以得到SVR
将linear ridge regression核化之后,我们可以得到kernel ridge regression
将regularized logistic regression核化之后,我们可以得到 kernel logistic regression
- probabilistic SVM是先运行标准的SVM。然后利用logistic regression微调
总结:
第一行的算法,我们不常用,是因为表现不好。
第三行的算法,我们不常用,是因为解太稀疏,导致计算量大
- 机器学习基石-Support Vector Regression
- 机器学习基石-Dual Support Vector Machine
- 机器学习笔记-Support Vector Regression(SVR)
- 机器学习技法课程学习笔记6-- Support Vector Regression
- 机器学习基石-Linear Regression
- 机器学习基石-Logistic Regression
- 机器学习基石第九讲:linear regression
- 台湾大学林轩田机器学习技法课程学习笔记6 -- Support Vector Regression
- 台湾国立大学机器学习技法.听课笔记(第六讲):Support Vector Regression
- 林轩田--机器学习技法--SVM笔记6--支持向量回归(Support+Vector+Regression)
- 机器学习之支持向量机 (三) SVM回归模型Support Vector Regression (SVR)
- 机器学习基石笔记9——Linear Regression
- 机器学习基石笔记10——Logistic Regression
- 机器学习基石-09-1-Linear Regression Problem
- 机器学习基石-09-2-Linear Regression Algorithm
- 机器学习基石-09-4-Linear Regression for Binary Classification
- 机器学习基石-10-3-Gradient of Logistic Regression Error
- 机器学习基石-10-1-Logistic Regression Problem
- 运算符 常量与变量 数据类型
- 2017-12-09 杭电OJ2008《数值统计》
- [bzoj1877][网络流-费用流]晨跑
- Bind and aidl
- 嵌入式为什么要引入操作系统
- 机器学习基石-Support Vector Regression
- jsp:useBean的用法
- Kylin的概述
- codeforces 4b
- 网络流 (一) 最大流的原理图解
- recycel布局
- JVM6--双亲委派模型
- tomcat的日志文件权限与启动用户的权限不一致
- HTML之表格