机器学习面试2

来源:互联网 发布:数控编程培训靠谱吗 编辑:程序博客网 时间:2024/06/06 09:19

机器学习中正则化项L1和L2的直观理解

原文网址:http://blog.csdn.net/jinping_shi/article/details/52433975

L1正则化和L2正则化可以看做是损失函数的惩罚项。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,因此可以用于特征选择
L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合

如果代入一些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小(因为它们前面的系数是0或者是很小的值,即使去掉对模型也没有什么影响),此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。
拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『抗扰动能力强』。

牛顿法与拟牛顿法学习笔记(四)BFGS 算法(考)

原文网址:http://blog.csdn.net/itplus/article/details/21897443

SGD和拟牛顿法区别:http://www.cnblogs.com/jmliunlp/p/3781841.html

嗨森矩阵和逆矩阵:http://www.wengweitao.com/niu-dun-fa.html

岭回归或者PCA可以解决多重共线性问题?

可以参考: http://www.mamicode.com/info-detail-1146481.html

多重共线性问题可能导致模型参数增加,使得模型变得很复杂。
当数据中出现x_2 = k*x_1 共线性问题时,X是低秩的,|X^T X|约等于0
关于岭回归的解参考:http://baike.baidu.com/link?url=VRknRMiItJWZIaIO9LIMNu4JWZipF8stT6EKMVGiTDlYsz9jOgf4nUjn6z5LN0Qen8Ka1MZBEioRws39n11R5cDwYNDMItFAkk04srI_VOIqb1GWeWT-8U5J4Qop_xl6

如果不用岭回归这里写图片描述

|X^T X|约等于0,求解逆的过程不稳定,计算机精度原因。所以用岭回归能解决

SVM为什么要用对偶,以及对偶的求解?

并不一定要用拉格朗日对偶。
要注意用拉格朗日对偶并没有改变最优解,而是改变了算法复杂度:在原问题下,求解算法的复杂度与样本维度(等于权值w的维度)有关;而在对偶问题下,求解算法的复杂度与样本数量(等于拉格朗日算子a的数量)有关。
因此,如果你是做线性分类,且样本维度低于样本数量的话,在原问题下求解就好了,Liblinear之类的线性SVM默认都是这样做的;但如果你是做非线性分类,那就会涉及到升维(比如使用高斯核做核函数,其实是将样本升到无穷维),升维后的样本维度往往会远大于样本数量,此时显然在对偶问题下求解会更好。

作者:一氧化二氢货
链接:https://www.zhihu.com/question/36694952/answer/69737932
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

核函数的原理?

根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。采用核函数技术可以有效地解决这样问题。
参考:http://blog.sina.com.cn/s/blog_5dd2e9270100bs2z.html

lightGBM为什么比xgboost快:

参考网址: http://msra.cn/zh-cn/news/blogs/2017/01/lightgbm-20170105.aspx

0 0
原创粉丝点击