机器学习总结
来源:互联网 发布:萤石云ddns设备域名 编辑:程序博客网 时间:2024/06/16 17:05
感知器
损失函数为:误分类点到分类超平面的距离。
学习策略:如果某些点被误分类,那么利用误分类点调整权重值,使分类面向误分类点移动。
收敛性:线性可分的,则存在超平面将其分开
svm是加了距离限制的感知机
优点:
1、简单易实现
2、在样本线性可分情况下,学习率合适时,收敛。
缺点:1、只能处理二分类线性可分模型。2、收敛速度慢。
kNN
k值较大时减少估计误差,增大近似误差,估计结果可能不准确。k值较小时,预测值对相邻的点非常敏感。
kd树, ball tree。o(logn)
优点:
1、不需要训练 2、时间复杂度较低 3、适合样本数量较大和类域特征重叠的区域。
缺点:
1、属性较多的情况下,不合适。2、不适合不同类别样本数量不均衡的情况。3、不适合样本密度差异大的情况。4、对K值敏感。
k一般低于训练样本数平方根
朴素贝叶斯
基于贝叶斯定理和特征条件独立的假设。将观测值下属于某一类的概率转换为某一类下观测值的概率
可能出现要估计的概率值为0的情况,因此加上一个偏差值。
优点:分类速度快。
缺点:1、假设,特征条件独立,很难满足。2、如果数据量较少时,概率估计不准确。
决策树
损失函数:正则化的极大似然函数
学习策略:最小化目标函数
NP 完全问题:非确定性多项式时间可解的问题。启发式方法求解。
特征选择:信息增益和信息增益比(信息增益容易偏向于选择取值较多的特征,此时样本较纯,增益较大)。除以关于特征A的熵,属性的重要性随着内在信息的增大而减小。
生成:ID3(利用信息增益选择)结束条件:信息增益小于阈值或者所有实例属于同一类,
C4.5:利用信息增益比选择特征。
剪枝:极小化损失函数。经验熵,对每个节点每类别的样本进行熵的计算。
CART算法:可以用来分类或者回归。回归:基尼指数最小
随机森林:随机有放回的抽样,训练数据可以重复;随机选择特征;生成一系列决策树进行投票。
优点:
1、易于实现。2、不需要提前剔除不必要的特征。3、对确实值不敏感。4、可处理不相关特征的数据。5、效率高,一次构建。
缺点:
1、类别太多时,表现不好。2、不便处理相关性较强的特征。
逻辑斯蒂回归:
通过比较概率值的大小,分到概率大的一类。对数线性模型
- 机器学习总结
- 机器学习总结
- 机器学习总结
- 机器学习脉络总结
- 机器学习总结
- 机器学习资料总结
- 机器学习总结
- 机器学习总结
- 机器学习面试总结
- 机器学习总结
- 机器学习总结
- 机器学习博客总结
- 机器学习资源总结
- 机器学习_week1总结
- 机器学习算法 总结
- 机器学习总结(1)
- 机器学习总结一
- 机器学习算法总结
- tomcat类加载器找不到jar包中的类问题分析与解决思路
- Android获取验证码倒计时封装工具
- 大三软件工程小项目-小技术集合-3DES加密及解密
- SpringMVC
- 类模板实现栈
- 机器学习总结
- 2017! 10 年! 新起点!
- BZOJ 1101 [POI2007]Zap 莫比乌斯反演
- classLoader
- Hibernate Criteria多表查询
- Sahi 使用技巧4-iframe、下载文件、模态框、访问不了网页的处理
- workbench安装教程
- 内存的堆分配和栈分配 & 字符数组,字符指针,Sizeof总结
- 影响hashMap性能的因素