机器学习基础概念理解
来源:互联网 发布:数据监控系统页面 编辑:程序博客网 时间:2024/05/17 21:53
最近在知乎上遇到一个测试题,检验自己对机器学习知识的掌握情况。好吧,觉得自己还没入门了,很多东西都不知道啊!于是乎,就把这些知识点总结下来,以便以后复习。而且,越来越多的信息表明,机器学习算法面试注重基础:算法原理以及背后的思考,自己的想法等等。当然,项目啥的必不可少这是后话了。
问题:https://www.zhihu.com/question/63881885
马氏距离(Mahalanobis距离)
http://blog.csdn.net/jmy5945hh/article/details/20536929
http://eurekastatistics.com/using-mahalanobis-distance-to-find-outliers/
拟合优度指数
https://wenku.baidu.com/view/b76e9ce90975f46526d3e104.html
引导数据的意义
从N个总体中有放回的抽取n个样本
K层交叉验证中k的选取:
更大的k会减少过高估计了真正的预期误差的情况(因为训练层更接近总体数据集),但是会带来更长的运行时间(因为这样会接近留一交叉的极限情况),当选择k的时候,我们也要考虑k层精度之间的方差。
多重共线效应对回归问题的影响
我们进行回归分析需要了解每个自变量对因变量的单纯效应,多重共线性就是说自变量间存在某种函数关系,如果你的两个自变量间(X1和X2)存在函数关系,那么X1改变一个单位时,X2也会相应地改变,此时你无法做到固定其他条件,单独考查X1对因变量Y的作用,你所观察到的X1的效应总是混杂了X2的作用,这就造成了分析误差,使得对自变量效应的分析不准确,所以做回归分析时需要排除多重共线性的影响
解决方法:
去除一个变量而不是都去掉
我们可以计算VIF(方差膨胀因子)来检验多重共线性效应,然后根据情况处理 http://bbs.pinggu.org/thread-3584821-1-1.html
去除相关的变量可能会导致信息的丢失。为了保证数据的完整性,我们应该选取比如岭回归和套索回归等惩罚回归模型。
偏差、方差问题
http://blog.csdn.net/sqiu_11/article/details/75772116
特征选择——信息增益
https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/
支持向量机中参数“C”的作用
http://blog.csdn.net/qll125596718/article/details/6910921
二分类调整阈值对查对率和准确率的影响
http://blog.csdn.net/sqiu_11/article/details/75772116
不平衡数据问题
https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/
http://blog.csdn.net/sqiu_11/article/details/57411803
决策树训练的影响因素
1.树的深度:增加会增加训练时间
2.学习率
3.减少树的数量:一棵
隐马尔科夫模型应用
http://www.cnblogs.com/skyme/p/4651331.html
高维大规模数据训练模型方法
A.我们可以从数据集中随机选取一些样本,在样本上构建模型
B.我们可以尝试联机机器学习算法:Vowpal Wabbit和Spark Limb
C.我们可以用主成分分析来减少特征
减少数据特征方法
1.使用预选的方式
2.使用向后消除的方式
3.首先使用所有特征来计算模型的准确度。我们选择一个特征,然后将测试集的该特征的数值都打乱,然后对打乱过的数据集进行预测。经过对预测模型的分析,如果模型准确率提高,则删掉这个属性(这种方法应对大数据量时非常有效)
4.查找关联性表,关联性高的特征就可以去掉
集成学习算法之间比较
https://www.analyticsvidhya.com/blog/2015/09/questions-ensemble-modeling/
https://mlwave.com/kaggle-ensembling-guide/
https://www.analyticsvidhya.com/blog/2015/08/introduction-ensemble-learning/
在监督的机器学习挑战使用聚类方法
1.我们可以先创建簇,然后在不同簇中分别使用监督机器学习算法。
2.我们在使用监督机器学习算法之前可以把簇的id作为特征空间中额外的特征。
梯度回归树问题
当我们增加用于分割的最小样本数时,我们总是试图得到不会过拟合数据的算法。
当我们增加用于分割的最小样本数时,数据会过拟合。
交叉验证方法比较(时间)
Bootstrapping是一个统计的技术,属于广泛的重采样的范畴,所以只有1个验证集使用了随机采样。
Leave-One-Outcross validation的时间最长,因为我们要n次训练模型(n是观测值的数量)
5Fold cross validation会训练五个模型,而训练时间和观测值数量无关。
2repeats of 5 Fold cross validation则是训练10个模型
线性回归中的R-Squared和Adjusted R-squared
https://discuss.analyticsvidhya.com/t/difference-between-r-square-and-adjusted-r-square/264
树模型的好处
如果数据是非线性的,回归模型就很难处理。而树模型则会展现出很好的效果。
- 机器学习基础概念理解
- 机器学习----基础概念的理解
- 机器学习概念理解
- 机器学习概念理解
- 机器学习基础概念
- 机器学习基础概念
- 机器学习基础概念
- 机器学习之基础概念
- 机器学习的基础概念
- 机器学习算法基础概念学习总结
- 机器学习算法基础概念学习总结
- 机器学习算法基础概念学习总结
- 机器学习算法基础概念学习总结
- 机器学习算法基础概念学习总结
- 机器学习算法基础概念学习总结
- 机器学习算法基础概念学习总结
- 机器学习算法基础概念学习总结
- 机器学习算法基础概念学习总结
- ORA-00918: column ambiguously defined 未明确定义列
- 用jQuery获取复选框选中的当前行的某个字段的值
- Apache Kudu TabletServer迁移
- C#中如何使用redis
- Ubuntu时间问题
- 机器学习基础概念理解
- FragmentPagerAdapter与FragmentStatePagerAdapter区别
- jQuery Mobile学习笔记(十)——扩展框架
- 冒泡、归并、双调排序的GPU实现
- Git 命令公司日常使用讲解
- C# 在编译之后,出现正由另一进程使用,因此该进程无法访问此文件
- 教你云服务器配置到底怎么选?阿里云ECS相关术语汇总
- iOS 第三发库的管理,podfile的升级
- git | github 实践