机器学习基础概念理解

来源：互联网发布：数据监控系统页面编辑：程序博客网时间：2024/05/17 21:53

最近在知乎上遇到一个测试题，检验自己对机器学习知识的掌握情况。好吧，觉得自己还没入门了，很多东西都不知道啊！于是乎，就把这些知识点总结下来，以便以后复习。而且，越来越多的信息表明，机器学习算法面试注重基础：算法原理以及背后的思考，自己的想法等等。当然，项目啥的必不可少这是后话了。

问题：https://www.zhihu.com/question/63881885

马氏距离(Mahalanobis距离)

http://blog.csdn.net/jmy5945hh/article/details/20536929

http://eurekastatistics.com/using-mahalanobis-distance-to-find-outliers/

拟合优度指数

https://wenku.baidu.com/view/b76e9ce90975f46526d3e104.html

引导数据的意义

从N个总体中有放回的抽取n个样本

K层交叉验证中k的选取：

更大的k会减少过高估计了真正的预期误差的情况（因为训练层更接近总体数据集），但是会带来更长的运行时间（因为这样会接近留一交叉的极限情况），当选择k的时候，我们也要考虑k层精度之间的方差。

多重共线效应对回归问题的影响

我们进行回归分析需要了解每个自变量对因变量的单纯效应，多重共线性就是说自变量间存在某种函数关系，如果你的两个自变量间（X1和X2）存在函数关系，那么X1改变一个单位时，X2也会相应地改变，此时你无法做到固定其他条件，单独考查X1对因变量Y的作用，你所观察到的X1的效应总是混杂了X2的作用，这就造成了分析误差，使得对自变量效应的分析不准确，所以做回归分析时需要排除多重共线性的影响

解决方法：

去除一个变量而不是都去掉
我们可以计算VIF（方差膨胀因子）来检验多重共线性效应，然后根据情况处理 http://bbs.pinggu.org/thread-3584821-1-1.html
去除相关的变量可能会导致信息的丢失。为了保证数据的完整性，我们应该选取比如岭回归和套索回归等惩罚回归模型。

偏差、方差问题

http://blog.csdn.net/sqiu_11/article/details/75772116

特征选择——信息增益

https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/

支持向量机中参数“C”的作用

http://blog.csdn.net/qll125596718/article/details/6910921

二分类调整阈值对查对率和准确率的影响

http://blog.csdn.net/sqiu_11/article/details/75772116

不平衡数据问题

https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/

http://blog.csdn.net/sqiu_11/article/details/57411803

决策树训练的影响因素

1.树的深度：增加会增加训练时间

2.学习率

3.减少树的数量：一棵

隐马尔科夫模型应用

http://www.cnblogs.com/skyme/p/4651331.html

高维大规模数据训练模型方法

A.我们可以从数据集中随机选取一些样本，在样本上构建模型

B.我们可以尝试联机机器学习算法：Vowpal Wabbit和Spark Limb

C.我们可以用主成分分析来减少特征

减少数据特征方法

1.使用预选的方式

2.使用向后消除的方式

3.首先使用所有特征来计算模型的准确度。我们选择一个特征，然后将测试集的该特征的数值都打乱，然后对打乱过的数据集进行预测。经过对预测模型的分析，如果模型准确率提高，则删掉这个属性(这种方法应对大数据量时非常有效)

4.查找关联性表，关联性高的特征就可以去掉

集成学习算法之间比较

https://www.analyticsvidhya.com/blog/2015/09/questions-ensemble-modeling/

https://mlwave.com/kaggle-ensembling-guide/

https://www.analyticsvidhya.com/blog/2015/08/introduction-ensemble-learning/

在监督的机器学习挑战使用聚类方法

1.我们可以先创建簇，然后在不同簇中分别使用监督机器学习算法。

2.我们在使用监督机器学习算法之前可以把簇的id作为特征空间中额外的特征。

梯度回归树问题

当我们增加用于分割的最小样本数时，我们总是试图得到不会过拟合数据的算法。

当我们增加用于分割的最小样本数时,数据会过拟合。

交叉验证方法比较(时间)

Bootstrapping是一个统计的技术，属于广泛的重采样的范畴，所以只有1个验证集使用了随机采样。

Leave-One-Outcross validation的时间最长，因为我们要n次训练模型（n是观测值的数量）

5Fold cross validation会训练五个模型，而训练时间和观测值数量无关。

2repeats of 5 Fold cross validation则是训练10个模型

线性回归中的R-Squared和Adjusted R-squared

https://discuss.analyticsvidhya.com/t/difference-between-r-square-and-adjusted-r-square/264

树模型的好处

如果数据是非线性的，回归模型就很难处理。而树模型则会展现出很好的效果。

阅读全文

0 0