机器学习基础概念理解

来源:互联网 发布:数据监控系统页面 编辑:程序博客网 时间:2024/05/17 21:53

最近在知乎上遇到一个测试题,检验自己对机器学习知识的掌握情况。好吧,觉得自己还没入门了,很多东西都不知道啊!于是乎,就把这些知识点总结下来,以便以后复习。而且,越来越多的信息表明,机器学习算法面试注重基础:算法原理以及背后的思考,自己的想法等等。当然,项目啥的必不可少这是后话了。

问题:https://www.zhihu.com/question/63881885

 

马氏距离(Mahalanobis距离)

http://blog.csdn.net/jmy5945hh/article/details/20536929

http://eurekastatistics.com/using-mahalanobis-distance-to-find-outliers/

拟合优度指数

https://wenku.baidu.com/view/b76e9ce90975f46526d3e104.html

引导数据的意义

N个总体中有放回的抽取n个样本

K层交叉验证中k的选取:

更大的k会减少过高估计了真正的预期误差的情况(因为训练层更接近总体数据集),但是会带来更长的运行时间(因为这样会接近留一交叉的极限情况),当选择k的时候,我们也要考虑k层精度之间的方差。

多重共线效应对回归问题的影响

我们进行回归分析需要了解每个自变量对因变量的单纯效应,多重共线性就是说自变量间存在某种函数关系,如果你的两个自变量间(X1X2)存在函数关系,那么X1改变一个单位时,X2也会相应地改变,此时你无法做到固定其他条件,单独考查X1对因变量Y的作用,你所观察到的X1的效应总是混杂了X2的作用,这就造成了分析误差,使得对自变量效应的分析不准确,所以做回归分析时需要排除多重共线性的影响

      解决方法:

  1. 去除一个变量而不是都去掉

  2. 我们可以计算VIF(方差膨胀因子)来检验多重共线性效应,然后根据情况处理 http://bbs.pinggu.org/thread-3584821-1-1.html

  3. 去除相关的变量可能会导致信息的丢失。为了保证数据的完整性,我们应该选取比如岭回归和套索回归等惩罚回归模型。

偏差、方差问题

http://blog.csdn.net/sqiu_11/article/details/75772116

特征选择——信息增益

https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/

支持向量机中参数“C”的作用

http://blog.csdn.net/qll125596718/article/details/6910921

二分类调整阈值对查对率和准确率的影响

http://blog.csdn.net/sqiu_11/article/details/75772116

不平衡数据问题

https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/

http://blog.csdn.net/sqiu_11/article/details/57411803 

决策树训练的影响因素

1.树的深度:增加会增加训练时间

2.学习率

3.减少树的数量:一棵

隐马尔科夫模型应用

http://www.cnblogs.com/skyme/p/4651331.html

高维大规模数据训练模型方法

A.我们可以从数据集中随机选取一些样本,在样本上构建模型

B.我们可以尝试联机机器学习算法:Vowpal WabbitSpark Limb

C.我们可以用主成分分析来减少特征

减少数据特征方法

1.使用预选的方式

2.使用向后消除的方式

3.首先使用所有特征来计算模型的准确度。我们选择一个特征,然后将测试集的该特征的数值都打乱,然后对打乱过的数据集进行预测。经过对预测模型的分析,如果模型准确率提高,则删掉这个属性(这种方法应对大数据量时非常有效)

4.查找关联性表,关联性高的特征就可以去掉

集成学习算法之间比较

https://www.analyticsvidhya.com/blog/2015/09/questions-ensemble-modeling/

https://mlwave.com/kaggle-ensembling-guide/

https://www.analyticsvidhya.com/blog/2015/08/introduction-ensemble-learning/

 

在监督的机器学习挑战使用聚类方法

1.我们可以先创建簇,然后在不同簇中分别使用监督机器学习算法。

2.我们在使用监督机器学习算法之前可以把簇的id作为特征空间中额外的特征。

梯度回归树问题

当我们增加用于分割的最小样本数时,我们总是试图得到不会过拟合数据的算法。

当我们增加用于分割的最小样本数时,数据会过拟合。

交叉验证方法比较(时间)

Bootstrapping是一个统计的技术,属于广泛的重采样的范畴,所以只有1个验证集使用了随机采样。

Leave-One-Outcross validation的时间最长,因为我们要n次训练模型(n是观测值的数量)

5Fold cross validation会训练五个模型,而训练时间和观测值数量无关。

2repeats of 5 Fold cross validation则是训练10个模型

线性回归中的R-SquaredAdjusted R-squared

https://discuss.analyticsvidhya.com/t/difference-between-r-square-and-adjusted-r-square/264

树模型的好处

如果数据是非线性的,回归模型就很难处理。而树模型则会展现出很好的效果。




原创粉丝点击