【炼数成金-机器学习笔记】

来源:互联网 发布:网络时间参数计算例题 编辑:程序博客网 时间:2024/06/16 17:49

1.相关系数



2.虚拟变量



3.做回归之前要用样本检验函数看看是否符合正态分布,如果不符合是不能做回归的。
数据之间差异太大可以考虑对数据进行log变换。


4.多元线性回归



5.回归诊断

多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确

使用散点图目测检验。


6.残差



7.非线性模型
log,指数函数,多项式函数,幂函数


8.岭回归


岭回归类似于在样本里加扰动。
有偏性是岭回归估计的一个重要特征。


9.岭迹图







10.Lasso

通过构造一个一阶惩罚函数获得一个精炼癿模型;通过最终确定一些指标(变量)癿系数为零(岭回归估计系数等于0癿机会微乎其微,造成筛选变量困难),解释力很强。
擅长处理具有多重共线性癿数据,不岭回归一样是有偏估计









11. LAR最小角回归








12.如果样本存在多重共线性,矩阵行列式为0或者接近0,求矩阵逆不准确,无法求或者很容易受干扰。

13.主成份分析的另一种解释
通过旋转,使变量方差最大的在左边上。
沿着某方向,样本特征方差最大。

主成份分析:侧重“变异量”,也就是数据的分散程度。将数据重新组合后样本间差异最大化。但得出来的主成份往往后难从业务场景的角度解释。

因子分析:更重视相关变量的“共变异量”,组合的是相关性较强的原始变量,目的是找到背后起作用的少量关键因子,容易进行业务分析。结果还可以进行因子旋转,使业务意义更加明显。
X= u+AF+n

14.组合方法
优势:
1)能提高准确率
2)对误差和噪声更加鲁棒
3)一定程度抵消过度拟合
4)适合并行化

bagging
有放回抽样,在概率上条件独立。
自助样本(boostrap):从原数据集中有放回抽样得到新的数据集。
创建k个模型
多数表决

boosting算法
训练集中元祖分配权重,倾向于重点关注分错的数据
由分类器的准确率决定分类器的权重
容易过拟合。准确率可以比bagging高。

adaboost算法:boosting加强版

随机森林
有放回抽样
参与构建决策树的变量也是随机抽出,参与变量数通常大大小于可用变量数。
使用CART算法,不剪枝
多数表决
优点:
准确率与adaboost差不多
鲁棒
过拟合问题少
易并行化

15.性能评估函数
MAE:平均绝对误差,误差绝对值的平均值
MSE:均方误差,误差平方的平均值
SSE:误差平方和






0 0
原创粉丝点击