机器学习深入与强化--回归分析与工程应用

来源:互联网 发布:mac怎么剪切文件夹 编辑:程序博客网 时间:2024/05/16 10:53

线性回归与逻辑回归

主要是三个概念:损失函数、梯度下降、过拟合与正则化

1、线性回归——连续值变量的预测




学习率太小,收敛很慢;学习率太大,可能会震荡。



过拟合:参数过多,导致失去一般性


解决过拟合的评价问题,对损失函数进行正则化:损失函数不仅考虑预测值与真实值的误差,还考虑到参数θ

(过拟合时,因为曲线会尽可能多的穿过所有的点,使得曲线弯弯曲曲,十分不平滑,会导致参数θ相对比较大,这样才能扭转之前的曲线运动趋势,保证曲线穿过所有不规则分布的点)



逻辑斯特回归:用于分类

线性回归+阈值:用于分类,鲁棒性不够,受噪声影响太大


既然不能用绝对的值进行分类划分,就使用一个相对的值,这个值就是概率。所以将回归预测到的值映射到0-1,表示概率。
sigmod函数可以将任何连续的值映射到0-1之间,综上,逻辑回归就是在找一条判定边界




损失函数:线性回归的损失函数不能用于逻辑斯特回归,否则它损失函数曲线是不光滑的,是跳变的曲线,是非凸函数,不能使用深度下降法找到全局最小值。



损失函数首先希望它是凸函数,如果是一个正样本,如果你强制把它判成负样本,也就是预测的正样本的概率很小,这是它的损失函数就是一个很大的正数损失。这就是互熵损失




LR分类是很基础的一个算法,之后还会学到SVM、GBDT和RandomForest,至于哪个最好,算法很难比较好与坏

一般工业界认为,最简单的东西,如果有效果是最可靠的,因为复杂的东西难以把握。




上图第三点,假如区分容易受照顾的人,那么将年龄离散化,发现老人小孩都需要照顾,从而带来一定非线性

最后一点,因为离散化之后,均变为了0和1,这样就减少了很多的波动点,可以避免过拟合。