机器学习从零开始系列连载(2)——线性回归
来源:互联网 发布:网络改造方案 编辑:程序博客网 时间:2024/05/17 23:58
作者:张磊
编辑:赵一帆
本周剩余内容:
2. 建模方法回顾
2.0 偏差与方差
2.1 线性回归-Linear Regression
2.1.1 模型原理
2.1.2 损失函数
2.2 支持向量机-Support Vector Machine
2.2.1 模型原理
2.2.2 损失函数
2.2.3 核方法
2.3 逻辑回归-Logistic Regression
2.3.1 模型原理
2.3.2 损失函数
2.4 Bagging and Boosting框架
2.4.1 Bagging框架
2.4.2 Boosting框架
2.5 Additive Tree 模型
2.5.1 Random Forests
2.5.2 AdaBoost with trees
2.5.3 Gradient Boosting Decision Tree
2.5.4 简单的例子
2.6 人工神经网络-Neural Network
2.6.1 神经元
2.6.2 神经网络的常用结构
2.6.3 一个简单的神经网络例子
以通用的监督学习为例,基本包含4个部分:
01
偏差与方差
● 在机器学习算法中,偏差是由先验假设的不合理带来的模型误差,高偏差会导致欠拟合: 所谓欠拟合是指对特征和标注之间的因果关系学习不到位,导致模型本身没有较好的学到历史经验的现象;
● 方差表征的是模型误差对样本发生一定变化时的敏感度,高方差会导致过拟合:模型对训练样本中的随机噪声也做了拟合学习,导致在未知样本上应用时出现效果较差的现象;
● 机器学习模型的核心之一在于其推广能力,即在未知样本上的表现。
对方差和偏差的一种直观解释
一个例子,假如我们有预测模型:
我们希望用f^e(x)估计f(x),如果使用基于square loss 的线性回归,则误差分析如下:
所以大家可以清楚的看到模型学习过程其实就是对偏差和方差的折中过程。
02
模型原理
标准线性回归通过对自变量的线性组合来预测因变量,组合自变量的权重通过最小化训练集中所有样本的预测平方误差和来得到,原理如下。
● 预测函数
● 参数学习-采用最小二乘法
所有机器学习模型的成立都会有一定的先验假设,线性回归也不例外,它对数据做了以下强假设:
● 自变量相互独立,无多重共线性
● 因变量是自变量的线性加权组合:
● 所有样本独立同分布(iid),且误差项服从以下分布:
最小二乘法与以上假设的关系推导如下:
使用MLE(极大似然法)估计参数如下:
线性回归有两个重要变体:
● Lasso Regression:采用L1正则并使用MAP做参数估计
● Ridge Regression:采用L2正则并使用MAP做参数估计
关于正则化及最优化后续会做介绍。
03
损失函数
进一步阅读可参考:Least Squares
https://en.wikipedia.org/wiki/Least_squares
- 机器学习从零开始系列连载(2)——线性回归
- 机器学习从零开始系列连载(1)——基本概念
- 机器学习系列06——线性回归
- 机器学习复习——线性回归
- 机器学习——多元线性回归
- 机器学习——线性回归
- 机器学习入门——线性回归
- 机器学习算法——线性回归
- 机器学习——多元线性回归
- 机器学习笔记——线性回归
- 机器学习笔记——线性回归
- 机器学习笔记—线性回归
- 机器学习—局部加权线性回归
- 机器学习实验—线性回归预测
- Python机器学习与数据分析系列(2)-线性回归
- 机器学习系列:(二)线性回归
- 机器学习系列:(二)线性回归
- 机器学习系列之线性回归
- js判断搜索引擎代码,然后进行调整代码
- Oracle巡检脚本
- 无人车之父Sebastian Thrun:技术小白,也能从零开始造一辆无人车!
- Problem K 素土豆
- 上传项目到码云
- 机器学习从零开始系列连载(2)——线性回归
- 【VUE】使用Table组件进行数据双向绑定
- Paxos的工程实践之Chubby。
- android开发Enum (枚举)的更轻量级的替代方案 —— @IntDef的使用
- spring boot实战(第六篇)加载application资源文件源码分析
- VM 虚拟机屏幕大小的调整
- 两个onCreate()方法
- centos7搭建owncloud私有云
- Deep Learning based Recommender System: A Survey and New Perspectives (2)