【斯坦福《机器学习》笔记】[第2集] 监督学习应用.梯度下降
来源:互联网 发布:天猫数据采集 编辑:程序博客网 时间:2024/05/17 01:03
大纲
- 线性回归(Linear regression)
- 梯度下降(Gradient descent)
- 正规方程组(Normal equations)
1.线性回归
1.1 回归
回归问题:预测目标变量连续的学习问题;
分类问题:预测目标变量只有少数离散值的学习问题。
1.2 记号定义
m —— 训练样本个数(#training examples)
x —— 输入变量/特征(input variables/features)
y —— 输出变量/目标变量(output/target variables)
(x,y) —— 训练样本(training examples)
(x(i),y(i)) —— 第i 个训练样本(ith training example)
h(x) —— 假设(hypothesis)
θ —— 训练参数
1.3 房价问题的假设
假设:
目标,最小二乘:
2.梯度下降
梯度下降过程:
- 初始给定随机
θ 值,如θ=0⃗ - 如下式更新
θ 来减小J(\theta)
θi:=θi−α∂∂θiJ(θ) - 重复2直至收敛
梯度下降在线性回归中的应用:
则每次都用到所有训练样本的”批量梯度下降”公式为:
在训练样本集很大时,批量梯度下降因为每次都用所有的样本来更新参数,训练时间开销很大,一种优化为每次只取一个训练样本,称为“随机梯度下降”:
repeat until convergence {
for j=1 to m {
for all i, θi:=θi−α(hθ(x(j))−y(j))x(j)i
}}
3.正规方程组
3.1 定义引入
矩阵的迹(trace)
在线性代数中,一个n×n的矩阵A的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵A的迹(或迹数),一般记作tr A。
tr A=∑i=1maii
特别说明,实数(即1×1矩阵)的迹等于本身,即tr a=a
迹的性质
tr A=tr AT
tr (A+B)=tr A+tr B
tr aA=a tr A
其中,A和B为方阵,a为实数
矩阵导数
矩阵导数相关事实
∇Atr AB=BT (1)
∇ATf(A)=(∇Af(A))T (2)
∇Atr ABATC=CAB+CTABT (3)
∇A|A|=|A|(A−1)T ,|A|≠0 (4)
结合(2)(3)得 ∇ATtr ABATC=BTATCT+BATC (5)
其中,A、B、C为方阵,a为实数,|A| 表示A 的行列式
3.2 再看最小二乘法
重新表示
其中,
因此,
其中,
第3步依据
第4步依据
第5步依据等式(5)和等式(1),等式(5)中令
为了最小化
因此,最小化
0 0
- 【斯坦福《机器学习》笔记】[第2集] 监督学习应用.梯度下降
- 【机器学习-斯坦福】学习笔记2 - 监督学习应用与梯度下降
- 【机器学习-斯坦福】学习笔记2 - 监督学习应用与梯度下降
- 【机器学习-斯坦福】学习笔记2 - 监督学习应用与梯度下降
- 斯坦福大学公开课 :机器学习课程笔记-[第2集] 监督学习应用.梯度下降
- 【斯坦福---机器学习】复习笔记之监督学习应用.梯度下降
- 斯坦福机器学习公开课学习笔记(2)—监督学习 梯度下降
- [机器学习]斯坦福公开课-第1,2课-监督与非监督矩阵以及梯度下降
- 机器学习笔记二:监督学习应用:梯度下降
- [机器学习]监督学习应用.梯度下降
- 斯坦福机器学习笔记:梯度下降法
- 监督学习应用.梯度下降笔记
- 监督学习应用.梯度下降.
- 监督学习应用-梯度下降
- 监督学习应用.梯度下降.
- Stanford机器学习---第一周.监督学习与梯度下降
- 斯坦福机器学习2:监督学习应用
- 机器学习第二节-监督学习应用.梯度下降
- w7下ecilpse3无法修改字体大小问题
- next数组
- Mo-odsNote2.5
- 贝叶斯网络
- 71. mybatis 如何获取插入的id【从零开始学习SpirngBoot】
- 【斯坦福《机器学习》笔记】[第2集] 监督学习应用.梯度下降
- 第三周项目4 - 顺序表应用
- hdu5890 Eighty seven(DP)
- 72. Spring Boot注解(annotation)列表
- TCP协议及其建立终止
- 73. Spring Data JPA方法定义规范
- [JavaEE - JPA] 1. 事务的基础概念
- Android开发——事件分发机制详解
- 从机器学习谈起