机器学习相关知识速查
来源:互联网 发布:ppt软件 编辑:程序博客网 时间:2024/06/14 00:30
机器学习相关概念
- 机器学习相关概念
- 线性代数
- 张量
- 生成子空间
- 范数
- 特征分解
- 奇异值分解SVD
- Moore-Penrose 伪逆
- 迹运算
- 概率与信息论
- 概率
- 随机变量
- 概率分布
- 边缘概率
- 条件概率
- 条件概率链式法则
- 条件独立与独立性
- 期望方差协方差
- 常用概率分布
- 伯努利分布Bernoulli
- Multi-nouli 多项式分布
- 正态高斯分布
- 指数分布与拉普拉斯laplace分布
- Dirac 分布与经验分布
- 常用函数
- 贝叶斯规则
- 高维空间的微分扩展 - Jacobian 矩阵
- 深度学习
- 标准化
- L1 L2 loss
- 强化学习
- 网络结构
博主不断学习中,部分内容不准确还望提出指正
线性代数
张量
- 张量(tensor):超过2维的数组
生成子空间
- 生成子空间(span): 原始向量
线性组合
后能抵达点的集合(特殊 矩阵列向量
生成的子空间为该方程式的值域
) - 只有一个解的阵 A,其解为
A−1 .满足的这种阵要求- 方阵
- 所有列向量线性无关
范数
- 范数用于测量两个矢量间的距离。或单独向量的大小
Lp 范数
定义如下||x||p=(∑i|xi|p)1p L2范数
:也叫欧几里得范数
。表示从原点出发到该向量的欧式距离
。L22 范数可简化为||x|| ,可通过向量间点积
计算:wTx - L2范数在原点附近增长缓慢,此时需采用 L1范数计算
L1范数
:.比较0与非0元素差异是常用||x||1=∑i|xi| - 最大范数:
L∞ 范数:表示向量中最大幅值的元素的绝对值(就是argmax 函数)||x||∞=maxi|xi| - 弗罗贝尼乌斯范数:又称 Frobenius 范数。用于测量矩阵的大小或矩阵间的差异。
||A||F=∑i,jA2i,j‾‾‾‾‾‾√ - 点积用范数表示:
xTy=||x||2||y||2cosθ
特征分解
- 特征向量:一个向量
v 满足Av=λv - 这里 V 为特征向量阵,diag(
A=Vdiag(λ)V−1 λ )为特征值阵 - 构建特定特征值与特征向量的矩阵可以使我们在目标方向上延伸空间
奇异值分解SVD
- 提供了新的分解模式
奇异向量
+奇异值
A=UDVT - 这里若 A 为 (m,n).则 U为(m,m) V 为(n,n)D 为(m,n)
- U与 V全都定义为正交阵,D 为对角阵。
- D 对角线上元素称为 A 阵的
奇异值
- U 的列向量为 A 的
左奇异向量
- V 的列向量为 A 的
右奇异向量
- SVD 将求逆扩展到非方阵上。(
伪逆
)
Moore-Penrose 伪逆
- 目的:希望给阵 A 找到个左逆B 使得原
Ax=y 变为x=By - 定义:
A+=VD+UT - U,V 为 A 的左右奇异阵
D+ 是将,奇异分解的 D 通过对内部非零元素取倒数后再转置得到的
- 特性:
- 当
m<n 时,伪逆得到的线性方程的解是众多解的一种。特别的将得到的将是所有解中2范数最小的x=A+y - 当
m>n 时,此时组成的线性方程本身可能无解。此时通过伪逆
得到的 x 是使得Ax 与 y 欧氏距离最小的一个。
- 当
迹运算
- 迹:返回对角线元素和
Tr(A)=∑iAi,j - 迹的最重要特性是不用求和符号即可描述运算
- 例:用迹描述 F 范数
||x||F=Tr(AAT)‾‾‾‾‾‾‾‾√
- 例:用迹描述 F 范数
- 迹的特性
Tr(A)=Tr(AT) Tr(ABC)=Tr(BCA)=Tr(CAB) 也就是 将相乘矩阵最后一位挪到最前,其迹不变。常用Tr(AB)=Tr(BA) - 标量的迹为标量值本身
概率与信息论
概率
- 频率派概率:概率表示一种信任度
- 贝叶斯概率:概率表示确定性水平
随机变量
- 随机变量:可以随机取不同值的变量
概率分布
离散型分布
可使用概率质量函数
P(x),P(y) .注意 这里虽然函数名一样均为 P,但这两个意味不同的概率函数- 联合多个变量的概率分布为
联合概率分布
。表示这两个变量同时发生时的概率 - 当多个变量归于一个概率分布时,他们的综合为1。记为:
∑x∈xP(x)=1 连续型随机变量
可使用概率密度函数
。使用条件- p 的定义域为全部可能状态集合
∀x∈x ,P(x)≥0 ∫p(x)dx=1 - 注意这里没有直接给每个情况的具体分布。具体情况分布为无限小区域的微分
- 使用
x ~U(a,b) 表示密度分布 x 是均匀分布的。
边缘概率
- 求联合分布中子集的分布情况为
边缘概率分布
。方法:∀x∈x, P(x=x) =∑yP(x=x, y=y) - 对于连续型变量,使用积分方法
p(x)=∫p(x,y)dy
条件概率
- 某个事件发生
时
,其他事件发生的概率 计算方法P(y=y|x=x)=P(y=y,x=x)P(x=x)
注意这里是时
不是后
.两者的联系相对松散,一个不会影响另一个
条件概率链式法则
- 表示:
P(x(1),x(2),x(3)...)=P(x(1))P(x(2)|x(1))P(x(3)|x(1),x(2)) - 描述 在 a,b,c 的联合概率也就是 a 发生的概率* b 在a 情况时发生的概率 *c 在a b 情况都发生的情况下 c 发生的概率
条件独立与独立性
- 独立性为两者情况互不关联,两者都发生的概率等于两者单独发生概率的乘积
- 条件独立性在上述情况下是在一定条件 z 下相互不关联
期望,方差,协方差
- 期望 E:当 x由 P 产生,f 作用于 x 时,f(x)的平均值
- 离散型
E=∑xP(x)f(x) - 连续型
E=∫p(x)f(x)dx
- 离散型
- 期望是线性的
E[αEf(x)+βEg(x)]=αE[f(x)]+βE[g(x)] - 方差:表现 x依据其概率分布时
f(x) 与E(x) 的偏差程度,计算方法为:注意这里的最外层还要求个期望,原因。期望中各部分出现的概率本身也不同。Var(f(x))=E[(f(x)−E[f(x)])2] - 标准差: 方差的平方根
- 协方差:衡量两个变量的线性相关程度:.
Cov(f(x),g(y))=E[(f(x)−E(f(x)))(g(y)−E[g(y)])] - 绝对值如果很大:两个变量值的变化大,且他们距离自己的期望远。但如果是0 证明两个变量线性无关的。
- 协方差的正负性决定了两个变量是正相关还是负相关
- 注意区分线性相关与独立性的区别
- 协方差阵:
- 定义
Cov(x)i,j=Cov(xi,xj) - 对角线元为 为 i 元的方差。
- 定义
常用概率分布
伯努利分布(Bernoulli)
- 单个2值随机变量分布。变量只有0,1两种状态。若
ϕ 为等于1概率P(x=1)=ϕ P(x=0)=1−ϕ P(x=x)=ϕx(1−ϕ)1−x E[x]=ϕ Var(x)=ϕ(1−ϕ)
Multi-nouli (多项式)分布
- k 个不同状态的离散随机变量的分布
- 一般给定一个向量
p∈[0,1]k−1 - 最后一个状态的概率为
1−1Tp 给出
正态(高斯)分布
μ 决定中心峰值坐标σ2 决定分布方差- 标准正态分布
μ=0,σ=1 E[N]=μ - 方差的倒数为
精度
。这里使用参数β 控制精度N(x;μ,β−1)=β2π‾‾‾‾√exp(−12β(x−μ)2)
指数分布与拉普拉斯(laplace)分布
- 如果我们需要在
λ 作为参数,指的单位时间发生该事件的次数- 特点
无记忆性
,x 不会存在负分布 性能:
laplace 函数可以理解为对称的指数分布函数
同时
μ 决定了对称中心的位置。
Dirac 分布与经验分布
- 这里的
σ 为Dirac delta
函数。它被定义为除了0点外所有的函数值均为0μ 用于移动密度核中心 - 特性:质量全部分布在一点
- 经常作为经验分布的一部分
p̂ (x)=1m∑i=1mσ(x−x(i)) - 经验分布指明了采样来源的分布,同时也指明了训练数据似然最大的概率密度
常用函数
- sigmoid 函数:
σ(x)=11+e−x - 常用于生成伯努利分布的
ϕ - 在 x 绝对值大时会出现饱和现象
- 对 x 微小变化不敏感
- 常用于生成伯努利分布的
- softplus 函数:
ς(x)=lg(1+ex) - 常用于产生正态分布的
β 和σ 参数 - 同时也是 ReLu 函数的软化形式
- 常用于产生正态分布的
- 重要性质
σ(x)=exex+e0 ddxσ(x)=σ(x)(1−σ(x)) 1−σ(x)=σ(−x) logσ(x)=−ς(−x) ddxς(x)=σ(x) ∀x∈(0,1),σ−1(x)=log(x1−x) ∀x>0,ς−1(x)=log(ex−1) ς(x)=∫x−∞σ(y)dy ς(x)−ς(−x)=x
最后一个特性提供了正负部函数可复原的特性
贝叶斯规则
- 这里面出现了 P(y),但实际上
- 用于已知
高维空间的微分扩展 - Jacobian 矩阵
其中矩阵的
深度学习
标准化
- 2范数标准化
∥x∥=np.linalg.norm(x,axis=1,keepdims=True)
其中||x||=∑x2i‾‾‾‾‾‾√
L1 L2 loss
- L1 loss
L1(ŷ ,y)=∑i=0m|y(i)−ŷ (i)| - 预测值 (
ŷ ) - 真实值 (
y )
- 预测值 (
- L2 loss
L2(ŷ ,y)=∑i=0m(y(i)−ŷ (i))2 - 预测值 (
ŷ ) - 真实值 (
y )
- 预测值 (
L1与 L2 的区别 外部资料
强化学习
待续
网络结构
- mean-max pooling
- 分别作meanpooling 和 max pooling
- 加和然后除以二
阅读全文
0 0
- 机器学习相关知识速查
- 机器学习相关知识
- 机器学习相关知识
- 机器学习相关知识
- 机器学习相关知识
- 机器学习相关知识
- 机器学习常用「线性代数」知识速查手册
- 机器学习、图像相关知识图谱
- 机器学习概念速查
- Mitchell机器学习-决策树学习中信息论的相关知识
- 【机器学习】coursera学习笔记(二) 线性代数相关知识
- 数据挖掘相关的机器学习知识汇总(不断更新)
- 【机器学习】ICA 原理以及相关概率论,信息论知识简介
- python机器学习算法速查
- Python机器学习算法速查
- 机器学习性能改善速查
- 机器学习基本数学概念速查
- 机器学习知识导入
- 数据库连接(C++)
- HTTP
- 步长加速法
- 安装jar到Maven库中
- 物联网体系介绍二:协议
- 机器学习相关知识速查
- JS的null和undefined
- hibernate持久化类&持久化对象(五)
- Python笔记1:Python环境的搭建
- 物联网体系介绍三:常见的开源操作系统
- Java学习——日期时间
- spring framework体系结构及内部各模块jar之间的maven依赖关系
- MySQL5.6 (5.7)数据库主从(Master/Slave)同步安装与配置详解
- 解决Mybatis连接Sql server 出现 Cannot load JDBC driver class 'com.mysql.jdbc.Driver '的问题