机器学习相关知识速查

来源：互联网发布：ppt软件编辑：程序博客网时间：2024/06/14 00:30

机器学习相关概念

机器学习相关概念
线性代数
- 张量
- 生成子空间
- 范数
- 特征分解
- 奇异值分解SVD
- Moore-Penrose 伪逆
- 迹运算
概率与信息论
- 概率
- 随机变量
- 概率分布
- 边缘概率
- 条件概率
- 条件概率链式法则
- 条件独立与独立性
- 期望方差协方差
- 常用概率分布
  - 伯努利分布Bernoulli
  - Multi-nouli 多项式分布
  - 正态高斯分布
  - 指数分布与拉普拉斯laplace分布
- Dirac 分布与经验分布
- 常用函数
- 贝叶斯规则
- 高维空间的微分扩展 - Jacobian 矩阵
深度学习
- 标准化
- L1 L2 loss
强化学习
网络结构

博主不断学习中，部分内容不准确还望提出指正

线性代数

张量

张量(tensor)：超过2维的数组

生成子空间

生成子空间(span): 原始向量线性组合后能抵达点的集合（特殊矩阵列向量生成的子空间为该方程式的值域）
只有一个解的阵 A，其解为 A−1.满足的这种阵要求
1. 方阵
2. 所有列向量线性无关

范数

范数用于测量两个矢量间的距离。或单独向量的大小
Lp 范数定义如下
$| | x | | p = (\sum i | x i | p) 1 p$
L2范数：也叫欧几里得范数。表示从原点出发到该向量的欧式距离。L22范数可简化为||x||，可通过向量间点积计算：wTx
- L2范数在原点附近增长缓慢，此时需采用 L1范数计算
L1范数： $| | x | | 1 = \sum i | x i |$ .比较0与非0元素差异是常用
最大范数：L∞范数：表示向量中最大幅值的元素的绝对值(就是argmax函数)
$| | x | | \infty = max i | x i |$
弗罗贝尼乌斯范数：又称 Frobenius 范数。用于测量矩阵的大小或矩阵间的差异。
$| | A | | F = \sum i, j A 2 i, j ‾ ‾ ‾ ‾ ‾ ‾ \sqrt$
点积用范数表示： $x T y = | | x | | 2 | | y | | 2 c o s θ$

特征分解

特征向量：一个向量v满足 $A v = λ v$
$A = V d i a g (λ) V - 1$ 这里 V 为特征向量阵，diag(λ)为特征值阵
构建特定特征值与特征向量的矩阵可以使我们在目标方向上延伸空间

奇异值分解SVD

提供了新的分解模式奇异向量+奇异值
A=UDVT
- 这里若 A 为 (m,n).则 U为(m,m) V 为(n,n)D 为（m,n）
- U与 V全都定义为正交阵，D 为对角阵。
- D 对角线上元素称为 A 阵的奇异值
- U 的列向量为 A 的左奇异向量
- V 的列向量为 A 的右奇异向量
SVD 将求逆扩展到非方阵上。(伪逆)

Moore-Penrose 伪逆

目的：希望给阵 A 找到个左逆B 使得原Ax=y变为x=By
定义：A+=VD+UT
- U,V 为 A 的左右奇异阵
- D+是将，奇异分解的 D 通过对内部非零元素取倒数后再转置得到的
特性：
- 当m<n时，伪逆得到的线性方程的解是众多解的一种。特别的将 $x = A + y$ 得到的将是所有解中2范数最小的
- 当m>n时，此时组成的线性方程本身可能无解。此时通过伪逆得到的 x 是使得Ax与 y 欧氏距离最小的一个。

迹运算

迹:返回对角线元素和 $T r (A) = \sum i A i, j$
迹的最重要特性是不用求和符号即可描述运算
- 例：用迹描述 F 范数 $| | x | | F = T r (A A T) ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt$
迹的特性
- Tr(A)=Tr(AT)
- Tr(ABC)=Tr(BCA)=Tr(CAB) 也就是将相乘矩阵最后一位挪到最前，其迹不变。常用Tr(AB)=Tr(BA)
- 标量的迹为标量值本身

概率与信息论

概率

频率派概率：概率表示一种信任度
贝叶斯概率：概率表示确定性水平

随机变量

随机变量：可以随机取不同值的变量

概率分布

离散型分布可使用概率质量函数 P(x),P(y).注意这里虽然函数名一样均为 P，但这两个意味不同的概率函数
联合多个变量的概率分布为联合概率分布。表示这两个变量同时发生时的概率
当多个变量归于一个概率分布时，他们的综合为1。记为：∑x∈xP(x)=1
连续型随机变量可使用概率密度函数。使用条件
- p 的定义域为全部可能状态集合
- ∀x∈x,P(x)≥0
- ∫p(x)dx=1
- 注意这里没有直接给每个情况的具体分布。具体情况分布为无限小区域的微分
使用x~U(a,b) 表示密度分布 x 是均匀分布的。

边缘概率

求联合分布中子集的分布情况为边缘概率分布。方法：∀x∈x,P(x=x)=∑yP(x=x,y=y)
对于连续型变量，使用积分方法 $p (x) = \int p (x, y) d y$

条件概率

某个事件发生时，其他事件发生的概率计算方法
$P (y = y | x = x) = P ( y = y , x = x ) P ( x = x )$
注意这里是时不是后.两者的联系相对松散，一个不会影响另一个

条件概率链式法则

表示： $P (x (1), x (2), x (3) . . .) = P (x (1)) P (x (2) | x (1)) P (x (3) | x (1), x (2))$
描述在 a，b,c 的联合概率也就是 a 发生的概率* b 在a 情况时发生的概率 *c 在a b 情况都发生的情况下 c 发生的概率

条件独立与独立性

独立性为两者情况互不关联，两者都发生的概率等于两者单独发生概率的乘积
条件独立性在上述情况下是在一定条件 z 下相互不关联

期望，方差，协方差

期望 E：当 x由 P 产生，f 作用于 x 时，f(x)的平均值
- 离散型 $E = \sum x P (x) f (x)$
- 连续型 $E = \int p (x) f (x) d x$
期望是线性的 $E [α E f (x) + β E g (x)] = α E [f (x)] + β E [g (x)]$
方差：表现 x依据其概率分布时f(x)与E(x)的偏差程度，计算方法为：
$V a r (f (x)) = E [(f (x) - E [f (x)]) 2]$ 注意这里的最外层还要求个期望，原因。期望中各部分出现的概率本身也不同。
标准差：方差的平方根
协方差：衡量两个变量的线性相关程度：
Cov(f(x),g(y))=E[(f(x)−E(f(x)))(g(y)−E[g(y)])]
.
- 绝对值如果很大：两个变量值的变化大，且他们距离自己的期望远。但如果是0 证明两个变量线性无关的。
- 协方差的正负性决定了两个变量是正相关还是负相关
- 注意区分线性相关与独立性的区别
协方差阵：
- 定义 $C o v (x) i, j = C o v (x i, x j)$
- 对角线元为为 i 元的方差。

常用概率分布

伯努利分布(Bernoulli)

单个2值随机变量分布。变量只有0，1两种状态。若ϕ为等于1概率
$P (x = 1) = ϕ$
$P (x = 0) = 1 - ϕ$
$P (x = x) = ϕ x (1 - ϕ) 1 - x$
$E [x] = ϕ$
$V a r (x) = ϕ (1 - ϕ)$

Multi-nouli (多项式)分布

k 个不同状态的离散随机变量的分布
一般给定一个向量 p∈[0,1]k−1
最后一个状态的概率为 1−1Tp给出

正态（高斯）分布

高斯分布图

N (x; μ, σ 2) = 1 2 π σ 2 ‾ ‾ ‾ ‾ ‾ ‾ \sqrt e x p (- 1 2 σ 2 (x - μ) 2)

μ决定中心峰值坐标 σ2决定分布方差
标准正态分布μ=0,σ=1
E[N]=μ
方差的倒数为精度。这里使用参数β控制精度
$N (x; μ, β - 1) = β 2 π ‾ ‾ ‾ ‾ \sqrt e x p (- 1 2 β (x - μ) 2)$

指数分布与拉普拉斯（laplace）分布

- 如果我们需要在x=0处取得边界点的分布。
$指数分布$

λ作为参数，指的单位时间发生该事件的次数
特点 无记忆性,x 不会存在负分布
性能：
laplace 函数可以理解为对称的指数分布函数
同时 μ决定了对称中心的位置。

Dirac 分布与经验分布

p (x) = σ (x - μ)

这里的σ为Dirac delta函数。它被定义为除了0点外所有的函数值均为0

μ用于移动密度核中心
特性：质量全部分布在一点
经常作为经验分布的一部分
$p ̂ (x) = 1 m \sum i = 1 m σ (x - x (i))$
经验分布指明了采样来源的分布，同时也指明了训练数据似然最大的概率密度

常用函数

sigmoid 函数：
σ(x)=11+e−x
- 常用于生成伯努利分布的ϕ
- 在 x 绝对值大时会出现饱和现象
- 对 x 微小变化不敏感
softplus 函数：
ς(x)=lg(1+ex)
- 常用于产生正态分布的β 和σ参数
- 同时也是 ReLu 函数的软化形式
重要性质
$σ (x) = e x e x + e 0$
$d d x σ (x) = σ (x) (1 - σ (x))$
$1 - σ (x) = σ (- x)$
$l o g σ (x) = - ς (- x)$
$d d x ς (x) = σ (x)$
$\forall x \in (0, 1), σ - 1 (x) = l o g (x 1 - x)$
$\forall x > 0, ς - 1 (x) = l o g (e x - 1)$
$ς (x) = \int x - \infty σ (y) d y$
$ς (x) - ς (- x) = x$
最后一个特性提供了正负部函数可复原的特性

贝叶斯规则

P (x | y) = P ( x ) P ( y | x ) p ( y )

- 这里面出现了 P(y)，但实际上

P(y)=∑xP(y|x)P(x)
- 用于已知

P(y|x),P(x)求

P(x|y)

高维空间的微分扩展 - Jacobian 矩阵

p x (x) = p y (g (x)) | d e t (d g ( x ) d x) |

其中矩阵的

Ji,j=dxidyi

深度学习

标准化

2范数标准化 $∥ x ∥ = n p . l i n a l g . n o r m (x, a x i s = 1, k e e p d i m s = T r u e)$
其中 $| | x | | = \sum x 2 i ‾ ‾ ‾ ‾ ‾ ‾ \sqrt$

L1 L2 loss

L1 loss
L1(ŷ ,y)=∑i=0m|y(i)−ŷ (i)|
- 预测值 (ŷ )
- 真实值 (y)
L2 loss

L2(ŷ ,y)=∑i=0m(y(i)−ŷ (i))2
- 预测值 (ŷ )
- 真实值 (y)

L1与 L2 的区别外部资料

强化学习

待续

网络结构

mean-max pooling
- 分别作meanpooling 和 max pooling
- 加和然后除以二

阅读全文

0 0