第二周神经网络基础

来源：互联网发布：优化算法比较好的书籍编辑：程序博客网时间：2024/05/29 14:05

cat

基本概念

给定由n 个属性形成的输入x=(x1;x2;...;xn), 其中 xi 表示为 x在第 i 个属性上的取值。通过对属性的线性组合，可得出一个输出函数 y:

y = w 1 x 1 + w 2 x 2 + . . . + w n x n + b (1)

w表示权重,b为偏置

其中n 个属性, 我们可以称之为输入有 n 个特征, 输入所有的特征可以用一个nx维特征向量(或称之为nx1的矩阵)表示 x=⎡⎣⎢⎢⎢⎢x1x2...xn⎤⎦⎥⎥⎥⎥,

利用向量表示输入输出关系，可以简单表示为:

y = w T x + b (2)

输入与输出形成的 (x,y) 可表示为一个单独的样本.

由m个样本集构成的训练集可以表示为 mtrain={(x(1),y(1)),(x(2),y(1)),...(x(m),y(1))}, 用矩阵可表示为:

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ . . . . . . x (1) i, . . . . . . . . . . . . x (2) i . . . . . . . . . . . . . . . . . . . . . . . . . . . x (m) i . . . . . . ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ （ x j i 表 示 第 j 个 样 本 的 第 i 个 特 征 ）

显然 X∈Rn∗m, 有n行和m列

此处采用的是 列向量的表示方式，也可以用行向量的表示方式，
而用列向量更方便处理数据，因此以后采用列向量表示

Logistic Regression基础

logistic Regression(逻辑回归) 是一种监督学习的 Binary Classfication(二分分类) 算法, 二分分类算法其实就是判断输入是或者不是的某种结果的一种算法。

监督学习中，通过训练集与算法形成一个对应的模型,然后利用该模型去预测测试集里面的数据。

例如: 判断一张图片是否为 Cat 就是一个二分分类的问题。输入x为一张图片, 算法输出的结果ŷ 实际上是一个概率值，可理解为该算法判断这张图片为猫的可能性, 表示为:

y ̂ = P (y = 1 ∣ x)

理想情况，希望当输入 x 满足某种条件时候，ŷ =1, x 不满足某种条件时候，ŷ =0，实际上，算法通过输入特征的线性组合 y=wTx+b 计算出来的结果对于二分分类来说很表示的不是很好，因为线性组合结果可能有非常多种，可能从负无穷到正无穷。但是实际上，我们仅仅需要 0~1 之间的概率值，因此，我们引入 sigmoid函数, sigmoid函数表示为:

σ (z) = 1 1 + e - z (3)

Sigmoid 图像表示为:

激活函数

我们可以观察到，sigmoid函数对于任何输入 x, 其输出 y∈(0 1)， Good!

因此 ŷ 可表示为:

y ̂ = σ (z) = σ (w T x + b) (4)

Logistic Regression中, 我们已经知道了输入x以及对应的模型函数 ŷ , 通过需要不断的调整 w和b 使得 Logistic Regression 模型预测越来越准确。

But, 怎么去判断一个函数准确度呢？

Loss Function(损失函数) 和 Cost Function

实际操作中，模型预测值 ŷ 与真实值 y 可能一直，也可能不一致，用一个损失函数(Loss Function) 或者 代价函数(Cost Function)来度量预测程度的错误。

损失函数(Loss Function):

L (y ̂, y) = - (y l o g y ̂ + (1 - y) l o g (1 - y ̂))

成本函数(Cost Function):

J (w, b) = 1 m \sum i = 0 m L (y ̂, y) = - 1 m \sum i = 0 m (y l o g y ̂ + (1 - y) l o g (1 - y ̂))

证明:

单个样本的损失函数:

在单个样本中, 我们定义了sigmoid函数ŷ =σ(z)=σ(wTx+b)(5)

假设 y = 1 时, P(y=1∣x)=ŷ , 那么 y = 0 时,P(y=0∣x)=1−ŷ .对于上面的两个函数, 我们可以写成

P (y ∣ x) = y ̂ y \cdot (1 - y ̂) (1 - y)

利用log函数的单调性, 可以将上述公式转换为:

l o g (P (y ∣ x)) = l o g (y ̂ y \cdot (1 - y ̂) (1 - y)) = y l o g y ̂ + (1 - y) l o g (1 - y ̂)

我们定义， 损失函数 L(ŷ ,y)：

L (y ̂, y) = - l o g (P (y ∣ x)) = - (y l o g y ̂ + (1 - y) l o g (1 - y ̂))

对于单个样本而言，我们需要求得最小的损失函数，也就是需要求得最大的 P(y∣x)

m个样本集的成本函数:
在训练集中，我们假设样本 独立同分布的,那么 m 个样本集的最大似然估计

P = \prod i = 0 m P (y (i) ∣ x (i))

其对数似然函数:

log p = \sum i = 0 m log P (y (i) ∣ x (i)) = - \sum i = 0 m L (y ̂ (i), y (i))

如果我们希望 logp越大, 那么希望 ∑mi=0L(ŷ ,y)越小

那么定义样本集的成本函数可定义为:

J (w, b) = 1 m \sum i = 0 m L (y ̂ (i), y (i)) = - 1 m \sum i = 0 m (y (i) l o g y ̂ (i) + (1 - y (i)) l o g (1 - y ̂ (i)))

最大似然函数: 《概率论与数理统计》第七章

梯度下降 - 单个样本

为了训练得到更好的模型，需要我们选取到最优的 w和b, 我们采用的是梯度下降法

梯度下降

通过不断的学习，使得

w = w - α d J ( w , b ) d w b = b - α d J ( w , b ) d b

来获取到最优解

关于导数的相关知识，可以参考高等数学-导数

对于 Logistic Regression,我们可以得到如下:

z y ̂ L (a, y) = w T x + b = a = σ (z) = - (y log a + (1 - y) l o g (1 - a))

假设输入有两个特征，下图表示一系列过程:

逻辑回归

那么可以求得:

d a d z d w 1 d w 2 d b = d L ( a , y ) d a = - y a + 1 - y 1 - a = d L ( a , y ) d z = d L ( a , y ) d a \cdot d a d z = (- y a + 1 - y 1 - a) \cdot (a (1 - a)) = a - y = d L ( a , y ) d w 1 = d L ( a , y ) d z \cdot d z d w 1 = x 1 \cdot d z = d L ( a , y ) d w 2 = d L ( a , y ) d z \cdot d z d w 2 = x 2 \cdot d z = d L ( a , y ) d b = d L ( a , y ) d z \cdot d z d b = d z

第二周神经网络基础

基本概念

Logistic Regression基础

Loss Function(损失函数) 和 Cost Function

梯度下降 - 单个样本

梯度下降 - 样本集

向量化概念1

向量化概念2

反向推导

第二周 神经网络基础

基本概念

Logistic Regression基础

Loss Function(损失函数) 和 Cost Function

梯度下降 - 单个样本

梯度下降 - 样本集

向量化概念1

向量化概念2

反向推导

第二周神经网络基础