神经网络与机器学习(第3版)阅读笔记{第1章}
来源:互联网 发布:卷积神经网络算法原理 编辑:程序博客网 时间:2024/05/22 12:36
前言():
{
个人感觉翻译版翻译的有些生硬,现在看回了原版《Neural Networks and Learning Machines (3rd Edition),Simon kaykin》,遇到困难时再参考翻译版。
第一章主要有两个内容,一个是Rosenblatt感知器,另一个是正态环境下的Bayes分类器。
}
正文():
{
线性可分():
{
两类向量线性可分是指存在一个超平面(如果这两类向量是3维的,那么就是平面,2维的话就是一条值线)可以将这两类完全分开。
比如说两类二维向量,类型为男和女,二维分别为身高和头发平均长度。虽然身高和头发平均长度与男女有关系,但无法直接只靠设置身高和头发平均长度的阈值就把它们分开。这种情况就叫线性不可分。
}
Rosenblatt感知器(初步了解):
{
Rosenblatt感知器是只有一个节点的神经网络(或就是个节点不是网络),即是输入节点又是输出节点,其激活函是Heaviside阈值函数(或是别的,书上给的是这个)。
学习算法():
{
每输入Bs个样本向量之后进行一次权值更新,如下:
其中w(n)是第n次(本次)权值更新后的权值向量;M是本次Bs个样本向量中被错误分类的样本向量集合;η(n)是第n次权值更新的学习率;x(i)是M中被错误分类的样本向量;当w(n-1)·x(i)>0时d(i)取-1,否则取1。
这里的Bs是我自己加的,按照书上描述的话Bs就等于总样本数。
}
收敛性():
{
书中还证明了只要向量线性可分,在一段时间的训练后,Rosenblatt感知器的权值向量就不会再改变,而不是永远地更改下去。
}
}
Bayes分类器():
{
Bayes定理的相关知识(初步了解):
{
我去图书馆看了一本杨永愉和李志强编的《概率论与数理统计》。
目前我理解的是它的思想是把所有未知的量都看作随机量,并且结合先验知识与现有数据。打个质检的比方,一批产品中某产品的质量优秀概率为P(θ),其强度优秀概率为P(x)。强度优秀当然和质量优秀有关系,或者说一方是另一方的参数。本次的强度优秀概率P(x)先被测出来了,我想要估算在强度优秀的情况下,本次产品质量的优秀概率P(θ|x) ,如下:
在进行质检之前,本次的P(θ)是未知的,有人可能会想“可以根据以往猜个大概。”用先前的经验去猜,得到的概率为先验概率,算是比较容易得到,就用它作为P(θ)。之后代入质量优秀情况下的强度优秀概率P(x|θ),便可估算出本次产品质量的合格概率P(θ|x)。
我说的例子可能有点不准确,可以去看百度的吸毒者检测的例子https://baike.baidu.com/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86/1185949?fr=aladdin
}
Rosenblatt感知器可以对线性可分的样本进行分类,但如果样本线性不可分,即使得到一个线性的决策边界D也无法保证分类正确,这时候Bayes分类器就派上用场了。
Bayes分类器追求分类的平均风险最小,平均风险R的公式为:
其中,Ci,j代表j类的样本被分到i类的损失,Pi,j代表j类的样本被分到i类的概率,m为类别数。
Pi,j就类似于上述百度的例子一样,我想要求某个第一类的样本被决策边界D分到第一类的概率P1,1,那么就是某个样本是第一类的概率p1乘以第一类的样本被决策边界D分到第一类的概率p(1|1),即:
}
习题(1.1-1.5):
{
先把习题放一下(出自《Neural Networks and Learning Machines (3rd Edition)》,Simon kaykin):
1.1:
{
当正确分类时,式1.22中的[d(x)-y(x)]为0,即权值不变,和式1.5一样;
当1类的样本被分到2类时,[d(x)-y(x)]为2,即式1.22中的权值率为式1.5中的两倍,其他相等;
还有一种情况也如上。
}
1.2:
{
由于tanh(0)=0且tanh(v/2)单调递增,所以当v>0时,tanh(v/2)>0,当v<=0时,tanh(v/2)<=0,所以对于Rosenblatt感知器,两个激活函数效果一样。
}
1.3:
{
(a)中每种的输入样本线性可分,例如and:
其中x代表0类,+代表1类。
(b)中的输入样本线性不可分。
}
1.4:
{
直接按照书上的公式,设决策边界为y=wx+b,其中:
代入解得y=-20x。
}
1.5:
{
如上:
}
}
计算机实验():
{
这次就把习题1.6的实验给做了。
进行如下两类样本的分类(出自《Neural Networks and Learning Machines (3rd Edition)》,Simon kaykin):
图中参数如下:
w=6;
r=10;
d=0。
η(1)=0.1并且线性衰减至0.00001。
训练样本1000份,测试样本2000份,其都均匀分布在RegionA与RegionB。
训练样本使用50次(我不确定是不是β这个参数?因为书中实验也只是给到50次的数据。书上说的β说实话我没看懂,按照上面的公式β不应该是256吗?{问题1})。
具体实现我放到了Python学习笔记中。
}
}
结语():
{
由于没有足够的习题,只看书难免会有理解错误。如果有错误,希望你能给点指点,我就先谢谢了。
}
- 神经网络与机器学习(第3版)阅读笔记{第1章}
- 神经网络与机器学习(第3版)阅读笔记{第0章}
- 周志华《机器学习》笔记:第5章 神经网络
- 周志华《机器学习》第 5 章 神经网络
- 神经网络与深度学习笔记——第3章 改进神经网络的学习方法
- 神经网络与深度学习笔记——第1章 使用神经网络识别手写数字
- 《机器学习》学习笔记 第1章
- coursera-斯坦福-机器学习-吴恩达-第4周笔记-神经网络
- 机器学习第5章第1节(上) : 使用神经网络学习逻辑或的运算
- C++ primer第二次阅读学习笔记(第3章)
- 机器学习第5章第1节(下) : 针对两类函数训练神经网络
- 《机器学习实战》课程笔记(第1章)
- 《机器学习》第2章笔记(1)
- 神经网络与深度学习笔记——第5章 深度神经网络为何很难训练
- 神经网络与机器学习笔记
- 《机器学习》读书笔记 7 第5章 神经网络 一
- 《机器学习》读书笔记 7 第5章 神经网络 二
- 斯坦福机器学习第四周(神经网络及其应用)
- ES6之Proxy
- 欢迎使用CSDN-markdown编辑器
- Linux基础命令(二)之du、df详解
- 经验总结-完整介绍Android Studio中Git的使用之GitHub更新代码到本地(四)
- hisi平台遥控器按键适配
- 神经网络与机器学习(第3版)阅读笔记{第1章}
- shell、gawk、sed使用散记
- 设计模式之简单工厂模式
- leetcode算法课程第十周博客
- Activity的四种启动模式
- 习题6.12
- C++11中的auto与范围for----C++学习之路
- python科学计算值numpy
- C++之迷宫问题