神经网络控制

来源：互联网发布：淘宝酷卡体育东西正嘛编辑：程序博客网时间：2024/06/03 19:48

神经网络控制

学习方式

学习方式就是基于什么进行学习，而随后讨论的学习规则是，基于此如何进行调整权值的算法

有监督的学习

有监督学习也称有导师学习，这种学习需要外界存在一个“导师”，它可以根据自身掌握的一些知识为神经网络提供对输入训练样本的期望响应。期望响应一般代表着神经网络的最优输出结果。当输入作用到网络时，神经网络的期望响应和实际响应相比较，产生误差信号，根据误差信号逐步而又反复地调整网络的权值和阀值，从而使网络的实际输出不断地接近于期望输出，最终目的是使神经网络模拟导师，在某种统计意义上，这种模拟是最优的。利用这种学习方式，导师对环境掌握的知识就可以通过训练最大限度地传授给神经网络，当条件成熟时，就可以将导师排除在外，让神经网络完全自主地应对环境

无监督学习

无监督学习时不存在外部导师，学习系统完全按照环境所提供数据的某些统计规律来调节自身参数或结构，这是一种自组织过程，以表示外部输入的某种固有特性（如聚类，或某种统计上的分布特征）。在无监督学习中，仅仅根据网络的输入调整网络的权值和阀值，它没有目标输出。乍一看这种学习似乎不可行，不知道网络的目的是什么，还能够训练网络吗？实际上，大多数这种类型的算法是要完成某种聚类操作，学会将输入模式分为有限的几种类型。这种功能特别适合于诸如向量量化等应用问题

增强式学习

增强式学习也称再励学习。在这种学习方式中学习系统建立在一个评价的基础上，评价将从外部环境中接收到的原始增强信号转换成一种启迪增强信号的高质量增强信号。需要注意的是，外部环境对学习系统的输出结果给出的是评价（奖或惩），而不是正确答案，学习系统通过强化那些受到奖励的动作来改善自身性能。增强式学习与有监督学习有类似的地方，只是它不像有监督学习那样为每个输入提供相应的目标输出，而仅仅是给出一个级别（评价），这个级别是对网络在某些输入序列上的性能度量。当前，增强式学习比有监督学习少见，它最适合控制系统应用领域

学习规则

误差修正学习

利用神经元的期望输出与实际输出之间的误差进行学习，通过调整突触权值，使误差减小

enter image description here

Hebb学习规则

Hebb是一种无监督的学习规则，基本原理为，在同一时间被激发的神经元间的联系会被强化；相反，如果两个神经元总是不能同步激发，那么它们间的联系将会越来越弱

wij(k+1)=wij(k)+η⋅yi⋅yj
wij表示两个神经元之间的权值
yj和yi分别表示两个神经元的输出

如果 yj和yi同时被激活，则同时为正，那么w增大；如果有一方被抑制为负，另一方被激活为正，那么w减小

阅读全文

0 0