有关**迭代学习**控制的一些基本概念
来源:互联网 发布:idc销售网站源码 编辑:程序博客网 时间:2024/05/29 12:04
有关迭代学习控制的一些基本概念
这一篇主要讲一些在学习控制研究领域中常常遇到的基本概念和专业的英语表述方式,相当于先入门吧.
- 马尔科夫决策过程 (Markov decision processes, MDP)
以 移动机器人走地图的例子来说明MDP。MDP是一个五元组
机器人在地图上活动的过程也可以表现为如下的形式:从初始位置
定义这个过程的价值为:
R(S0,A0)+γR(S1,A1)+γ2R(S2,A2)+...
可以看出,折扣因子随着时间的增加对价值的影响变小,也即,早期的策略对价值的影响较大。至此,对MDP过程的策略有了感性的认识。那么策略的准确内涵是什么呢?
策略(Policy): 对给定的MDP过程,上述表格中的五元素都是定值,所以存在一个最优的策略(Policy),即,对于每个状态S给出一个动作A,使得系统能从任意一个初始状态开始,以最大的价值到达最终状态。策略通常用π表示。策略的最优性由价值的最大化来体现的。
在策略π下,以s为初始状态取得的价值为:
Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π]
进一步,通过Bellman equation,上式又等于:
上式是一个递归过程。必须首先知道所有的s’的价值函数
价值迭代 Value Iteration (VI)
价值迭代的过程是:
- 对每个状态s,初始化价值函数
V(s):=0 ; - 对每个状态s,更新价值函数:
V(s):=R(s)+maxa∈Aγ∑s′Psa(s′)V(s′) - 重复上述步骤2,直至收敛。
由于已知R的值,所以通过不断更新V,最后converge到V*,再通过V*就可以得到最优策略π*。其实就是看所有action中哪个action最后的value值最大即可,此处是通过bellman equation,可以通过解bellman equation得到。
注意,马尔科夫决策过程中的P其实是指客观存在的概率,比如机器人转弯可能没法精确到一个方向。而不是指在s状态机器人选择a操作的概率,刚才没说清楚,在此进一步的说清楚:P是一个客观的统计量。
Psa(s′)=状态s下采取动作a,且使状态变为s′的次数状态s下采取动作a的次数 - 对每个状态s,初始化价值函数
策略迭代 Policy Iteration (PI)
策略迭代的过程是:
- 随机地初始化策略
π ; - 重复下述过程,直至收敛 :
(a) 使V:=Vπ ;
(b) 对每个状态s, 使π(s):=argmaxa∈Aγ∑s′Psa(s′)V(s′)
这次就是通过每次最优化π来使π converge到
π∗ ,V到V∗ 。但因为每次都要计算π的value值,所以这种算法并不常用。价值迭代与策略迭代感觉只是两个算法在过程上的区别,但感觉本质上差别不大。
- 随机地初始化策略
- 有关**迭代学习**控制的一些基本概念
- 有关进程的一些基本概念
- 有关网络爬虫的一些基本概念(一)
- 机器学习的一些基本概念
- 机器学习的一些基本概念
- 有关迭代的小问题
- 有关图像的基本概念
- 有关算法的基本概念
- 学习C的一些基本概念(一)
- 学习D3D的一些基本概念-不断更新中。。
- 学习java需要了解的一些基本概念
- 有关js的一些学习的网站
- 有关MQ中的一些基本概念(一)
- 有关MQ中的一些基本概念(二)
- 机器学习一些基本概念
- python中与print有关的一些字符串控制
- 有关缅甸语学习的一些网站
- 一些学习gis有关的文章
- java中什么是bridge method(桥接方法)
- Android Fragment 生命周期
- YTU 1001: A+B Problem
- 6.以表格单据式单表为模板定制模块:订单信息维护
- Android Activity为什么要细化出onCreate、onStart、onResume、onPause、onStop、onDesdroy这么多方法让应用去重载
- 有关**迭代学习**控制的一些基本概念
- 如何把base64转成图片
- Java 代码命名
- linux shell 运算符介绍
- BZOJ1132: [POI2008]Tro
- ios:UIAlertView自动消失
- Yii2.0对数据库 查询
- junit小小小结
- Android自定义控件属性