程序博客网 > 复合材料的刚度矩阵

增强学习

来源：互联网发布：复合材料的刚度矩阵编辑：程序博客网时间：2024/05/17 06:44

1 value iteration

for i in max-iteration：

for j in states：

v[j] = max(r[j,a] + sum(p(j'|j,a)* v[j'])

2 policy iteration

for i in max-iteration:

policy-evaluation

(迭代计算v [state]直至稳定,采取的action已知)

policy-improvement

(依次更新each state对应的action，每次取最优值)

3 model based learning

for i in max-iteration：

1）follow policy pi, get transition list as history

2) calculate reward, transition probability from history, and get P(state, prob,action,next_state)

3) update policy using value iteration

阅读全文

0 0

复合材料的刚度矩阵

复合材料的刚度矩阵

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子潮汕汤河粉汤河粉怎么做好吃家常炒河粉河粉图片大图瘦肉汤河粉广东河粉怎样炒河粉才好吃减肥可以吃河粉吗陈村河粉如何炒河粉泰式炒河粉煮河粉的做法自制河粉河粉是什么做的怎么做河粉干河粉河粉怎么煮好吃又简单制作河粉河粉怎么吃煮河粉的做法大全家常蒸河粉的做法河粉的炒法河粉的做法与配方河粉的家常做法河粉怎么煮荷粉河粉制作配方什么是河粉做河粉的配方沙河粉的做法捞河粉的做法河粉怎么做河粉是什么样子图片河粉的做法大全河粉怎么做好吃粉荷广东的手工河粉配方河粉制作河粉是怎么做的河粉怎么煮汤好吃又简单干河粉怎么泡