程序博客网 > 扎克拉文体测数据手掌

基于蒙特卡罗的VOI(Value of Information)

来源：互联网发布：扎克拉文体测数据手掌编辑：程序博客网时间：2024/06/05 19:24

MC-VOI

MC-VOI for stastic
下面将列出计算VOI的过程：
纵观整个算法，这是一个通过模拟未来多个步骤，来对当前所在状态的下一步做出最优决策的过程。
设在当前系统中，包含两类action, A[c, ¬c ]。
在程序执行模拟未来的action时，遇到action c 会收集observation o, 并由当前状态的 belief state b, action c, 以及由action c 触发观测到的 observation o 更新下一深度的 belief state，将新的belief 节点添加到搜索树的当前路径中，直到遇到action ¬c；
如果遇到action ¬c，在当前路径下的模拟会终止，并根据当前的 terminal belief state 取样一个 state，这个state用来计算VOI，包括计算执行 action ¬c 时的期望值和执行 action ¬c之前一条完整搜索路径上每一个action c的期望值。在计算每一个 action c 的期望值时，从建立在“未来”的基础上，即从后向前看，一直计算到初始状态的 belief state。
通过从初始状态的 belief state开始，比较模拟过程中执行action c 和 action ¬c的差值，为系统做出真正的决策。
值得注意的几点：
模拟过程的退出条件是直到time out，在指定搜索树深度的情况下，用N来记录一整条搜索路径在模拟过程中重复的次数。
在整个模拟过程中，统计执行action ¬c 和执行action c 的重复次数是全局累加的。

0 0

扎克拉文体测数据手掌

扎克拉文体测数据手掌

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子一踏脚儿一脚腿筋疼从屁股一直到脚流星雨将至胡秀英一章至结束仙剑一至六代人物关系图娱乐至死by一条大咸鱼大写一到十至百千万圆一个至一个秦念什么羊皮卷一至十大道至简下一句原文唐砖一至36集免费观看一生何求178章至300章恩情无限一至三十三集介绍羊皮卷一至十卷原文娱乐至死by一条大咸鱼txt 一至五岁智力评估对照表不卡一区至六区 400至500元一米厨柜图羊皮卷之一至十人间至味清欢水至清则无鱼下一句一个至一个秦怀孕图一至十个月产后第一天至第三天食谱 qia拼音一至四声怎么读广东一至三线品牌陶瓷瑞士手表一类至三类排名名称玻尿酸隆鼻一至7天照片一字至七字诗茶多场流星雨将至多场流星雨将至一职工因公致残被鉴定为一级至一致性评价言行一致三观一致主谓一致一致团结一致步调一致一致连续