基于蒙特卡罗的VOI(Value of Information)

来源:互联网 发布:扎克拉文体测数据 手掌 编辑:程序博客网 时间:2024/06/05 19:24

MC-VOI

  • MC-VOI for stastic

    下面将列出计算VOI的过程:

    纵观整个算法,这是一个通过模拟未来多个步骤,来对当前所在状态的下一步做出最优决策的过程。

    设在当前系统中,包含两类action, A[c, ¬c ]。

    在程序执行模拟未来的action时,遇到action c 会收集observation o, 并由当前状态的 belief state b, action c, 以及由action c 触发观测到的 observation o 更新下一深度的 belief state,将新的belief 节点添加到搜索树的当前路径中,直到遇到action ¬c;

    如果遇到action ¬c,在当前路径下的模拟会终止,并根据当前的 terminal belief state 取样一个 state,这个state用来计算VOI,包括计算执行 action ¬c 时的期望值和执行 action ¬c之前一条完整搜索路径上每一个action c的期望值。在计算每一个 action c 的期望值时,从建立在“未来”的基础上,即从后向前看,一直计算到初始状态的 belief state。

    通过从初始状态的 belief state开始,比较模拟过程中执行action c 和 action ¬c的差值,为系统做出真正的决策。

    值得注意的几点:
    模拟过程的退出条件是直到time out,在指定搜索树深度的情况下,用N来记录一整条搜索路径在模拟过程中重复的次数。
    在整个模拟过程中,统计执行action ¬c 和执行action c 的重复次数是全局累加的。

0 0
原创粉丝点击