基于蒙特卡罗的VOI(Value of Information)
来源:互联网 发布:扎克拉文体测数据 手掌 编辑:程序博客网 时间:2024/06/05 19:24
MC-VOI
MC-VOI for stastic
下面将列出计算VOI的过程:
纵观整个算法,这是一个通过模拟未来多个步骤,来对当前所在状态的下一步做出最优决策的过程。
设在当前系统中,包含两类action, A[c, ¬c ]。
在程序执行模拟未来的action时,遇到action c 会收集observation o, 并由当前状态的 belief state b, action c, 以及由action c 触发观测到的 observation o 更新下一深度的 belief state,将新的belief 节点添加到搜索树的当前路径中,直到遇到action ¬c;
如果遇到action ¬c,在当前路径下的模拟会终止,并根据当前的 terminal belief state 取样一个 state,这个state用来计算VOI,包括计算执行 action ¬c 时的期望值和执行 action ¬c之前一条完整搜索路径上每一个action c的期望值。在计算每一个 action c 的期望值时,从建立在“未来”的基础上,即从后向前看,一直计算到初始状态的 belief state。
通过从初始状态的 belief state开始,比较模拟过程中执行action c 和 action ¬c的差值,为系统做出真正的决策。
值得注意的几点:
模拟过程的退出条件是直到time out,在指定搜索树深度的情况下,用N来记录一整条搜索路径在模拟过程中重复的次数。
在整个模拟过程中,统计执行action ¬c 和执行action c 的重复次数是全局累加的。
0 0
- 基于蒙特卡罗的VOI(Value of Information)
- 使用vtkExtractVOI时未抽取出VOI的问题解决
- Attention-based Extraction of Structured Information from Street View Imagery:基于注意力的街景图像提取结构化信息
- Measures of information
- Elements of Information Theory
- Dictionary of Information Security
- debug information of executable
- English of information technology
- Content-Based Information Retrieval 基于内容的信息检索
- 基于共享内存的key-value存储
- 基于共享内存的key-value存储
- 基于key-value的存储系统Redis
- Android 基于Key-Value的缓存管理
- 基于key-value的存储系统Redis
- Encyclopedia of Information Communication Technology
- The visual Display of information
- Zen of PM - Gathering information
- Visual display of quantitative information
- 第十四章 Spring集成测试
- swift 3.0 哈希sha1方法
- 类型转换小细节
- AOP在Android中的使用(作为依赖库)
- CCCC练习 5-10树的遍历
- 基于蒙特卡罗的VOI(Value of Information)
- mysql 用户
- Ubuntu安装eclipse,并创建桌面快捷方式
- vagrant打造跨平台可移动的开发环境四
- 贪心算法基本介绍以及在lintcode上的典型题型
- oracle 存储过程
- Android Fragment 真正的完全解析(上) (转)
- Computer Security Conference Ranking and Statistic
- 100. NSScanner类条件判断利器详解