bandit, 多臂赌博机中的探索-利用模型
来源:互联网 发布:手机上怎样申请淘宝号 编辑:程序博客网 时间:2024/06/05 19:21
简介
k-摇臂赌博机, k-armed bandit.
一个经典的模型. 这种赌博机有k个摇臂, 玩家投一个游戏币以后可以按下任意一个摇臂, 每个摇臂以一定的概率吐出硬币, 作为奖赏. 但这个概率玩家并不知道. 玩家的目标是通过一定的策略获得最大化的累积奖赏.
- 探索
exploration-only.
将所有的机会均分给每个摇臂, 根据每个摇臂各自的吐硬币频率, 去近似它的吐硬币概率. - 利用
exploitation-only. 根据已有的结论, 每次都选择最稳妥的方案.
用途
- 用在个性化推荐中, 帮助用户探索新偏好, 不然推荐来推荐去都是差不多的东西.
- 用在非个性化的热门推荐中, 不能每次都挑效果最好的那一批, 也要给新内容有出头之日的机会.
策略及变种
Epsilon-Greedy
因为尝试次数有限(游戏币有限), 所以探索
与利用
是相矛盾的.已知吐硬币概率最大
的摇臂进行利用.
Upper Confidence Bound
UCB, Upper Confidence Bound, 上界置信区间.
where
参考
- lectures/ucb1.pdf
阅读全文