程序博客网 > 手机上怎样申请淘宝号

bandit, 多臂赌博机中的探索-利用模型

来源：互联网发布：手机上怎样申请淘宝号编辑：程序博客网时间：2024/06/05 19:21

简介

k-摇臂赌博机, k-armed bandit.
一个经典的模型. 这种赌博机有k个摇臂, 玩家投一个游戏币以后可以按下任意一个摇臂, 每个摇臂以一定的概率吐出硬币, 作为奖赏. 但这个概率玩家并不知道. 玩家的目标是通过一定的策略获得最大化的累积奖赏.
这里写图片描述

探索
exploration-only.
将所有的机会均分给每个摇臂, 根据每个摇臂各自的吐硬币频率, 去近似它的吐硬币概率.
利用
exploitation-only. 根据已有的结论, 每次都选择最稳妥的方案.

用途

用在个性化推荐中, 帮助用户探索新偏好, 不然推荐来推荐去都是差不多的东西.
用在非个性化的热门推荐中, 不能每次都挑效果最好的那一批, 也要给新内容有出头之日的机会.

策略及变种

Epsilon-Greedy

因为尝试次数有限(游戏币有限), 所以探索与利用是相矛盾的.ϵ贪心算法对二者进行折中, 每次尝试时, 以ϵ的概率从k个摇臂中随机选一个进行探索, 以1−ϵ的概率选择已知吐硬币概率最大的摇臂进行利用.

Upper Confidence Bound

UCB, Upper Confidence Bound, 上界置信区间.

x j ¯ + 2 ln n n j - - - - - \sqrt

where

xj¯ is 第j个摇臂的平均收益;

nj is 当前为止第j个摇臂的选择次数;

n is 当前为止总的选择次数.

参考

lectures/ucb1.pdf

阅读全文

'); })();

0 0

手机上怎样申请淘宝号

手机上怎样申请淘宝号

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子三七机鬼武者手机下载三七胶囊三七软胶囊三七功效与作用及禁忌野生三七图片复方三七胶囊复方三七胶囊多少钱一盒三七伤药胶囊三七胶囊价格羊藿三七胶囊三七胶囊的作用与功效立效复方三七胶囊三七止血胶囊金银三七胶囊三七胶囊的功效与作用苗乡三七胶囊三七胶囊功效新云牌三七胶囊三七花能祛斑吗三七胶囊说明书复方三七胶囊说明书三七血伤宁胶囊三七胶囊的功效三七活血胶囊三七黄芪胶囊三七胶囊作用三七伤药胶囊说明书三七养血胶囊三七维康胶囊三七舒通胶囊说明书斯必利西洋参三七胶囊国产三七片三七止血片舒筋活活血片和三七片那个好三七片多少钱一盒三七片多少钱一瓶景天三七片说明书同仁堂三七片三七片的正确吃法三七片价格三七片说明书