必威英雄联盟问题标记(multi-armed-bandit)

对于与多必威英雄联盟臂强盗(MAB)问题相关的问题,在这个问题中,当每个选择的属性在分配时只有部分已知时,一个固定的有限资源集必须在竞争(备选)选择之间以最大化其预期收益的方式进行分配。

27日必威英雄联盟的问题
通过过滤
标记有
4
1回答
102意见

拥有大量武器的多武装匪徒

我面对的是一个拥有大量武器的(随机)多武器强盗。考虑一个比萨饼机,它根据输入$i$(相当于一个arm)生成比萨饼。(有限)集合…
1
投票
0答案
22日视图

没有得到奖励的多臂强盗问题

在一个双臂强盗问题中,一个代理有机会看到n个奖励为每个行动。现在代理人应该选择m次行动,并在这m次决策中最大化期望回报。但它不能……
1
投票
1回答
45的观点

为什么探索技术,如UCB或汤普森采样,不用于完整的RL问题?

为什么探测技术,如UCB或Thompson采样,通常用于土匪问题,不用于完整的RL问题?蒙特卡罗树搜索可以用上述方法进行搜索。
1
投票
0答案
26日视图

多臂土匪:减少随机多臂土匪为伯努利土匪

Agrawal和Goyal (http://proceedings.mlr.press/v23/agrawal12/agrawal12.pdf page 3)讨论了如何将伯努利土匪的汤普森抽样扩展到随机土匪的汤普森抽样…
2
1回答
85的浏览量

为什么我们有两个类似的UCB1类似的动作选择策略?

在文献中,至少有两个与UCB1的动作选择策略/策略相关的动作选择策略。例如,在多武装强盗的纸张算法中......
2
1回答
33的观点

为什么遗憾在单克隆抗体中如此明确?

以一个多臂强盗(MAB)为例。有$k$臂,其中$1 \leq i \leq k$为奖励分配$R_i$。设$\mu_i$表示$i^{th}$分布的均值。如果我们用多臂…
2
0答案
15的观点

将给定概率映射到经验概率

考虑以下问题陈述:你已经给出了$n$行动。你可以表演任何一种。每个行动都有一定的概率让你获得成功。挑战是在有限数量的情况下执行……
2
0答案
24日视图

有没有一种UCB类型的算法线性随机强盗与套索回归?

为什么在回归参数在特征上是稀疏的情况下,没有使用套索回归的线性随机强盗的置信上限算法?特别是,我不……
0
0答案
40的观点

理解贪婪逼近的格列条件

我当时正在学习这门关于reignfor水泥学习的课程(这门课程有两个演讲视频和相应的幻灯片),我有疑问。在这个pdf文件的第18张幻灯片上,它说明了以下条件…
4
1回答
64的浏览量

你能把一个MDP问题转化成一个上下文多臂盗匪问题吗?

我试图更好地理解多臂强盗,上下文多臂强盗和马尔可夫决策过程。基本上,多臂土匪是情境型多臂土匪的一个特例。
1
投票
0答案
29日视图

利用强化学习,根据人们的个人资料为他们定制食物

我是强化学习的新手,这是我的想法——代理(食物供应商)必须根据环境(基于用户简介)选择食物。在这里,奖励将给予基于…
4
2答案
103的浏览量

为什么我们使用$ x_ {i_t,t} $和$ v_ {i_t} $来表示收到的奖励和在时间步骤$ t $和所选arm $ i_t $的分发

我正在对古典(随机)MAB进行一些介绍性研究。但是,我对共同的符号感到困惑(例如,在奥尔(2002)或Bubeck和Cesa-Bianchi(2012)的流行论文中......
1
投票
0答案
33的观点

在连续行动空间下解决多武装强盗问题

我的问题在某个间隔(0,1)上有一个状态和无限量的动作。经过相当长的时间谷歌曲,我发现了一些关于一个称为缩放算法的算法的纸张,它可以......
1
投票
0答案
27日视图

有一个多代理版本的EXP3吗?

下图所示的EXP3算法(取自《对抗式土匪》和《EXP3算法》)是解决单人模式下的对抗式土匪问题。如果有……
0
1回答
170的浏览量

为什么在多臂强盗问题中,我用Thompson抽样比用UCB或$\epsilon$-greedy得到更好的性能?(关闭)

我使用3种策略对多臂强盗进行了测试:UCB、$\epsilon$-greedy和Thompson抽样。我得到的奖励结果如下:Thompson sampling的平均成绩最高……

15 30. 50 每个页面