必威英雄联盟问题标记(upper-confidence-bound)

有关基于必威英雄联盟置信上限(UCB)的算法或动作选择策略的问题,例如强盗或强化学习问题。

十个问必威英雄联盟题
通过过滤
标记
2
0答案
17日视图

当leaf的模拟计数为零时,MCTS的初始UCT值应该是多少?无穷?

我正在实现一个蒙特卡罗树搜索算法,其中的选择过程是通过Upper Confidence Bound公式来完成的:…
1
投票
0答案
39岁的观点

在UCB中,实际上界是单边置信区间还是双边置信区间的上界?

我有点困惑的upper bound (following notation of (c.f. Sutton & Barto (2018)) $$Q_t(a)+C\sqrt{frac{mathrm{ln}(t)}{N_t(a)}}$$在许多博客文章中关于…
5
1回答
162的浏览量

拥有大量武器的多武装匪徒

我面对的是一个拥有大量武器的(随机)多武器强盗。考虑一个比萨饼机,它根据输入$i$(相当于一个arm)生成比萨饼。(有限)集合…
1
投票
0答案
32的观点

为什么UCT算法中理想的探测参数是$\sqrt{2}$?

从维基百科上,在蒙特卡罗树搜索算法中,应该选择值最大的节点:$${displaystyle {\frac {w_{i}}{n_{i}}}+c{\sqrt {\frac {\ln n_{i}} {n_{i}}}}},$$ where ${…
1
投票
2答案
61的浏览量

为什么探索技术,如UCB或汤普森采样,不用于完整的RL问题?

为什么探测技术,如UCB或Thompson采样,通常用于土匪问题,不用于完整的RL问题?蒙特卡罗树搜索可以用上述方法进行搜索。
2
1回答
98的浏览量

为什么我们对UCB1有两种相似的动作选择策略?

在文献中,至少有两种行动选择策略与UCB1的行动选择策略/政策相关联。例如,在本文中,多臂盗匪算法。
4
2答案
106的浏览量

为什么我们使用$X_{I_t,t}$和$v_{I_t}$来表示接收到的奖励和时间步长$t$以及选择的arm $I_t$的分布?

我正在做一些关于经典(随机)矩阵的介绍性研究。然而,我对常见的符号有点困惑(例如在Auer(2002)或Bubeck和Cesa-Bianchi(2012)的流行论文中)……
0
1回答
175的浏览量

为什么在多臂强盗问题中,我用Thompson抽样比用UCB或$\epsilon$-greedy得到更好的性能?(关闭)

我使用3种策略对多臂强盗进行了测试:UCB、$\epsilon$-greedy和Thompson抽样。我得到的奖励结果如下:Thompson sampling的平均成绩最高……
1
投票
2答案
85的浏览量

我应该在政策梯度算法中使用探索策略吗?

在策略梯度算法中,输出是一个随机策略——每个动作的概率。我相信,如果我遵循政策(从政策中选取行动的例子),我就会利用探索……
1
投票
1回答
55岁的观点

如何得出多臂强盗问题中UCB行为选择的公式?

我遇到了Upper Confidence Bound Action Selection的公式(在研究多臂bandit问题时),它看起来像:$$ A_t \dot{=} \operatorname{argmax}_a \left[Q_t(a) + c \sqrt{\…