必威英雄联盟问题标记(epsilon-greedy-policy)

关于$\必威英雄联盟epsilon$-greedy策略的问题,该策略通常被用作强化学习代理与环境交互过程中的行为策略(即用于与环境交互的策略)。

13个必威英雄联盟问题
通过过滤
标记
5
1回答
158的浏览量

拥有大量武器的多武装匪徒

我面对的是一个拥有大量武器的(随机)多武器强盗。考虑一个比萨饼机,它根据输入$i$(相当于一个arm)生成比萨饼。(有限)集合…
1
投票
1回答
73的浏览量

我的代理人是否应该采取不同数量的步骤?

我的环境被设置为我的自动驾驶代理最多可以走400步(这是最终目标),然后重置并获得完成奖励。尽管在$\…期间达到了最终目标。
2
1回答
56岁的观点

在q学习中值应该是多少?

我正在尝试理解强化学习,并且已经探索了不同的Youtube视频、博客文章和维基百科文章。我不明白的是$\epsilon$的影响。什么价值……
0
0答案
43岁的观点

在易于探索的环境中进行非政策的全随机培训

假设我们处在一个环境中,一个随机代理可以轻松地探索环境的所有状态(例如:井字游戏)。在这些环境下,使用非策略算法,它是一个好…
1
投票
0答案
28日视图

探索速率是应该在每一集的结尾还是每一个步骤更新?

我的代理使用$\epsilon$-greedy策略来学习。探索速率(即$\epsilon$)在整个训练过程中不断衰减。我曾经见过这样的例子,人们每次更新$\epsilon$一个动作…
3.
1回答
56岁的观点

我们可以在很小的时候停止训练吗?

我是强化学习的新手。因为在RL中很常见,所以使用$\epsilon$-greedy搜索行为/探索。所以,在培训的开始,$\epsilon$是高的,因此很多…
1
投票
0答案
46岁的观点

理解贪婪逼近的格列条件

我当时正在学习这门关于reignfor水泥学习的课程(这门课程有两个演讲视频和相应的幻灯片),我有疑问。在这个pdf文件的第18张幻灯片上,它说明了以下条件…
4
1回答
79的浏览量

术语$|\mathcal{A}(s)|$在$\epsilon$-greedy策略中是什么意思?

我一直在网上寻找解释这些计算的来源,但我找不到任何地方$| a (s)|$是什么意思。我想$A$是动作集,但我不确定……
5
1回答
308的浏览量

当你在DQN中使用softmax而不是epsilon greedy选择动作时会发生什么?

我知道RL的两个主要分支是Q-Learning和Policy Gradient methods。根据我的理解(如果我错了请纠正我),政策梯度方法有一个内在的探索。
0
1回答
175的浏览量

为什么在多臂强盗问题中,我用Thompson抽样比用UCB或$\epsilon$-greedy得到更好的性能?(关闭)

我使用3种策略对多臂强盗进行了测试:UCB、$\epsilon$-greedy和Thompson抽样。我得到的奖励结果如下:Thompson sampling的平均成绩最高……
1
投票
1回答
1 k的观点

$\epsilon$-greedy和softmax保单之间有什么区别?

谁能给我解释一下$\epsilon$-greedy保单和softmax保单之间的关键区别是什么?特别是在SARSA和Q-Learning算法的竞赛中。我明白…
1
投票
0答案
253的浏览量

为什么$\epsilon$超参数(在$\epsilon$-greedy策略中)被平滑地退火?

据我所知,RL是一个可以分为2个阶段的过程:探索广泛的路径(随机行动)精炼当前的最佳路径(围绕着行动旋转)。
2
1回答
250的浏览量

适格性跟踪和epsilon-greedy是否以不同的方式执行相同的任务?必威电竞

我知道,在强化学习算法中,如Q-learning,为了防止过快地选择具有最大q值的动作并允许探索,我们使用合格跟踪。在这里……