必威英雄联盟问题标记(奖励功能)

有关奖励必威英雄联盟职能的问题(例如,在加强学习的背景下,这可能表示为$ r(s,a)$)。

25个必威英雄联盟问题
过滤
标记
1
投票
1回答
48个观点

如果环境的奖励功能取决于某些初始条件,我是否应该为每个条件创造单独的环境?

我想要一些关于如何为强化学习代理设计一个环境的指导,在这个环境中,环境的停止条件和奖励会根据初始输入集而改变……
0
0答案
30的观点

汤普森采样与伯努利先前和非二进制奖励更新

我正在解决一个问题,我必须为给定的数据选择可能最好的服务器(级别1)。这些服务器(级别1)依次访问其他一些服务器(级别2)以完成请求. ...
2
0答案
22日视图

如何在零和游戏中劝阻RL代理商绘制?

我的经纪人在比赛中获胜、平局和失败时分别会得到1、0和-1美元的奖励。将奖励设置为-1美元会产生什么结果?这会鼓励经纪人赢吗?
5
1回答
121的浏览量

为什么每一步都有消极的奖励会鼓励玩家尽快达到目标?

如果我们通过任何常量(这是一种奖励整形)来向奖励转换奖励,则最佳状态 - 动作值函数(以及所以最佳策略)不会改变。此事实的证明可以在这里找到。......
0
1回答
92意见

奖励功能的移动版本的最佳价值函数是什么?

类似于我之前问的问题,什么是最优值函数的移动(通过一些常数$c$)版必威电竞本的一些奖励函数?更准确地说,我们假设$r(s,…
2
2答案
84的浏览量

我该如何定义奖励功能,以解决Quime Q-Learning的Wumpus游戏?

我正在为Wumpus游戏编写DQN代理。训练q -网络(目标网络和策略)的奖励功能是否与游戏的分数相同,如拾取黄金的奖励为+1000,……
2
1回答
68意见

代理奖励功能是什么?

我所拥有的理解是,他们以某种方式调整目标,使其更容易满足,而不会改变奖励功能。...观察到的代理奖励功能是近似解决方案......
3.
1回答
194年观点

强化学习中稀疏奖励和密集奖励的优点和缺点是什么?

根据我的理解,如果奖励是稀疏的,代理将不得不探索更多以获得奖励和学习最优策略,而如果奖励是密集的时间,代理将很快被引导……
1
投票
0答案
34次观点

如何将两个不同的重要信号组合成奖励函数,具有不同的尺度?

我有两个信号我想用来建模我的奖励。第一个是CPU时间:从此图中运行均值:第二个是来自该图的最大残差:因为它们都是......
6
2答案
174的浏览量

为什么强化学习中的奖励总是一个标量?

我正在阅读Sutton&Barto的强化学习,并在第3.2节中说明了马尔可夫决策过程中的奖励总是一个标量数。与此同时,我听说过......
4
2答案
192年观点

尝试设计奖励功能时有什么最佳实践?

一般来说,当试图定义强化学习代理的奖励功能时,是否有一个最佳实践程序可以遵循?在定义奖励时存在哪些常见陷阱?
2
1回答
140意见

是每步给出的奖励,或者只给出rl代理失败或成功时给出的奖励?

在加固学习中,一个代理人可以获得正确的行动和对错误行动的负面奖励的积极奖励,但代理人也会收到其他所有阶段/行动的奖励吗?
1
投票
1回答
56观

奖励可以分解成组件吗?

我正在使用TD3训练一个机器人走到一个特定的$(x, y)$点,为了简单起见,我有类似于……
4
1回答
111意见

为什么转移所有奖励对代理商的表现产生了不同的影响?

我是强化学习的新手。对于我的应用,我发现如果我的奖励函数包含一些负的和正的值,我的模型并没有给出最优的解决方案,但…
4
1回答
56观

如何在网格世界中处理无效的操作?

我正在构建一个非常简单的实验,在这个实验中,我让一个代理从$3 * 3$的网格世界的左下角移动到右上角。我计划用DQN来做这件事。我有麻烦了……

15. 30. 50. 每页