必威英雄联盟问题标记(reward-shaping)

对于与奖必威英雄联盟励塑造有关的问题,这是提供补充奖励的技术,以便更容易学习问题。通常,任何问题都有明显的自然奖励。对于游戏,这通常是胜利或损失。对于财务问题,奖励通常是利润。奖励塑造通过增加额外的奖励来增强自然奖励信号,以实现良好的解决方案。

16个必威英雄联盟问题
过滤
排序
标记有
5
1回答
121的浏览量

为什么每一步都有负面奖励真正鼓励代理人尽快到达目标?

如果我们通过任何常量(这是一种奖励整形)来向奖励转换奖励,则最佳状态 - 动作值函数(以及所以最佳策略)不会改变。此事实的证明可以在这里找到。......
0
1回答
92的浏览量

奖励功能的移动版本的最佳价值函数是什么?

类似于我之前问的问题,什么是最优值函数的移动(通过一些常数$c$)版必威电竞本的一些奖励函数?更准确地说,我们假设$r(s,…
3.
1回答
67的浏览量

如何在连续的动作空间中修复生涩的运动

我正在培训代理人来做对象避免。该代理可以控制其转向角度及其速度。转向角度和速度在$ [ - 1,1] $范围内标准化,标志编码......
4
2答案
195的浏览量

设计奖励功能的最佳实践是什么?

一般来说,当试图定义强化学习代理的奖励功能时,是否有一个最佳实践程序可以遵循?在定义奖励时存在哪些常见陷阱?
2
1回答
140的浏览量

是每步给出的奖励,或者只给出rl代理失败或成功时给出的奖励?

在加固学习中,一个代理人可以获得正确的行动和对错误行动的负面奖励的积极奖励,但代理人也会收到其他所有阶段/行动的奖励吗?
4
1回答
111意见

为什么转移所有奖励对代理商的表现产生了不同的影响?

我是强化学习的新手。对于我的应用,我发现如果我的奖励函数包含一些负的和正的值,我的模型并没有给出最优的解决方案,但…
3.
1回答
82意见

我该如何设计赛车游戏的奖励功能(游戏邦注:目标是先于对手到达终点线)?

我在为一款赛车游戏找经纪人。在这款游戏中,有一个随机的地图,玩家可以从中获得速度提升,障碍会减慢玩家的速度。目标的……
3.
1回答
90的浏览量

与奖励塑造相比,可以恢复使用IRL的奖励功能导致更好的政策?

我正在研究一个关于RL域中使用的不同奖励功能的研究项目。我已经阅读了逆钢筋学习(IRL)并奖励整形(RS)。我想要 ...
3.
1回答
112意见

如何避免快速执行器的运动,有利于连续空间和动作空间问题的平稳运动?

我正在努力在连续的状态/连续行动控制器上工作。它应通过发出正确的AILERON命令来控制飞机的某个卷角(以[ - 1,1] $)。为此,我使用...
2
1回答
236的浏览量

缩放版的奖励函数的最优值函数是什么?

考虑奖励函数$ r(s,a)$最佳状态 - 动作值函数$ q _ *(s,a)$。$ c r(s,a)$,$ c \ in \ mathbb {r} $的最佳状态 - 动作值函数是什么?它会是$ ...
3.
1回答
59次观点

是否有任何可靠的方式来修改奖励功能,使奖励更少稀疏?

如果我训练一名特工尝试着以最快的速度穿越迷宫,那么简单的奖励便是像\begin{align} R(\text{terminal}) &= N - \text{time}, \ \ N \gg \text{…
4
0答案
48个观点

如何定义一个目标是站起来的人形机器人的奖励功能?

我正试图教育人形代理如何在下降后站起来。这一集开始与躺在地板上的代理商触摸地面,它的目标是在最短的...中站起来......
6
2答案
439的浏览量

我们如何定义环境中的奖励功能?

在给定的环境状态下,你如何决定每个行动的奖励价值?这是纯粹的实验和环境的程序员吗?那么,它是……
3.
1回答
66意见

将任意的奖励功能表达为基于潜在建议(PBA)

我正在尝试重现[1]中简单的网格世界环境的结果。但事实证明,使用动态学习的PBA使性能更糟,我无法获得结果......
2
1回答
47次观点

在这种情况下,为什么基于潜力的奖励形成似乎会改变最优策略?

众所周知,每个潜在函数都不会改变最佳政策[1]。我缺乏理解为什么。定义:$$ r'= r + f,$$ f = \ gamma \ phi(s') - \ phi(s),$$在哪里,让我们...

15. 30. 50. 每页