必威英雄联盟问题标记(reward-shaping)
对于与奖必威英雄联盟励塑造有关的问题,这是提供补充奖励的技术,以便更容易学习问题。通常,任何问题都有明显的自然奖励。对于游戏,这通常是胜利或损失。对于财务问题,奖励通常是利润。奖励塑造通过增加额外的奖励来增强自然奖励信号,以实现良好的解决方案。
16个必威英雄联盟问题
5
票
1回答
121的浏览量
为什么每一步都有负面奖励真正鼓励代理人尽快到达目标?
如果我们通过任何常量(这是一种奖励整形)来向奖励转换奖励,则最佳状态 - 动作值函数(以及所以最佳策略)不会改变。此事实的证明可以在这里找到。......
0
票
1回答
92的浏览量
3.
票
1回答
67的浏览量
4
票
2答案
195的浏览量
2
票
1回答
140的浏览量
4
票
1回答
111意见
3.
票
1回答
82意见
3.
票
1回答
90的浏览量
3.
票
1回答
112意见
如何避免快速执行器的运动,有利于连续空间和动作空间问题的平稳运动?
我正在努力在连续的状态/连续行动控制器上工作。它应通过发出正确的AILERON命令来控制飞机的某个卷角(以[ - 1,1] $)。为此,我使用...
2
票
1回答
236的浏览量
缩放版的奖励函数的最优值函数是什么?
考虑奖励函数$ r(s,a)$最佳状态 - 动作值函数$ q _ *(s,a)$。$ c r(s,a)$,$ c \ in \ mathbb {r} $的最佳状态 - 动作值函数是什么?它会是$ ...
3.
票
1回答
59次观点
是否有任何可靠的方式来修改奖励功能,使奖励更少稀疏?
如果我训练一名特工尝试着以最快的速度穿越迷宫,那么简单的奖励便是像\begin{align} R(\text{terminal}) &= N - \text{time}, \ \ N \gg \text{…
4
票
0答案
48个观点
6
票
2答案
439的浏览量
3.
票
1回答
66意见
2
票
1回答
47次观点
在这种情况下,为什么基于潜力的奖励形成似乎会改变最优策略?
众所周知,每个潜在函数都不会改变最佳政策[1]。我缺乏理解为什么。定义:$$ r'= r + f,$$ f = \ gamma \ phi(s') - \ phi(s),$$在哪里,让我们...