必威英雄联盟问题标记(reward-shaping)

对于与奖必威英雄联盟励整形,这是在提供补充的奖励,使问题更容易学习的技术问题。在一般情况下,通常有任何问题,一个明显的自然奖励。对于游戏,这通常是一个双赢或亏损。对于财务问题,奖励通常是利润。奖励通过添加在朝着一个好的解决方案的进展额外奖励塑造增强了自然的回报信号。

11个必威英雄联盟问题
通过过滤
标记
3
1回答
57岁的观点

如何在连续的动作空间中修正突发性的动作

我正在训练的做代理对象回避。剂具有在控制它的转向角和它的速度。转向角和速度归一化在$ [ - 1,1] $范围,其中,所述符号编码...
3
2答案
139的浏览量

设计奖励功能的最佳做法是什么?

一般来说,有一个最佳实践方法试图确定为增强学习的代理奖励功能时遵循?哪些常见的陷阱定义的奖励时,在那里...
3
1回答
66次

我应该如何设计赛车游戏的奖励功能(目标是比对手先到达终点线)?

我建立了一个赛车游戏的代理。在这个游戏中,有一个随机的地图,有速度提升玩家拿起和作用以减缓玩家失望的障碍。的目标...
3
1回答
75的浏览量

与奖励塑造相比,使用IRL恢复奖励功能能产生更好的政策吗?

我在一个研究项目工作的有关在RL领域所使用的不同的奖励功能。我已经逆强化学习(IRL)和奖励整形(RS)读了。我想要 ...
3
1回答
91的浏览量

如何避免赞成升降平稳快速执行机构运动在连续的空间和行为空间的问题?

我正在处理一个连续状态/连续动作控制器。它可以通过发出正确的副翼指令($[- 1,1]$)来控制飞机的某个滚转角。为此,我使用了一个……
2
1回答
210点意见

如果奖励乘以一个常数发生了最优值函数是什么?

如果奖励功能是由一个常数$ C $相乘会发生什么到最佳状态,动作值函数,$ Q _ * $?是最佳的状态 - 动作值函数也乘以这样一个常数?
3
1回答
47岁的观点

有没有可靠的方法来修改奖励功能,使奖励更稀疏?

如果我训练的代理,试图导航迷宫尽可能快,简单的奖励会像\开始{对齐} R(\文本{终端})= N - \文本{时间} \ \,\\ n \ GG \文本{...
4
0答案
44岁的观点

如何定义一个以从地面站起来为目标的类人代理的奖励功能?

我试图教一个人形代理如何坠落后站起来。情节与代理趴在地上,其背部触地开始,其目标是在最短的站起来......
6
2答案
357点意见

我们如何定义环境中的奖励功能?

你如何决定在一个特定的环境中,对每个行为给予什么样的回报?这纯粹是实验性的,取决于环境的程序员吗?所以,这是…
3
1回答
59岁的观点

将任意奖励功能表达为基于潜在建议(PBA)

我试图在[1]中复制简单网格世界环境的结果。但是使用动态学习的PBA会使性能变差,我无法得到结果…
3
2答案
1K意见

当状态的潜在价值太高时,我该怎么办?

我工作的一个强化学习任务,我用奖励整形作为下奖励转换的文件政策不变建议:通过理论与必威电竞应用奖励整形(1999年)...