必威英雄联盟问题标记(reward-design)

有关设计必威英雄联盟(或限定)回报函数例如问题为强化学习问题。

14个必威英雄联盟问题
通过过滤
标记
2
1回答
39次

我该如何为一个以探索地图为目标的代理设计奖励和惩罚

我试着训练一个代理去探索一个未知的二维地图,同时避开圆形的障碍物(有不同的半径)。代理可以控制它的转向角度和速度。…
0
0答案
28日视图

如何将两种不同的同等重要的信号结合到不同尺度的奖励功能中?

我想用两个信号来模拟我的奖励。第一个是CPU时间:图中运行的平均值:第二个是图中最大剩余值:因为它们都是…
3
2答案
139的浏览量

设计奖励功能的最佳做法是什么?

一般来说,有一个最佳实践方法试图确定为增强学习的代理奖励功能时遵循?哪些常见的陷阱定义的奖励时,在那里...
1
投票
0答案
38岁的观点

设计的奖励功能为我的强化学习问题

我工作的一个项目,最近,我在尝试解决强化学习问题,我有塑造回报功能的严重问题。问题是设计具有最大的设备...
3
1回答
51的观点

为什么是奖励函数$ \ {文字奖励} = 1 / {(\ {文本}成本+1)^ 2} $优于$ \ {文字奖励} = 1 /(\ {文本}成本+1)$?

我实现了一个简单的Q-learning算法,通过将奖励设置为agent所采取行动的成本的倒数来最小化代价函数。这个算法收敛得很好,但是…
3
1回答
66次

我应该如何设计赛车游戏的奖励功能(目标是比对手先到达终点线)?

我建立了一个赛车游戏的代理。在这个游戏中,有一个随机的地图,有速度提升玩家拿起和作用以减缓玩家失望的障碍。的目标...
3
1回答
91的浏览量

如何避免赞成升降平稳快速执行机构运动在连续的空间和行为空间的问题?

我正在处理一个连续状态/连续动作控制器。它可以通过发出正确的副翼指令($[- 1,1]$)来控制飞机的某个滚转角。为此,我使用一个…
3
1回答
47岁的观点

有没有可靠的方法来修改奖励功能,使奖励更稀疏?

如果我训练的代理,试图导航迷宫尽可能快,简单的奖励会像\开始{对齐} R(\文本{终端})= N - \文本{时间} \ \,\\ n \ GG \文本{...
4
0答案
44岁的观点

如何定义一个以从地面站起来为目标的类人代理的奖励功能?

我试图教一个人形代理如何坠落后站起来。情节与代理趴在地上,其背部触地开始,其目标是在最短的站起来......
6
2答案
357点意见

我们如何定义的环境回报函数?

你如何真正决定什么奖励价值给在一个给定的状态,每个行动的环境?这是纯粹的实验,下至环境的程序员?因此,它是一个...
3
1回答
59岁的观点

将任意奖励功能表达为基于潜在建议(PBA)

我试图在[1]中复制简单网格世界环境的结果。但是使用动态学习的PBA会使性能变差,我无法得到结果…
2
1回答
303点意见

我应该如何定义连接四个的情况下,奖励功能?

我在游戏Connect4上使用RL训练网络。它很快学会4个相连的部件是好的。它得到1的奖励。其他所有动作都得零分。这需要相当长的时间……
2
2答案
111的浏览量

如何POMDPs确定奖励的功能?

我如何定义我的POMDP模型的奖励功能?在文献中,常见的是用一个简单的数作为奖励,但我不知道这是真的,你怎么定义一个函数。因为这 ...
3
2答案
1K意见

当状态的潜在价值太高时,我该怎么办?

我工作的一个强化学习任务,我用奖励整形作为下奖励转换的文件政策不变建议:通过理论与必威电竞应用奖励整形(1999年)...