必威英雄联盟问题标记(reward-design)

关于设计必威英雄联盟(或定义)奖励功能的问题,例如强化学习问题。

28日必威英雄联盟问题
通过过滤
标记
1
投票
1回答
48个观点

如果环境的奖励功能取决于某些初始条件,我是否应该为每个条件创造单独的环境?

我想要一些关于如何为强化学习代理设计一个环境的指导,在这个环境中,环境的停止条件和奖励会根据初始输入集而改变……
0
0答案
30的观点

汤普森采样与伯努利先验和非二进制奖励更新

我正在解决一个问题,我必须为给定的数据选择可能最好的服务器(级别1)。这些服务器(级别1)依次访问其他一些服务器(级别2)以完成请求. ...
2
0答案
22日视图

我如何阻止RL代理在零和游戏中绘图?

我的经纪人在比赛中获胜、平局和失败时分别会得到1、0和-1美元的奖励。将奖励设置为-1美元会产生什么结果?这会鼓励经纪人赢吗?
2
2答案
84的浏览量

如何定义奖励函数来解决深度Q-learning的Wumpus游戏?

我正在为Wumpus游戏编写DQN代理。训练q -网络(目标网络和策略)的奖励功能是否与游戏的分数相同,如拾取黄金的奖励为+1000,……
2
1回答
44岁的观点

我该如何为探索地图的代理设计奖励和惩罚

我尝试着训练一个agent去探索一个未知的二维地图,同时避开圆形的障碍物(不同半径的)。代理可以控制它的转向角度和速度。…
1
投票
0答案
34岁的观点

如何将两个同等重要的信号结合到具有不同尺度的奖励功能中?

我有两个信号,我想用它来模拟我的奖励。第一个是CPU时间:运行平均值从这个图:第二个是最大残余从这个图:因为他们都是…
4
2答案
195的浏览量

设计奖励功能的最佳实践是什么?

一般来说,当试图定义强化学习代理的奖励功能时,是否有一个最佳实践程序可以遵循?在定义奖励时存在哪些常见陷阱?
2
1回答
140的浏览量

奖励是在每一步都给予还是只在RL代理失败或成功时给予?

在强化学习中,一个agent可以因为正确的行为而获得正奖励,因为错误的行为而获得负奖励,但是agent是否也会因为其他步骤/行为而获得奖励呢?
1
投票
1回答
56岁的观点

奖励可以分解成组件吗?

我正在使用TD3训练一个机器人走到一个特定的$(x, y)$点,为了简单起见,我有类似于……
1
投票
0答案
40的观点

为我的强化学习问题设计一个奖励函数

我最近在做一个项目,我试图解决强化学习的一个问题,我在塑造奖励功能方面有严重的问题。问题是设计一个最大限度…
4
1回答
56岁的观点

如何在网格世界中处理无效的操作?

我正在构建一个非常简单的实验,在这个实验中,我让一个代理从$3 * 3$的网格世界的左下角移动到右上角。我计划用DQN来做这件事。我有麻烦了……
3.
1回答
62的浏览量

为什么奖励函数$\text{reward} =1/ {(\text{cost}+1)^2}$优于$\text{reward} =1/(\text{cost}+1)$?

我已经实现了一个简单的Q-learning算法,通过将奖励设置为代理所采取行动的成本的倒数来最小化成本函数。算法收敛得很好,但是…
3.
1回答
82的浏览量

我该如何设计赛车游戏的奖励功能(游戏邦注:目标是先于对手到达终点线)?

我在为一款赛车游戏找经纪人。在这款游戏中,有一个随机的地图,玩家可以从中获得速度提升,障碍会减慢玩家的速度。目标的……
2
1回答
76的浏览量

我如何实现一个具有TRPO的8自由度机器人手臂的奖励功能?

我需要一个8自由度的机器人手臂来移动一个指定的点。我需要使用OpenAI gym实现TRPO RL代码。我已经有了凉亭环境。但我不确定如何……
3.
1回答
112的浏览量

如何避免驱动器快速运动有利于在连续空间中平稳运动和动作空间的问题?

我正在使用连续状态/连续动作控制器。通过发出正确的副翼指令($[- 1,1]$)来控制飞机一定的滚转角。为此,我使用了……

15 30. 50 每个页面