必威英雄联盟问题标记(奖励)

问题相关必威英雄联盟的奖励和报酬函数的概念(如强化学习和马尔科夫决策过程的上下文中)。

91个必威英雄联盟问题
通过过滤
标记
2
1回答
21日视图

我们如何推导出连续任务中平均奖励设定的表达式?必威电竞

在平均奖励设置:$ $ r(\π)\ doteq \ lim_ {h \ rightarrow \ infty} \压裂{1}{h} \ sum_ {t = 1} ^ {h} \ mathbb {E} (R_ {t} | S_0,现代{0:t - 1} \ sim \π)$ $ $ $ r(\π)\ doteq \ lim_ {t \ rightarrow \ infty} \ mathbb {E} (R_ {t}…
1
投票
1回答
43岁的观点

为什么在使用D3QN进行广泛的培训后,我的奖励减少了?

我正在运行一个使用D3QN的轻微变体来避免碰撞的无人机模拟器。训练通常是昂贵的(至少要跑一个星期),我观察到奖励功能逐渐…
3.
1回答
57岁的观点

如何在连续的动作空间中修正突发性的动作

我正在训练一个代理做物体回避。代理可以控制它的转向角度和速度。转向角度和速度在$[−1,1]$范围内归一化,符号编码为…
2
1回答
39岁的观点

我该如何为一个以探索地图为目标的代理设计奖励和惩罚

我试着训练一个代理去探索一个未知的二维地图,同时避开圆形的障碍物(有不同的半径)。代理可以控制它的转向角度和速度。…
3.
1回答
31日视图

强化学习中稀疏奖励和密集奖励的优缺点是什么?

根据我的理解,如果奖励是稀疏的,agent将不得不探索更多以获得奖励和学习最优策略,而如果奖励是密集的时间,agent将被快速引导…
2
0答案
54岁的观点

我是否应该在有限视野问题中使用平均折扣奖励作为目标?

我对强化学习是新手,但是,对于一个有限视野应用问题,我考虑使用平均奖励而不是奖励的总和作为目标。具体来说,有一个…
4
2答案
98的浏览量

我们如何防止AGI吸毒?

我最近读了一些关于AI对齐,AIXI和决策理论的介绍。据我所知,AI对齐的主要问题之一是如何定义效用函数,而不是…
0
0答案
28日视图

如何将两种不同的同等重要的信号结合到不同尺度的奖励功能中?

我想用两个信号来模拟我的奖励。第一个是CPU时间:图中运行的平均值:第二个是图中最大剩余值:因为它们都是…
6
2答案
109的浏览量

为什么强化学习中的奖励总是一个标量?

我在读萨顿& Barto强化学习,在3.2节,他们国家的奖励一个马尔可夫决策过程总是一个标量实数。同时,我也听说了……
3.
2答案
139的浏览量

设计奖励功能的最佳做法是什么?

一般来说,有一个最佳实践过程遵循当试图定义一个奖励函数强化学习代理吗?在定义奖励时有哪些常见的陷阱?
2
1回答
83的浏览量

强化学习奖励是逐步设置的,还是整个序列直到失败?

强化学习可能在没有数据的情况下开始,并且agent会因为正确的行为而获得奖励。奖励是逐步发放的,还是只有当代理失败时,奖励才是消极的…
4
3.答案
261的浏览量

深度强化学习问题中最大累积奖励的上限

在深度强化学习问题中,最大累积回报是否有上限?例如,您想在一个环境中培训一个DQN代理,并且您想知道什么是最高的…
2
1回答
98的浏览量

为什么在强化学习(RL)的预期回报计算作为累计回报的总和?

为什么在强化学习(RL)的预期回报计算作为累计回报的总和?计算$\mathbb{E}(R \mid s, a)$(取…的期望回报)不是更有意义吗?
1
投票
1回答
54岁的观点

奖励可以分解成组件吗?

我正在训练一个机器人使用TD3走到特定的$(x, y)$点,为了简单,我有类似于…
2
1回答
88的浏览量

强化学习中的奖励与监督学习问题中的标签有何不同?

在强化学习中使用的即时奖励的概念与我们在监督学习问题中发现的标签的概念有什么不同?

15 30. 50 每个页面
1
2 3. 4 5
7