必威英雄联盟问题标记(奖励)

对于与奖必威英雄联盟励和奖励功能概念有关的问题(例如,在加强学习和马尔可夫决策过程中)。

84个必威英雄联盟问题
过滤
排序
标记
2
1回答
35次观点

我们如何在持续任务中获得平均奖励设置的表达式?必威电竞

在平均奖励设置:$ $ r(\π)\ doteq \ lim_ {h \ rightarrow \ infty} \压裂{1}{h} \ sum_ {t = 1} ^ {h} \ mathbb {E} (R_ {t} | S_0,现代{0:t - 1} \ sim \π)$ $ $ $ r(\π)\ doteq \ lim_ {t \ rightarrow \ infty} \ mathbb {E} (R_ {t}…
1
投票
1回答
60的观点

为什么我的奖励在使用D3QN进行广泛培训后减少?

我正在运行一个无人机模拟器,使用D3QN的轻微变体进行避碰。训练通常是昂贵的(至少跑一周),我已经逐渐观察到奖励的作用……
1
投票
0答案
33次观点

为什么DDPG与后敏感体验重播不收敛?

我正在训练一个带有后见之明经验重放(HER)的DDPG代理来解决KukaGymEnv环境。演员和评论家是带有两个隐藏层的简单神经网络(如…
3.
1回答
67的浏览量

如何在连续的动作空间中修复生涩的运动

我正在培训代理人来做对象避免。该代理可以控制其转向角度及其速度。转向角度和速度在$ [ - 1,1] $范围内标准化,标志编码......
2
1回答
44岁的观点

我该如何为探索地图的代理设计奖励和惩罚

我试图训练一个代理商来探索未知的二维地图,同时避免圆形障碍物(具有不同的半径)。该代理可以控制其转向角度及其速度。......
2
0答案
56观

我是否应该在有限视界问题中使用折现的平均奖励作为目标?

我是强化学习的新手,但是对于一个有限视界的应用问题,我正在考虑使用平均奖励而不是奖励总和作为目标。具体来说,有一个……
4
2答案
108意见

我们如何阻止AGI吸毒?

我最近介绍了AI对齐,AIXI和决策理论的介绍。据我所知,AI对齐中的主要问题之一是如何井定义实用程序功能,而不是...
6
2答案
174的浏览量

为什么强化学习中的奖励总是一个标量?

我正在阅读Sutton & Barto的《强化学习》,在第3.2节中,他们指出马尔可夫决策过程中的奖励总是一个标量实数。同时,我听说……
4
3.答案
320意见

在深增强学习问题中的最大累积奖励的上限

在深度强化学习问题中,最大累积奖励有上限吗?例如,你想在一个环境中训练一个DQN代理,你想知道什么是最高的。
2
1回答
141意见

为什么强化学习(RL)的预期回报是累积奖励的总和?

为什么强化学习(RL)的预期回报是累积奖励的总和?计算$\mathbb{E}(R \mid s, a)$(获取…的预期回报)不是更有意义吗?
2
1回答
104的浏览量

强化学习中的奖励与监督学习中的标签有何不同?

在强化学习中使用的即时奖励的概念与我们在监督学习问题中发现的标签的概念有何不同?
4
1回答
111意见

为什么转移所有奖励对代理商的表现产生了不同的影响?

我是强化学习的新手。对于我的应用,我发现如果我的奖励函数包含一些负的和正的值,我的模型并没有给出最优的解决方案,但…
1
投票
2答案
62的浏览量

如何计算折扣系数和奖励顺序的返回?

我知道$G_t = R_{t+1} + G_{t+1}$。假设$\gamma = 0.9$,奖励序列为$R_1 = 2$,后面是一个由$7$s组成的无限序列。$G_0$的值是多少?既然它是无限的,我们怎么能……
1
投票
0答案
38岁的观点

非政策估计的重要抽样是否也适用于负奖励的情况?

重要采样是计算RL中的截止策略估计的常用方法。我一直在阅读一些原始文件(D.G. Horvitz和D.J. Thompson,Powell,M.J.和...
2
1回答
266的浏览量

用于更新神经网络的不可微奖励函数

在钢筋学习中,当奖励功能不分辨率时,策略梯度算法用于更新网络的权重。在纸质神经结构中搜索...

15. 30. 50. 每页