必威英雄联盟标签的问题[奖励]

有关奖励必威英雄联盟和奖励函数概念的问题(例如,在强化学习和马尔可夫决策过程中)。

65个必威英雄联盟问题
通过过滤
与标签
投票
1个回答
68的浏览量

如何转换的MDP与形式$ R奖励功能(S,A,S')$,以和形式$ R与奖励功能的MDP(S,A)$?

AIMA的书中有一个练习,展示了一个MDP与奖励形式$r(s, a, s')$可以转换成一个MDP与奖励形式$r(s, a)$,和一个MDP与奖励形式$r(s)$等价…
1个
投票
0个答案
24个视图

最先进的算法不工作在自定义的RL环境

我试图在一个定制的、高度随机的环境(MDP)上训练一个RL代理。为了做到这一点,我正在使用由稳定基线提供的最先进的RL算法的现有实现…
1个
投票
1个回答
44个视图

你如何知道一个代理是否在强化学习中了解了它的环境?

我对强化学习和理解它很陌生。如果你使用强化学习算法(离散或连续)在一个环境(真实或模拟)上训练一个代理,那么如何。。。
2个
投票
1个回答
29日视图

在未来的某个遥远的时间里,不应该计算预期回报$t+n$而不是当前的时间$t$?

我是第一次学习RL。这可能是天真的,但是理解这样的想法有点奇怪,如果RL的目标是最大化预期收益,那么预期收益不应该是…
1个
投票
1个回答
27个视图

哪种奖励函数适用于使用知识图的推荐系统?

我一直在阅读这篇关于推荐系统使用强化学习(RL)和知识图(KGs)的论文。为了说明一些背景,该图有几个(有限多)实体,其中……
2个
投票
0个答案
23日视图

赛车游戏的奖励功能

我正忙于一个项目,在那里我正在为一个赛车游戏建立一个代理。在这个游戏是一个随机的地图,有速度的提高,为球员拿起和障碍行动,以减缓。。。
投票
1个回答
37个视图

具有稀疏报酬、连续行为和显著随机性的RL问题的适当算法

我正在研究一个具有以下属性的RL问题:奖励非常稀少,即除了终端非零奖励之外,所有奖励都是0。理想情况下,我不会使用任何奖励工程。。。
1个
投票
1个回答
27个视图

可以优化立即回报结果最大化回报的策略?

强化学习代理的目标是最大化预期回报,而预期回报通常是未来回报的折现总和。作为未来回报,回报确实是一个非常嘈杂的随机变量……
2个
投票
0个答案
23日视图

我应该如何为一个NLP问题设计一个奖励函数,其中两个模型互操作?

我想设计一个奖励功能。从第一个模型开始,我训练了两个模型对文本(段落和关键字)进行分类,我也得到了一些隐藏状态。第二种模式是……
0个
投票
1个回答
30个视图

什么是衡量强化学习代理的实际效果的最佳标准?

即使我们在每一个动作之后都得到了一个有价值的奖励信号,这个即时的奖励也只是近似于动作的短期好处。考虑到行动的长期影响,我们。。。
投票
2个答案
122的浏览量

状态操作的期望报酬公式下一个状态三元组作为一个三参数函数

在阅读关于强化学习的文章时,我发现了下面的一个表达式,它表示的是一个求和的期望回报,我无法解释这个值的分母。这个。。。
投票
0个答案
20个视图

如何投入工作的正常化PPO的背景下?

在PPO的上下文中,输入的标准化意味着什么?在每一集的每一个时间步,如果我跟踪它们,我只知道这个时间步和之前的时间步的值。这个…
2个
投票
0个答案
28个视图

DQN是如何训练来玩很多游戏的?

有人说DQN被用来玩很多Atari游戏。但到底发生了什么?DQN是只训练过一次(有来自所有游戏的一些数据)还是为每个游戏单独训练?什么是。。。
1个
投票
1个回答
94个视图

在RL,如果我分配了位置更好的发挥回报,该算法是学习什么?

我正在为游戏Connect 4创建一个RL应用。如果我告诉算法移动/标记位置将获得更大的奖励,那么它肯定什么也没有学到;这只是…
1个
投票
1个回答
38个视图

什么是奖励功能和值函数之间的关系?

为了在我的头脑中澄清这一点,价值函数通过累加所有未来(折现)的奖励来计算处于某一状态的“好”程度,而奖励函数是价值函数所使用的……

15 30. 50 每个页面