必威英雄联盟问题标记[马尔可夫决策过程]

马尔可夫必威英雄联盟决策过程(MDP)是一个数学框架,用于对结果部分随机且部分受决策者控制的情况下的决策建模。MDP的概念有助于研究动态规划和强化学习所解决的优化问题。

73个必威英雄联盟问题
筛选依据
排序
与标签
3
1回答
29个视图

为什么学习$ s'的$从$ S,A $核密度估计问题,但是从$ S $学习R $,$一个就是回归?

在David Silver的第8节课中,他谈到了模型学习,他说从$s学习$r$,a$是一个回归问题,而从$s学习$s'$,a$是一个核密度估计。他的。。。
3
1回答
68个视图

如何转换的MDP与形式$ R奖励功能(S,A,S')$,以和形式$ R与奖励功能的MDP(S,A)$?

AIMA的书中有一个练习,说明奖励形式为$r(s,a,s')$的MDP可以转换为奖励形式为$r(s,a)$的MDP,以及奖励形式为$r(s)$的MDP。。。
2
2答案
174点意见

为什么政策不是MDP定义的一部分?

我读强化学习的文章,我不明白为什么代理的政策$ \ $ PI是不是马尔可夫决策过程(MDP)的定义的一部分:卜,卢西恩,罗伯特·巴布,并...
2
0答案
50个视图

我们可以用高斯过程来近似POMDP中每个时刻的信念分布吗?

假定$ X_ {T + 1} \ SIM \ mathbb {P}(\ CDOT | X_T,A_T)$表示在强化学习(RL)的问题的状态转移动力学。让$ {Y_ T + 1} = \ mathbb {P}(\ CDOT | X_ {T + 1})$表示吵...
1
投票
1回答
124点意见

如何酒杯被配制成马尔可夫决策过程?

我正在阅读萨顿·巴顿的强化学习课本,并遇到了21点游戏(示例5.1)的有限马尔可夫决策过程(MDP)示例。环境不是。。。
1
投票
0答案
24次

不在自定义RL环境中工作的最新算法

我试图在一个定制的、高度随机的环境(MDP)上训练一个RL代理。为了做到这一点,我正在使用由稳定基线提供的最新RL算法的现有实现。。。
0
1回答
25次

是什么的MDP的状态转移和动作值之间的差异?

比方说,我们有MDP,我们有一个状态转换矩阵。从动作值在加固这种状态转换不同的是怎样学习?在MDP随机状态转换...
1
投票
0答案
34个视图

如何为古典MDP和面向对象的MDP的看法有什么不同?

我一直在阅读所附文件 - 其目的是模型实体世界为对象,包括学习剂本身!至少可以说,我们的目标是导航通过什么似乎是一个...
2
3答案
60次

为什么它是有意义的研究用的MDP有限状态和行动空间?

在强化学习(RL)问题的标准马尔可夫决策过程(MDP)形式化(萨顿和巴托,1998年),由有限的使用环境决策者交互...
1
投票
1回答
27次

可以优化立即回报结果最大化回报的策略?

强化学习代理的目标是最大化预期回报,而预期回报通常是未来回报的折现总和。回报确实是一个非常嘈杂的随机变量作为未来的回报。。。
3
0答案
16个视图

半马尔可夫决策过程中报酬率与抽样报酬的关系

针对连续时间马尔可夫决策问题的强化学习方法,给出了Q-学习算法在应用于半马尔可夫决策问题时的更新规则。。。
3
2答案
122个视图

状态-动作-下一个状态的预期回报公式是三元函数的三倍

在阅读关于强化学习,我已经在求和方面遇到下列表达式预期的回报,分母其中我不能占。该...
2
0答案
22次

我怎样才能正式$ N $剂的非零和博弈马尔科夫游戏?

我在离散动态环境中与RL Q学习和DQN剂编码$ N $代理的非零和博弈。这就像一场马拉松比赛。只有两个动作每剂可用:$ \ {绿\ {文本(移动...
1
投票
0答案
12次

后验抽样强化学习探索不足

在后取样强化学习(PSRL),代理维护“置信度分布”过的MDP。在每一集的开始,样品PSRL从这个分布的MDP,然后如下...
3
0答案
28个视图

如何国有探视频率“最大熵逆强化学习”计算的?

我想了解布赖恩Ziebart表示最大熵反RL方法的制定。特别是,我停留在如何理解国家的计算 - 探视频率。...

15个 30个 50个 每页