必威英雄联盟问题标记(pomdp)

对于与部必威英雄联盟分观察到的马尔可夫决策过程(POMDP)的概念有关的问题,这是马尔可夫决策过程(MDP)的概括到与各国的信息不完整(或部分可观察)。

24个必威英雄联盟问题
过滤
标记
0
0答案
26意见

如何使用单步视野(Bandit)学习POMDP的价值函数?

给定一个单步POMDP,我知道信念状态值函数是分段线性和凸的,每个动作都有一个超平面。我的问题是,鉴于我只观察到…
3.
0答案
45意见

如何在POMDP中更新观察概率?

如何更新POMDP(或HMM)的观察概率,以便具有更准确的预测模型?POMDP依赖于与州的观察匹配的观察概率....
1
投票
0答案
12的观点

如何从POMDP的置信空间上的值函数向量获得有限状态控制器形式的策略?

我在读汉森的这篇文章。它表明:在对政策的解释中,向量和一步政策选择之间的对应起着重要的作用。$\…
1
投票
0答案
21次观点

理解POMDPs改进策略迭代的示例

我正在汉森经历本文。本文通过将$ \ alpha $向量转换为有限状态控制器,然后将它们进行比较以获得改进的信息来提出政策改进。
1
投票
0答案
47次观点

如何在卷积神经网络的输入层堆叠多个观测值?

本文,深度复发性Q-Learning用于部分可观察到的MDP,谈到卷积神经网络的输入中的多个观察。这是如何工作的?做......
1
投票
0答案
41岁的观点

在强化学习中,贝叶斯自适应MDP和信念MDP之间的区别是什么?

我最近一直在阅读这一领域的几篇论文,我一直在划过这两种术语。就我所知,信仰-MDP是当您将POMDP作为具有连续状态的常规MDP时...
2
0答案
56观

如果在部分可观察到的环境中的RL代理的性能是“好的”,那么这可能只是偶然的?

在我的研究中,我记得读到过,在一个环境下,可以用部分可观测的MDP建模,没有收敛的保证(不幸的是,我没有找到这篇论文…
0
2答案
53意见

MDP中单独的“过渡模型”是否意味着它是不确定性的?

我正在看一个关于POMDP的讲座,背景是,当四轴飞行器看不见路标时,它必须使用计算。然后他提到过渡模型是不确定性的,因此…
2
0答案
37的观点

如何为一个网格世界选择一个RL算法来模拟一个更复杂的问题

我正在考虑使用强化学习来做一个由两个参数$(n_o,n_i)控制的复杂过程的最佳控制,\ quad n_i = 1,2,3,\ dots,m_i,n_o = 1,2,3,\ dots,m_o $ in this ...
3.
0答案
63的浏览量

我们可以使用高斯过程来估计POMDP中每立方体的信仰分布吗?

假设$x_{t+1} \sim \mathbb{P}(\cdot | x_t, a_t)$表示强化学习(RL)问题中的状态转移动态。让美元y_ {t + 1} = \ mathbb {P} (\ cdot |间{t + 1})表示美元的…
3.
0答案
45意见

在游戏过程中是部分可观察的环境所需的蒙特卡罗树搜索?

我明白,通过完全可观察的环境(国际象索/ Go等),您可以使用最佳的政策网络运行MCT,以备将来的规划目的。这将允许您选择游戏操作的操作,...
3.
1回答
65的浏览量

基于网格的解决方案背后的直觉是什么?

在花了一些时间阅读了POMDP之后,我仍然很难理解基于网格的解决方案是如何工作的。我理解有限地平线暴力破解的方法,你有你的…
1
投票
0答案
44岁的观点

为什么核心强化学习算法可以应用于POMDPs?

为什么像AlphaStar这样的AI可以在《星际争霸》中工作,尽管环境只能部分被观察到?据我所知,目前还没有关于POMDP环境下RL的理论结果,但是…
3.
0答案
49次观点

自播工作究竟是如何与MCT相关的?

我正致力于使用RL创造一款双人、隐藏信息的回合制桌面游戏的AI。我刚刚完成了David Silver的RL课程和Denny Britz的编程练习,所以…
2
0答案
33的观点

有哪些方法可以估计POMDP中的转移和观测概率?

估计过渡或观察概率的一些常见方法是什么,当概率不完全已知?在实现POMDP模型时,状态模型需要额外...

15. 30. 50. 每页