0
\ begingroup美元

考虑下面的决策问题。我们有一个控制器从坐标网格中选择位置并捕获图像(观察)o_t美元),每个位置都有一个摄像头(动作)a_t美元).我们试图为一个特定的目标找到一个最佳的位置序列。该决策问题可以形式化为部分可观察马尔可夫决策过程(POMDP)。在这里,我们寻求一个最优的随机策略$ \π^{*}_{\θ}(a_t | h_t)美元绘制历史地图$h_t= langle o_1, a_1,…,o_{t-1},a_{t-1},o_t \rangle$迄今为止的行动和观察元新台币行动的可能性。历史上h_t美元可以用RNN的隐藏状态进行总结,我们可以使用策略梯度方法,如REINFORCE,来更新策略参数\θ美元

假设现在我们想要同时选择多个位置,也就是动作。根据我的理解,我们可以将这个问题形式化为多agent POMDP (mpdp)[1]。在这种形式主义中,我们将用联合行动取代前一个问题的单一行动$ vec{a}_t = langle a^1_t,…, ^ N_t \纠正美元即通过联合观察进行单一观察$ vec{o}_t = langle o^1_t,…阿^ N_t \纠正美元历史$h_t= langle \vec{o}_1, \vec{a}_1,…,\vec{o}_{t-1},\vec{a}_{t-1},\vec{o}_t \rangle$,在那里N美元为代理的数量。我们现在将试图找到一个最优的联合政策$ vec{\pi}^{*} = langle \pi^{1*},…, \π^ {N *} \纠正美元sub-policies组成的$ \ pi_ {\ theta_n} (^ n_t | h_t)美元这幅历史地图h_t美元为每个agent的动作概率n美元.这就意味着RNN会N美元输出节点和每个子策略\π^ n美元会被参数化吗\ theta_n美元,输出层[2]权值的子集。假设一个最优或接近最优的联合政策是正确的吗$\vec{\pi}^{*}$可以简单地将上述的策略梯度方法应用于每个子策略\π^ n美元

我很想听听你对MPOMDP形式主义应用于后一个决策问题的看法,或者你是否会提出其他建议。

等。“分散式pomdp的简明介绍。”施普林格,2016年。

[2] Gupta,Jayesh K.等人,“使用深度强化学习的多智能体协作控制”,《自主智能体和多智能体系统国际会议》。湛斯普林格,2017年。

新的因素
Schlozma是本网站的新贡献者。在要求澄清、评论和回答时要必威电竞小心。看看我们的行为准则
\ endgroup美元

    你的答案

    Schlozma是一个新的贡献者。友好点,看看我们的的行为准则

    点击“发布你的答案”,即表示你同意我们的服务条款隐私政策饼干的政策

    浏览其他带标签的问题必威英雄联盟必威电竞问你自己的问题