2
\ begingroup美元

我的问题是一个没有回答的问题:必威电竞多个连续行动的政策梯度

我试图实现一个简单的策略梯度算法的离散多行动强化学习任务。必威电竞更准确地说,有三个驱动器。在每一个时间步长,每个执行器都可以执行三种可能的动作之一。

是否有可能调整损失函数从单行动情况每时间步

$$L = \log(P(a_1)) A$$

每步n个动作?

$ $ L = (\ log (P (a_1)) + \ log (P (A₂))+ + \ \点日志(P (an))) $ $

\ endgroup美元
1
  • \ begingroup美元 欢迎来到艾!附带问题本身成为一个问题是完全可以接受的。谢谢你提出来。 \ endgroup美元- - - - - -DukeZhou Apr 26 '18 16:02

你的答案

点击“发表您的答案”,表示您同意我们的服务条款隐私政策饼干的政策

浏览标记的其他问题必威英雄联盟必威电竞问你自己的问题