0
\ begingroup美元

我在一个有非法移动的环境中实现了一个RL应用程序。为了处理非法移动,我目前只是从合法的q值集合中选择一个动作作为最大的q值。

所以很明显,当我们决定行动时,我们只从有效q值的子集中选择,但当使用Q-learning算法时,我们是否也要考虑有效行动的子集$ \马克斯\ limits_{一}Q (s_ {t + 1},) $

我的直觉告诉我,我们考虑最大函数的所有行动,纯粹是基于缺乏相关文件,但只考虑法律行动的子集对我来说更有意义。我很难找到任何可靠的来源来解决这个问题。任何建议/指导将非常感谢。

Q学习方程来自https://en.wikipedia.org/wiki/Q-learning

\ endgroup美元

    你的答案

    点击“发布你的答案”,即表示你同意我们的服务条款隐私政策饼干的政策

    浏览其他带标签的问题必威英雄联盟必威电竞问你自己的问题