2
$ \ $请将BeginGroup

我开始这个博客帖子了解问表介绍强化学习和OpenAI健身房,由贾斯汀·弗朗西斯,其具有线如下 -

如此多的事件后,该算法将收敛,并确定使用Q表中的每个状态的最佳动作,确保尽可能高的回报。我们现在考虑环境的问题就迎刃而解了。

该问表是由Q学习公式更新Q [状态,动作] + =阿尔法*(奖励+ np.max(Q [STATE2]) - Q [状态,动作])

我跑了10万个集,其中我得到了以下 -

插曲99250总奖励:9插曲99300总奖励:7集99350总奖励:6集99400总奖励:14插曲99450总奖励:10情节99500总奖励:10情节99550总奖励:9插曲99600总奖励:14插曲99650总奖励:5集99700总奖励:7集99750总奖励:3集99800总奖励:5

我不知道最高的奖赏是什么。它看起来并不像它已收敛。然而,图形显示在收敛趋势,但它绘制的规模。

应该是什么,当比赛被重置(),但“博学” Q表可采取措施的顺序?我们怎么知道这一点,在这种情况下的奖励?

| 改善这个问题 | |
$ \ $端基

    1个回答1

    2
    $ \ $请将BeginGroup

    你的Q学习更新式,看起来是正确的。该整体奖酬不会在每个情节的结尾相同,因为出租车的起始位置是在每一集不同的,所以所必需的到达最终目的地的步数将在每一集不同。您发布表明,该算法发作的短时间内后会聚使得十万发作可能是太多的图表。由于环境的尝试简单手工计算最优策略有些开始特定位置,然后看看算法所作的动作相同的序列。

    | 提高这个答案 | |
    $ \ $端基

      你的答案

      点击“发表你的答案”,你同意我们的服务条款隐私政策Cookie政策

      不是你要找的答案?浏览其他问题标签必威英雄联盟要么必威电竞问你自己的问题