2
$ \ $请将BeginGroup

为强化学习问题适用于设置只有一个的时候 - 最终 - 奖励。我知道关于他们唯一一个奖励和相当长的路径有稀疏的问题和延迟的回报,但什么?

| 改善这个问题 | |
$ \ $端基

    1个回答1

    8
    $ \ $请将BeginGroup

    RL可用于这些情况,但是,在这样的背景下,轨迹在代理接收的经历并没有提供关于行动的质量多的信息。

    游戏经常可以配制成阶段性任务。必威电竞例如,你可以制定一个国际象棋比赛的一个小插曲,你只能在比赛结束给予奖励。然而,这将是很难的RL“理解”这些举动都主要贡献获得奖励。这就是所谓的信用分配问题

    表达“延迟奖励”也指的是你在情节的结尾只接收一个奖励的情况。

    | 提高这个答案 | |
    $ \ $端基

      你的答案

      点击“发表你的答案”,你同意我们的服务条款隐私政策Cookie政策

      不是你要找的答案?浏览其他问题标签必威英雄联盟要么必威电竞问你自己的问题