2
$ \ $请将BeginGroup

认识我的是,他们以某种方式调整的目标,使之更容易满足,而不改变奖励功能。

...观察到的代理回报功能是奖励设计问题的近似解

(资源:反悬赏设计

但我有麻烦,他们如何适应整体回报目标,并得到了他们的一些例子混淆。我让他们成为小奖励的功能(如在解决稀疏报酬的情况下),最终导致主要目标的想法。但低于,从语句这个帖子,让我质疑。

的代理回报函数典型的例子包括对于看好行为“部分信用”;虚高的折扣率和精心奖励整形,...

  1. 它们是什么,以及如何将一个去识别,并在RL问题整合代理的奖励?

  2. 在上面的例子中,高折扣率怎么会形成一个代理的奖励?

我也很好奇他们是如何使用多奖励的来源

| 改善这个问题 | |
$ \ $端基
  • $ \ $请将BeginGroup 也许看看www.1kvaups.com/q/20040/2444虽然我认为你知道什么叫“代理”通常的手段。 $ \ $端基-NBRO 9月22日在11:24
  • $ \ $请将BeginGroup 因此,“代理”的中介机构。这有助于更加明确到问题的“他们”的一部分 $ \ $端基-mugoh 09月23日5:05时

你的答案

点击“发表你的答案”,你同意我们的服务条款隐私政策Cookie政策

浏览其他问题标签必威英雄联盟要么必威电竞问你自己的问题