2
$ \ begingroup $

我所拥有的理解是,他们以某种方式调整目标,使其更容易满足,而不会改变奖励功能。

...观察到的代理奖励功能是奖励设计问题的近似解决方案

(资源:逆奖励设计

但我难以让他们符合整体奖励目标,并被他们一些例子困惑。我认为他们是小奖励功能(如在解决稀疏奖励的情况下)最终导致主要目标。但下面的声明,来自这个帖子,让我质疑。

代理奖励函数的典型示例包括看起来有希望的行为的“部分信用”;人工高折扣率和仔细奖励塑造; ...

  1. 他们是什么,以及如何在RL问题中识别和整合代理奖励?

  2. 在上面的示例中,高折扣率如何形成代理奖励?

我也很好奇它们如何用作多奖励的来源

| 改善这个问题 | |
$ \ endgroup $
  • $ \ begingroup $ 也许看看www.1kvaups.com/q/20040/2444.虽然我认为你知道通常是什么意思。 $ \ endgroup $-nbro. 9月22日11:24
  • $ \ begingroup $ 所以“代理”是中介机构。这有助于将清晰度添加到“他们是什么”的问题中 $ \ endgroup $-穆乔 9月23日在5:05
0.
$ \ begingroup $

在你引用的论文中,逆奖励设计(2017),作者实际上定义了它们的意思“代理奖励函数”。

我们将其正规化为概率模型,涉及的概率模型代理(设计)奖励真正的奖励

所以代理reward function is the reward function designed by the human, which may not necessarily be the reward function that he/she intended (i.e. it may be a misspecified reward function), given that the human may have forgotten to model/incorporate certain (unpredicted by the human) scenarios or situations that the agent may face. This usage of the word "proxy" is thus consistent with the general usage of the word in computer science, i.e. a "proxy reward function" is a reward function that is used代替预期的(最佳)奖励功能。

| 改善这个答案 | |
$ \ endgroup $

    你的答案

    点击“发布答案”,您同意我们的同意服务条款隐私政策Cookie政策

    不是您要找的答案?浏览其他标记的问题必威英雄联盟要么必威电竞问你自己的问题