2
$ \ begingroup $

我所拥有的理解是,他们以某种方式调整目标,使其更容易满足,而不会改变奖励功能。

…观察代理报酬函数是一个报酬设计问题的近似解

(资源:逆奖励设计)

但我难以让他们符合整体奖励目标,并被他们一些例子困惑。我认为他们是小奖励功能(如在解决稀疏奖励的情况下)最终导致主要目标。但下面的声明,来自这篇文章,这让我产生了疑问。

代理奖励函数的典型示例包括看起来有希望的行为的“部分信用”;人工高折扣率和仔细奖励塑造; ...

  1. 他们是什么,以及如何在RL问题中识别和整合代理奖励?

  2. 在上面的示例中,高折扣率如何形成代理奖励?

我也很好奇它们是如何作为多种奖励的来源

\ endgroup美元
  • $ \ begingroup $ 也许看看www.1kvaups.com/q/20040/2444,不过我想你应该知道“代理”通常是什么意思。 \ endgroup美元- - - - - -nbro 11:24 9月22日
  • $ \ begingroup $ 所以“代理”是中介机构。这有助于将清晰度添加到“他们是什么”的问题中 \ endgroup美元- - - - - -mugoh 9月23日20日在5:05
  • $ \ begingroup $ 请阅读我的答案www.1kvaups.com//24074/2444,如果你还没有。如果它能回答你的问题,你就应该接受它。我看了那篇IRD论文和其他相关的论文,所以我很有信心答案是正确的。如果还有什么不清楚的地方,让我知道。拜托,看一看www.1kvaups.com/help/someone-answers.更多细节。 \ endgroup美元- - - - - -nbro 1月16日18:17
  • $ \ begingroup $ 谢谢你指出这一点@nbro。我还想弄清楚代理奖励的贴现率有多高,hiw代理可以用作多种奖励的来源 \ endgroup美元- - - - - -mugoh 1月17日4点13分
  • $ \ begingroup $ 这并不清楚文章作者的意思是“人工高折扣率”。如果他们指的是R1算法的折扣因子,它甚至不清楚。即使是这种情况,它也不清楚为什么这将是“代理奖励功能”。折扣系数是重量短期和长期奖励的方式,但它不太清楚为什么人们会考虑一个“代理奖励功能”。也许这与该文章的“长时间地平线”部分有关。也许最好的事情是通过电子邮件给文章的作者并要求他回答你的其他问题。必威英雄联盟必威电竞 \ endgroup美元- - - - - -nbro 1月17日18:34

1回答1

1
$ \ begingroup $

在你引用的论文中,逆奖励设计(2017),作者实际上定义了他们所谓的“代理报酬函数”。

我们将其正规化为概率模型,涉及的概率模型代理(设计)奖励真正的奖励

所以代理reward function is the reward function designed by the human, which may not necessarily be the reward function that he/she intended (i.e. it may be a misspecified reward function), given that the human may have forgotten to model/incorporate certain (unpredicted by the human) scenarios or situations that the agent may face. This usage of the word "proxy" is thus consistent with the general usage of the word in computer science, i.e. a "proxy reward function" is a reward function that is used而不是预期的(最佳的)奖励功能。

\ endgroup美元

    你的答案

    点击“发表您的答案”,即表示您同意我们的答案服务条款,隐私政策饼干的政策

    不是你想要的答案?浏览其他标记的问题必威英雄联盟必威电竞问自己的问题