2
\ begingroup美元

我的理解是,他们会在不改变奖励功能的情况下调整目标,使其更容易实现。

...观察到的代理奖励功能是奖励设计问题的近似解决方案

(来源:逆奖励设计

但我却很难理解它们是如何与整体奖励目标相匹配的,并因为某些例子而感到困惑。我认为它们是小型奖励函数(游戏邦注:就像解决稀疏奖励的情况),最终通向主要目标。但是下面的陈述,来自这篇文章,让我质疑。

代理奖励功能的典型例子包括对看起来有希望的行为的“部分奖励”;人为的高贴现率和精心的奖励塑造;…

  1. 它们是什么?如何在RL问题中识别和整合代理奖励?

  2. 在上面的例子中,高贴现率如何形成代理回报?

我也很好奇它们如何用作多奖励的来源

| 改善这个问题 | |
$ \ endgroup $
  • \ begingroup美元 也许可以看一看www.1kvaups.com/q/20040/2444,不过我想你应该知道“代理”通常是什么意思。 $ \ endgroup $-nbro. 9月22日11点24分
  • \ begingroup美元 因此,“代理”是中介。这有助于澄清问题的“他们是什么”部分 $ \ endgroup $-mugoh 9月23日5:05
0.
\ begingroup美元

在你引用的论文中,逆奖励设计(2017),作者实际上定义了他们所谓的“代理报酬函数”。

我们用概率模型将其形式化代理(设计)奖励真正的奖励

所以,代理reward function is the reward function designed by the human, which may not necessarily be the reward function that he/she intended (i.e. it may be a misspecified reward function), given that the human may have forgotten to model/incorporate certain (unpredicted by the human) scenarios or situations that the agent may face. This usage of the word "proxy" is thus consistent with the general usage of the word in computer science, i.e. a "proxy reward function" is a reward function that is used代替预期的(最佳的)奖励功能。

| 改善这个答案 | |
$ \ endgroup $

    你的答案

    点击“发布答案”,您同意我们的同意服务条款隐私政策Cookie政策

    不是您要找的答案?浏览其他标记的问题必威英雄联盟必威电竞问你自己的问题