被社区用户冲撞
3. 编辑标签betway绝地大逃杀
| 链接
2 编辑标签betway绝地大逃杀
| 链接
1
| 链接

什么是代理报酬功能?

我的理解是,他们会在不改变奖励功能的情况下调整目标,使其更容易实现。

…观察代理报酬函数是一个报酬设计问题的近似解

(来源:逆奖励设计)

但我却很难理解它们是如何与整体奖励目标相匹配的,并因为某些例子而感到困惑。我认为它们是小型奖励函数(游戏邦注:就像解决稀疏奖励的情况),最终通向主要目标。但是下面的陈述,来自这篇文章,这让我产生了疑问。

代理奖励功能的典型例子包括对看起来有希望的行为的“部分奖励”;人为的高贴现率和精心的奖励塑造;…

  1. 它们是什么?如何在RL问题中识别和整合代理奖励?

  2. 在上面的例子中,高贴现率如何形成代理回报?

我也很好奇它们是如何作为多种奖励的来源