我的理解是,他们会在不改变奖励功能的情况下调整目标,使其更容易实现。
…观察代理报酬函数是一个报酬设计问题的近似解
(来源:逆奖励设计)
但我却很难理解它们是如何与整体奖励目标相匹配的,并因为某些例子而感到困惑。我认为它们是小型奖励函数(游戏邦注:就像解决稀疏奖励的情况),最终通向主要目标。但是下面的陈述,来自这篇文章,这让我产生了疑问。
代理奖励功能的典型例子包括对看起来有希望的行为的“部分奖励”;人为的高贴现率和精心的奖励塑造;…
它们是什么?如何在RL问题中识别和整合代理奖励?
在上面的例子中,高贴现率如何形成代理回报?
我也很好奇它们是如何作为多种奖励的来源