我的理解是,他们会在不改变奖励功能的情况下,以某种方式调整目标,使其更容易实现。< / p > < blockquote > < p >…观察到的代理奖励函数的近似解是一个奖励设计问题< / p > < /引用> < p >(来源:< a href = " https://arxiv.org/pdf/1711.02827.pdf " rel =“nofollow”noreferrer >逆奖励设计> < /)< / p > < p >但我有麻烦他们如何适应整体奖励目标,使他们困惑的一些例子。我认为它们是小型奖励函数(游戏邦注:就像解决稀疏奖励的情况),最终通向主要目标。但是下面的声明,从这篇文章,让我质疑。代理奖励功能的典型例子包括对看起来有希望的行为的“部分积分”;人为的高贴现率和精心的奖励塑造;…
它们是什么,如何在RL问题中识别和整合代理奖励?
在以上的例子中,高贴现率如何形成代理奖励?
我也很好奇它们是如何被用作多种奖励的来源