什么是代理报酬功能?—人betway电竞工智能堆栈交换 最近的30篇文章来自www.1kvaups.com 2021 - 01 - 19 t22:33:34z //www.1kvaups.com/feeds/question/23669 https://creativecommons.org/licenses/by-sa/4.0/rdf //www.1kvaups.com/q/23669 2 什么是代理报酬功能? mugoh //www.1kvaups.com/users/40671 2020 - 09 - 20 - t14:53:35z 2020 - 11 - 13 - t17:03:05z

我的理解是,他们会在不改变奖励功能的情况下,以某种方式调整目标,使其更容易实现。< / p > < blockquote > < p >…观察到的代理奖励函数的近似解是一个奖励设计问题< / p > < /引用> < p >(来源:< a href = " https://arxiv.org/pdf/1711.02827.pdf " rel =“nofollow”noreferrer >逆奖励设计> < /)< / p > < p >但我有麻烦他们如何适应整体奖励目标,使他们困惑的一些例子。我认为它们是小型奖励函数(游戏邦注:就像解决稀疏奖励的情况),最终通向主要目标。但是下面的声明,从这篇文章,让我质疑。代理奖励功能的典型例子包括对看起来有希望的行为的“部分积分”;人为的高贴现率和精心的奖励塑造;…

  1. 它们是什么,如何在RL问题中识别和整合代理奖励?

  2. 在以上的例子中,高贴现率如何形成代理奖励?

我也很好奇它们是如何被用作多种奖励的来源

//www.1kvaups.com/必威英雄联盟questions/23669/-/24074#24074 1 nbro的回答是什么是代理奖励功能? nbro //www.1kvaups.com/users/2444 2020 - 10 - 14 - t16:18:37z 2020 - 10 - 14 - t16:18:37z

在你引用的论文中,