必威英雄联盟问题标记(inverse-rl)

对于与逆必威英雄联盟强化学习(IRL)相关的问题,即从观察到的代理行为(或策略)中恢复奖励功能的问题。之所以叫IRL,是因为它是RL的逆问题,也就是在给定报酬函数的情况下找到最优策略的问题。

十个问必威英雄联盟题
通过过滤
标记
1
投票
1回答
19日视图

为什么状态访问频率等于从初始时间步长到视界的状态访问频率之和?

Ziebart等人在最大熵逆强化学习中指出,一个状态$s$的状态访问频率$\rho(s)$可计算为$$ \rho_{\pi}(s) = \sum_{t}^{t} P(s_t=s|…
0
0答案
30的观点

证明了当奖励函数仅依赖于S或同时依赖于S,A时,奖励函数的存在性或不存在性使给定策略“唯一”最优

我看了Andrew Ng和Russell的论文《逆强化学习算法》。MDP $M$是一个元组$(S, a, \{P_{sa}\},\gamma,R)$,其中…
2
0答案
57岁的观点

在“逆强化学习中奖励估计的主动学习”一文中,这些导数的维度是什么?

我试图在代码部分实现以下论文:反向强化学习中的奖励估计的主动学习。我特别指的是论文的第2.3节。让我们……
0
1回答
44岁的观点

如何在神经网络中使输入变量作为可训练参数?

我正在研究一个最优化问题。首先,我做了前向训练,将网络作为替代模型,然后冻结输出,我想为给定的输入找到一个最优值。
1
投票
1回答
77的浏览量

整个神经网络能仅仅由激活函数组成吗?

基于GAIL和GAN-Guided Cost Learning(GAN-GCL)的逆强化学习,使用鉴别器对专家样本和策略生成样本进行分类。对抗性iRL,建立在GAN-…
6
2答案
82的浏览量

模仿学习中所需的专家演示次数取决于什么?

关于模仿学习中需要的专家演示的数量,我刚刚读到以下几点,我想澄清一下。出于情境的目的,我将使用线性奖励……
4
2答案
347的浏览量

在设计奖励功能时有哪些最佳实践?

一般来说,当试图为强化学习代理定义奖励功能时,是否有一个最佳实践程序可以遵循?在定义奖励时常见的陷阱是什么?
3.
1回答
115的浏览量

与奖励塑造相比,使用IRL恢复奖励功能能带来更好的政策吗?

我正在做一个关于RL领域中不同的奖励功能的研究项目。我读了逆强化学习(IRL)和奖励塑造(RS)。我想……
3.
1回答
77的浏览量

将任意奖励功能表达为基于潜力的建议(PBA)

我试图在[1]中重现简单网格世界环境的结果。但事实证明,使用动态学习的PBA会使性能更差,我无法获得结果……
1
投票
2答案
361的浏览量

我们如何估计过渡模型和报酬函数?

在强化学习(RL)中,有基于模型的算法和无模型的算法。简而言之,基于模型的算法使用了过渡模型(例如概率分布)和奖励函数,甚至……