必威英雄联盟问题标记(奖励功能)

关于奖励必威英雄联盟功能的问题(例如,在强化学习的背景下,可以记为$R(s, a)$)。

5个必威英雄联盟问题
通过过滤
排序
与标签
2
0答案
32点意见

什么是代理奖励功能?

我的理解是,他们在不改变奖励功能的情况下,以某种方式调整了目标,使其更容易实现。观察到的代理奖励函数是近似解…
6
2答案
106的浏览量

为什么强化学习中的奖励总是一个标量?

我读的强化学习由萨顿和巴托,并在第3.2节,他们说,在一个马尔可夫决策过程的奖励始终是一个标实数。与此同时,我听说过...
3.
1回答
51的观点

为什么美元奖励函数\文本{奖励}= 1 /{文本(\{成本}+ 1)^ 2}比美元\文本{奖励}= 1 /(文本\{成本}+ 1)$ ?

我实现了一个简单的Q学习算法通过奖励设置由代理采取的行动的成本的倒数,以尽量减少成本函数。该算法收敛得很好,只是......
1
投票
1回答
56次

什么是奖励功能和值函数之间的关系?

为了澄清它在我的脑海中,值函数计算它是如何“好”就是要在一定的状态通过汇总所有将来的(贴现)的奖励,而奖励的功能是什么值函数使用...
2
1回答
210的浏览量

如果奖励乘以一个常数,最优价值函数会发生什么?

如果奖励函数乘以一个常数$c$,那么最优状态-行为值函数$q_*$会发生什么?最优状态-动作值函数是否也乘以这样一个常数?