必威英雄联盟问题标记为[返回]

有关与加必威英雄联盟强学习的回报概念有关的问题,这些问题被定义为未来的累积(折扣)奖励,或者简单的单词,长期奖励。

23个必威英雄联盟问题
过滤
排序
标记有
1
投票
2答案
101观点

给定状态的奖励和价值之间有什么区别?

我试图学习强化学习,我专注于价值迭代。我正在看网格世界的例子,我试图用python实现它。在做这个的时候,我…
0
1回答
32的观点

如何制定折扣率在cartpole?

我试图制定一个问题,旨在延长模拟的生命周期,就像Cartpole问题一样。我知道有两种类型的回报:有限的、未折现的……
1
投票
1回答
58意见

更新Monte Carlo方法中的状态操作值时,每个状态动作对是否相同?

参考此帖子,在下面的公式中更新状态操作值$$ Q(s,a)= q(s,a)+ \ alpha(g - q(s,a)),$$是值$ g $(返回)对于每个国家/地区的$(s,a)$ ...
1
投票
1回答
40次观点

对于具有吸收状态的情节任务,必威电竞为什么我们都不能拥有$ \ gamma = 1 $和$ t = infty $在返回的定义中?

对于具有吸收状态的情节任务,必威电竞为什么不能$ \ gamma = 1 $和$ t = \ infty $?在Sutton和Barto的书中,他们说,对于具有吸收状态的焦点任务,成为无限序列的......必威电竞
2
1回答
39次观点

为什么将返回定义为从时间$ t $的时间与奖励的总和,而不是最多$ $ t $?

为什么将返回定义为从时间$ t $的时间与奖励的总和,而不是最多$ $ t $?MDP的返回通常定义为$$ g_t = r_ {t + 1} + r_ {t + 2} + \ dots + r_t $$$为什么这...
3.
1回答
107的浏览量

我们在TD-learning行动值Q还是状态值V中采样的期望值?

MC和TD都是无模型的,它们都遵循一个样本轨迹(在TD的情况下,轨迹是短的)来估计回报(我们基本上是抽样Q值)。除此之外,…
2
1回答
75的浏览量

使用多步返回学习违法策略时,为什么我们在重要的采样中使用当前行为策略?

当使用多步骤返回学习脱核策略时,我们希望使用从轨迹$ \ tau =(s_1,a_1,r_1,s_2,a_2,r_2,r_1,s_2,a_2,r_2。。,s_n,a_n,r_n,s_n + 1)$。我们 ...
3.
1回答
104意见

Sutton&Barto的书中的等式有什么问题?

Sutton Barto的等式7.3:$$ \ text {公式:} max_s | \ mathbb {e} _ \ pi [g_ {t:t + n} | s_t = s] - v_ \ pi |\ le \ gamma ^ nmax_s | v_ {t + n-1}(s) - v_ \ pi(s)|$$ $$ \ text {where} g_ {t:t + n} = r_ {t + 1} + \ gamma r_ {t + 2} ...
2
1回答
337的浏览量

为什么强化学习(RL)的预期回报被计算为累积奖励的总和?

为什么强化学习(RL)的预期回报被计算为累积奖励的总和?如果计算$\mathbb{E}(R \mid s, a)$(取…
1
投票
2答案
134的浏览量

如何计算折扣系数和奖励顺序的返回?

我知道$G_t = R_{t+1} + G_{t+1}$。假设$\gamma = 0.9$,奖励序列为$R_1 = 2$,后面跟着$7$s的无限序列。G_0$的值是多少?既然它是无限的,我们怎么能……
1
投票
0答案
51的观点

为什么n步返回为零会导致off策略n步TD的高方差?

在Sutton & Barto的书中eq 7.12和7.13之间的段落中:$G_{t:h} = R_{t+1} + G_{t+1:h}, t < h < t $,其中$G_{h:h} = V_{h-1}(S_h)$。(请记住,此申报表用于……
4
2答案
113的浏览量

在Bellman最优性方程中,为什么$G_{t+1}$被$v_*(S_{t+1})$代替?

在Sutton and Barto的书的等式3.17中:$$q_*(s, a)=\mathbb{E}[R_{t+1} + \gamma v_*(S_{t+1}) \mid S_t = s, A_t = a]$$ $G_{t+1}$这里已经被$v_*(S_{t+1})$取代,但是没有理由…
4
2答案
267意见

奖励和回报在强化学习中有区别吗?

我正在阅读Sutton和Barto的加固学习书。我以为奖励和回报是同样的事情。但是,在本书第5.6节中,第三行,第一段,它是写的:...
3.
1回答
42次观点

预期收益不应该计算在未来的某个遥远的时间$t+n$而不是当前的时间$t$吗?

我第一次学习RL。它可能是天真的,但掌握这个想法有点奇怪,如果RL的目标是最大化预期的回报,那么应该是预期的回报......
2
2答案
193的浏览量

我对价值功能、Q功能、政策、奖励和回报的理解是否正确?

我是RL领域的初学者,我想检查我对某些RL概念的理解。价值函数:在策略π的状态下它有多好。......

15. 30. 50. 每页