必威英雄联盟问题标记了[时间差 - 方法]

对于与时必威英雄联盟间差异增强学习(RL)算法相关的问题,这是一类无模型(即,它们不使用MDP的转换和奖励函数)RL算法,其通过从当前估计中启动学习值函数(即,他们使用一个估计来更新另一个估计数)。

49个必威英雄联盟问题
通过过滤
标记
0.
投票
0.答案
12的观点

非线性梯度时间差异学习仅用于政策评估吗?

我是强化学习的新手。目前,我正在使用Maei梯度时差学习算法对论文进行研究。在第六章中,他讨论了非线性函数的GTD方法。
3.
投票
0.答案
39岁的观点

我应该如何在高斯分发时实施国家转型?

我正在读这篇论文,焦虑,回避和顺序评估,对具体的实验室研究的实施感到困惑。也就是说,作者使用一个…必威电竞
0.
投票
1回答
45的观点

计算深度Q学习的成本时,我们是否使用输入和目标状态?

我刚刚完成了Andrew Ngs的深度学习专门化,但是没有涉及RL,所以我不了解RL的基础知识。所以,我一直无法理解deep Q-learning. ...中的cost函数
3.
投票
1回答
96意见

是我们在TD学习动作值Q或状态值V中采样的预期值吗?

MC和TD都是无模型的,它们都遵循样本轨迹(在TD的情况下,轨迹被切割)估计返回(我们基本上是采样Q值)。除此之外, ...
3.
投票
1回答
164的浏览量

如何确定Q-Learning是否在实践中融合?

我在用Q-learning和SARSA来解决一个问题。agent学会了从开始到目标,而不会陷入困境。在每个状态下,我都可以选择对应于最大…
4.
投票
2答案
185的浏览量

如果不是真正的目标,为什么在蒙特卡罗和TD学习中称为“目标”的目标是什么?

我正在阅读Sutton的书,使用基于样本的学习方法来估计期望,我们有这样的公式$$ \text{new estimate} = \text{old estimate} + \alpha(\text{target} - \text{old…
1
投票
0.答案
28日视图

我如何推导出n步非政策时间差分公式?

我正在读萨顿和巴托的《强化学习:介绍》。在7.3节中,他们将n-step off-policy TD的公式写成$$V(S_t) = V(S_{t-1}) + \alpha \rho_{…
0.
投票
0.答案
21日视图

DD方法涉及$(s,s')$对平均拟合Bellman方程式吗?

TD方法的基本思想是使状态-下状态对平均符合Bellman方程的约束条件。这是真的吗?如果是,为什么?如果不是,为什么?我不是…
4.
投票
1回答
53岁的观点

为什么TD学习需要马氏域?

我的一个朋友和我正在讨论动态编程,蒙特卡洛和时间差异(TD)学习作为政策评估方法的差异 - 我们同意......
1
投票
1回答
38次观点

如果转换模型可用,我们为什么要使用基于样本的算法?

基于样本的算法,如蒙特卡罗算法和TD-Learning,通常被认为是有用的,因为它们不需要过渡模型。假设我能访问一个转换模型,是…
2
投票
1回答
84意见

强化学习可以分为哪些子类别?

在科学工作的过程中,我将讨论不同类型的强化学习。然而,我很难找到这些不同的类型。那么,哪些子类别可以…
1
投票
0.答案
29日视图

为什么自举方法比非自举方法产生更多的非平稳目标?

以下报价是从“近似解决方法”(第198条)的“强化学习”(第198页)的开始,采取了以下报价(第198页)由Sutton&Barto(2018年):加固......
2
投票
1回答
45的观点

为什么我们不应该完全擦掉旧的Q值,用计算出来的Q值来代替它呢?

为什么我们不应该完全擦掉旧的Q值,用计算出来的Q值来代替它呢?为什么我们不能忘记学习速率和时间差异呢?下面是更新公式。
2
投票
1回答
149的浏览量

强化学习中的偏差-方差权衡是什么?

我正在观看深入的视频演讲系列加固学习,当我正在观看无模型RL的视频时,教师表示,蒙特卡罗方法比时间 - ...偏差较小。
1
投票
0.答案
48意见

为什么N步骤返回为零导致OFF策略N-Step TD的高方差?

在Sutton&Barto的书中的eq 7.12和7.13之间的段落中:$ g_ {t:h} = r_ {t + 1} + g_ {t + 1:h},t

15 30. 50 每个页面