必威英雄联盟标记标记的问题[value-function]

有关价值必威英雄联盟(或性能、质量或效用)函数(如强化学习和其他人工智能子领域中定义的)概念的问题。这类函数的一个例子是Q函数(例如在Q学习算法中使用),也被称为状态-动作值函数,假设$Q: S乘以一个\rightarrow \mathbb{R}$,其中$S$和$A$分别是环境的状态和动作的集合。

51的必威英雄联盟问题
通过过滤
排序
标记有
1
投票
0答案
10次​​观点

如何从POMDP的置信空间上的值函数向量获得有限状态控制器形式的策略?

我正在汉森读这篇论文。它说:以下内容:向量和一步策略选择之间的对应关系在这种策略解释中起着重要作用。$ \ ...的每个矢量
1
投票
1回答
40的观点

如何推导Bellman算子的矩阵形式?

阅读回扫纸(安全有效的脱助政策强化学习)我看到他们经常使用Bellman运营商的矩阵形式,例如如下图所示。我们如何派生......
5
2答案
132的浏览量

Bellman方程到底告诉我们什么?

贝尔曼方程到底说了什么?它有多种口味吗?当我寻找Bellman方程的时候,我有点困惑,因为我觉得人们在告诉我。
1
投票
1回答
29日视图

$Q(s,a)$和$V(s)$在最优条件下的等价性?

对于给定的策略,状态操作值和状态值函数是等价的吗?我假设值函数定义为$V(s)=\sum_a \pi(a|s)Q_{\pi}(s,a)$。如果我们在操作一个…
1
投票
0答案
12次观点

学习和最佳状态值函数的相对大小是相同的吗?

我最近一直在阅读关于价值和政策迭代的文章。我试图编写算法来更好地理解它们,在这个过程中我发现了一些东西,我不确定为什么是这样(或者……
4
1回答
82的浏览量

后状态值函数在数学上是如何定义的?

在这个答案中,提到了后状态值函数,时间差异(TD)和蒙特卡罗(MC)方法也可以使用这些值函数。从数学上讲,这些值…
3.
1回答
91的浏览量

我们在TD-learning中抽样的期望值是行动价值Q还是状态价值V?

MC和TD都是无模型的,它们都遵循一个样本轨迹(在TD的情况下,轨迹是缩短的)来估计收益(我们基本上是抽样Q值)。除此之外,……
1
投票
1回答
80的浏览量

为什么蒙特卡罗政策评估依赖于行动价值函数而不是国家价值函数?

这是大卫·西尔弗的演讲。看9:30到10:30。他说,由于这是无模型学习,环境的动态是未知的,所以使用了行为价值函数$Q$。但是…
2
1回答
61的浏览量

使用多步返回学习违法策略时,为什么我们在重要的采样中使用当前行为策略?

当学习带有多步返回的off-policy时,我们想更新$Q(s_1, a_1)$的值,使用轨迹$\tau = (s_1, a_1, r_1, s_2, a_2, r_2,…), s_n, a_n, r_n, s_n+1)$。我们……
3.
0答案
65次观点

在软演员评论中,为什么从当前策略中采样动作,而不是在值函数更新上重放缓冲区?

在阅读软演员评论家的原始论文时,我在第5页,在等式(5)和(6)下,$$ J_{V}(\psi)=\mathbb{E}_{\mathbf{s}_{t} \sim \mathcal{D}}\left[\frac{1}{2}\left(V_{\…
0
0答案
37的观点

当剧集数量较低时,使用Bellman最优方程来评估states是不是一个坏主意?

我试图构建一个与环境交互的RL代理,一个维度为20*10的2D网格:网格中的每个(I,j)方块会在代理访问该方块时给予奖励。每一个…
1
投票
1回答
48个观点

在定义状态-行为值函数时,我们期望的随机变量是什么?

我知道对于任意随机变量$X$, $$ mathbb{E}[g(X) \mid A] = \sum\limits_{X} g(X) p_{X \mid A}(X) $$。现在,考虑下面的表达式。$ $ \ mathbb {E} _{\π}左\[\总和\ limits_ {k = 0} ^ {\ infty}…
3.
1回答
56岁的观点

我们可以在很小的时候停止训练吗?

我是强化学习的新手。因为在RL中很常见,所以使用$\epsilon$-greedy搜索行为/探索。所以,在培训的开始,$\epsilon$是高的,因此很多…
3.
1回答
98的浏览量

萨顿和巴托书中的方程式7.3有什么问题吗?

方程7.3萨顿Barto书:$ ${方程:}\文本max_s | \ mathbb {E} _ \π(G_ {t: t + n} | S_t = s]——v_ \π| \ le \伽马^ nmax_s | v_ {t + n - 1} (s) - v_ \π(s) | $ $ $ ${哪里}\文本G_ {t: t + n} = R_ {t + 1} + \伽马R_ {t + 2}…
1
投票
1回答
117的浏览量

Sutton-Barto赌者问题中的值迭代不能收敛到最优值函数

在示例4.3:赌徒的Sutton和Barto的书的问题在这里给出的代码。在此代码中,Value函数数组初始化为np.zeros(州)在那里……

15 30. 50 每个页面