必威英雄联盟标记标记的问题[value-function]
有关价值必威英雄联盟(或性能、质量或效用)函数(如强化学习和其他人工智能子领域中定义的)概念的问题。这类函数的一个例子是Q函数(例如在Q学习算法中使用),也被称为状态-动作值函数,假设$Q: S乘以一个\rightarrow \mathbb{R}$,其中$S$和$A$分别是环境的状态和动作的集合。
51的必威英雄联盟问题
1
投票
0答案
10次观点
1
投票
1回答
40的观点
5
票
2答案
132的浏览量
1
投票
1回答
29日视图
$Q(s,a)$和$V(s)$在最优条件下的等价性?
对于给定的策略,状态操作值和状态值函数是等价的吗?我假设值函数定义为$V(s)=\sum_a \pi(a|s)Q_{\pi}(s,a)$。如果我们在操作一个…
1
投票
0答案
12次观点
4
票
1回答
82的浏览量
3.
票
1回答
91的浏览量
我们在TD-learning中抽样的期望值是行动价值Q还是状态价值V?
MC和TD都是无模型的,它们都遵循一个样本轨迹(在TD的情况下,轨迹是缩短的)来估计收益(我们基本上是抽样Q值)。除此之外,……
1
投票
1回答
80的浏览量
2
票
1回答
61的浏览量
使用多步返回学习违法策略时,为什么我们在重要的采样中使用当前行为策略?
当学习带有多步返回的off-policy时,我们想更新$Q(s_1, a_1)$的值,使用轨迹$\tau = (s_1, a_1, r_1, s_2, a_2, r_2,…), s_n, a_n, r_n, s_n+1)$。我们……
3.
票
0答案
65次观点
在软演员评论中,为什么从当前策略中采样动作,而不是在值函数更新上重放缓冲区?
在阅读软演员评论家的原始论文时,我在第5页,在等式(5)和(6)下,$$ J_{V}(\psi)=\mathbb{E}_{\mathbf{s}_{t} \sim \mathcal{D}}\left[\frac{1}{2}\left(V_{\…
0
票
0答案
37的观点
当剧集数量较低时,使用Bellman最优方程来评估states是不是一个坏主意?
我试图构建一个与环境交互的RL代理,一个维度为20*10的2D网格:网格中的每个(I,j)方块会在代理访问该方块时给予奖励。每一个…
1
投票
1回答
48个观点
在定义状态-行为值函数时,我们期望的随机变量是什么?
我知道对于任意随机变量$X$, $$ mathbb{E}[g(X) \mid A] = \sum\limits_{X} g(X) p_{X \mid A}(X) $$。现在,考虑下面的表达式。$ $ \ mathbb {E} _{\π}左\[\总和\ limits_ {k = 0} ^ {\ infty}…
3.
票
1回答
56岁的观点
3.
票
1回答
98的浏览量
萨顿和巴托书中的方程式7.3有什么问题吗?
方程7.3萨顿Barto书:$ ${方程:}\文本max_s | \ mathbb {E} _ \π(G_ {t: t + n} | S_t = s]——v_ \π| \ le \伽马^ nmax_s | v_ {t + n - 1} (s) - v_ \π(s) | $ $ $ ${哪里}\文本G_ {t: t + n} = R_ {t + 1} + \伽马R_ {t + 2}…
1
投票
1回答
117的浏览量
Sutton-Barto赌者问题中的值迭代不能收敛到最优值函数
在示例4.3:赌徒的Sutton和Barto的书的问题在这里给出的代码。在此代码中,Value函数数组初始化为np.zeros(州)在那里……