必威英雄联盟问题标记[价值函数]

对于与价必威英雄联盟值(或性能,或质量,或效用)函数概念(如在强化学习和其他AI子字段中定义)相关的问题。这类函数的一个例子是Q函数(例如在Q-learning算法中使用),也称为状态-动作值函数,给定$Q: S \乘以一个\rightarrow \mathbb{R}$,其中$S$和$A$分别是环境的状态和动作的集合。

36个必威英雄联盟问题
通过过滤
排序
与标签
2
1回答
44岁的观点

我们能不能在epsilon很小的时候就停止训练?

我对强化学习很陌生。因为它在RL中很常见,所以使用$\epsilon$-贪婪搜索行为/探索。所以,在培训开始的时候,$\epsilon$是很高的,因此很多…
2
1回答
77的浏览量

萨顿和巴托的书中公式7.3有什么问题?

方程7.3萨顿Barto书:$ ${方程:}\文本max_s | \ mathbb {E} _ \π(G_ {t: t + n} | S_t = s]——v_ \π| \ le \伽马^ nmax_s | v_ {t + n - 1} (s) - v_ \π(s) | $ $ $ ${哪里}\文本G_ {t: t + n} = R_ {t + 1} + \伽马R_ {t + 2}…
1
投票
1回答
89的浏览量

在萨顿-巴托赌徒问题中,值迭代不能收敛到最优值函数

在例4.3:萨顿和巴托的书,其代码在这里给出的赌徒的问题。在这种代码的值函数数组被初始化为np.zeros(州)在那里……
2
0答案
31日视图

除了复杂的价值函数,还有什么简单的策略呢?

Hado van Hasselt是DeepMind的研究员,他在Youtube上的一段视频(从7:20到8:20)中提到,在某些情况下,政策非常简单……
1
投票
1回答
37的观点

该是发展的AI模仿人类行为的一些基本的学习理论

大多数AI系统不是要模仿人类,而是要最终超越人类。例子包括使用人工智能玩游戏、分类问题、自动驾驶和目标导向聊天机器人。
2
1回答
98的浏览量

为什么在强化学习(RL)的预期回报计算作为累计回报的总和?

为什么在强化学习(RL)的预期回报计算作为累计回报的总和?计算$\mathbb{E}(R \mid s, a)$(取…的期望回报)不是更有意义吗?
2
1回答
44岁的观点

为什么我们把旧的Q值完全擦掉,然后用计算过的Q值来替换它不明智呢?

为什么我们把旧的Q值完全擦掉,然后用计算过的Q值来替换它不明智呢?为什么我们不能忘记学习速率和时间差异?以下是更新公式。
1
投票
1回答
55岁的观点

动作值函数$q_\pi(s,a)$的Bellman方程与表示$q_\pi(s,a) = q_\pi(s,a,v_\pi(s’))$之间的联系

当我们求出$q_\ (s,a)$的Bellman方程时,我们得到$q_\ (s,a) = E_\pi[G_t | S_t = s, A_t = a] = E_\pi[R_{t+1} + \gamma G_{t+1} | S_t = s, A_t = a]$(1)这就是让我迷惑的地方,在这里…
2
1回答
42岁的观点

如何用$q_\ (s,a)$表示$v_\ (s)$ ?

这是萨顿和巴托书中的练习3。18。任务是使用必威电竞$q_\pi(s,a)$表示$v_\pi(s)$。看看上面的图表,$q_\ (s,a)的值是$s$每$a \在$a中我们取…
0
1回答
63点意见

我怎么知道DQN已经学会了一个合适的Q函数?

是否有任何健全的检查,以知道所学的Q函数是否适合深Q网络?我知道终端状态的Q值应该接近终端奖励。然而,它是……
3.
2答案
145的浏览量

当每一步后agent有一定的死亡概率时,状态值是多少?

我们假设无限视野和贴现因子$ \伽马= 1 $。在每一步中,该代理采取动作,并得到它的奖励后,有一个概率$ \阿尔法= 0.2 $,该代理会死亡。假定...
4
2答案
165点意见

为什么值函数有时用大写字母写,有时用小写字母写?

为什么状态值和行动值的功能有时写在小信等次的首都?例如,为什么在巴托和萨顿的Q学习算法(第131页...
3.
1回答
152的浏览量

我们如何表达$ Q_ \ PI(S,A)$为$ p的功能(S',R | S,A)$ $和V_ \ PI(S)$?

任务(萨顿必威电竞和巴托的RL书中的练习3.13)是将$q_\pi(s,a)$表示为$p(s’,r|’,a)$和$v_\pi(s)$的函数。$q_\pi(s,a)$是动作-价值函数,表示有多好…
2
1回答
116的浏览量

策略迭代算法不满足方程

在萨顿和巴托的书的第79页的公式4.9中,我们有(用于策略迭代算法):$\pi ^{'}(s) = arg \max_{a}\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]$,其中$\pi$是之前的策略…
4
2答案
107的浏览量

为什么在Bellman优化方程中$G_{t+1}$被替换为$v_*(S_{t+1})$ ?

在萨顿和巴托书的3.17式中:$$q_*(s, a)=\mathbb{E}[R_{t+1} + \gamma v_*(S_{t+1}) \mid S_t = s, A_t = a]$$ $G_{t+1}$此处已被替换为$v_*(S_{t+1})$,但没有理由…

15 30. 50 每个页面