$ $开始组$

在强化学习方面,我们通常定义两个函数,“状态值函数”

$$V ^ \Pi(s)=\MathBB E \Pi[\Sum K=0 \Infty \Gamma ^ K R T+K+1 S T=S]$$

以及“状态动作值函数”:

$$Q ^ \pi(s,a)=\mathbb e \pi[\sum k=0 \infty \gamma ^ k r t+k+1 s s,AYT= a] $ $

哪里$\mathbb e \pi$意味着这些函数被定义为期望“关于固定政策$PI-$通常被称为“返回”,$\sum k=0 \infty \gamma k r t+k+1$,哪里$ \伽马$是“贴现系数”,并且$r{t+k+1 } $从环境中(代理与之交互时)获得的奖励$T$向前。

所以,两个$V$$Q元函数定义为回报预期(或“累积未来贴现奖励”),但这些期望有不同的“条件”(或是以不同的变量为条件)。这个$V$功能是期望(关于固定政策$PI-$)如果当前状态(当时的状态$T$$s$.这个$Q元功能是期望(关于固定政策$PI-$)返回的条件是代理所处的当前状态为$s$以及代理人采取的行动$s$$$.

我知道贝尔曼最优性方程对于$V^*$(最优值函数)可以表示为$q^ {\pi ^ *} $(与最优策略相关联的最优状态作用值函数$\p^*$)如下

$$V^*(s)=\max a \ in \数学a(s)q ^ \ pi ^*(s,A)$

这一点在安德鲁·巴托和理查德·S的《强化学习:导论》(第1版)一书的第76页得到了实际的展示(或证明)。Sutton。

还有其他功能吗?除了$V$$Q元上面定义的函数,在RL上下文中?如果是这样,它们是如何联系的?

例如,我听说过“优势”或“延续”功能。这些功能与$V$$Q元功能?什么时候应该使用一个而不是另一个?

注意我是不只是必威电竞询问“优势”或“延续”功能,但是,如果可能的话,RL中使用的与上述功能类似(目的)的任何现有功能,以及它们之间的关系。

$\EdTrime$$
  • $ $开始组$ 如果你开始包括所有估算回报的方法,用于各种试剂中,以获得更好的v和/或q的近似值,还有几十种功能,一个答案似乎太多了。你有机会限制范围吗?例如。您是否只对代理性能的理论度量函数感兴趣?它们的推导/近似方法不多吗? $\EdTrime$$- 尼尔斯莱特 2月14日21:08
  • $ $开始组$ @Neilslater我也认为这个问题最终会导致很长的答案,但我也认为它可以作为理解这些功能之间关系的参考,至少是最常用和最有用的。最终,人们将添加更多答案或编辑现有答案。也,关系的解释可以是一个方程(如果足够的话)。我想这就足够了,在这种情况下,描述从理论上衡量代理性能的函数。你可以忽略它们是如何近似的。 $\EdTrime$$- 美国国家广播公司 2月14日21:11
$ $开始组$

优势功能:$A(S,A)=Q(S,A)-V(S)$

更有趣的是通用值函数(gvf)。某个任意信号的(贴现)未来值的预期总和,不一定是奖励。因此,它是价值函数的推广$v(s)$.第二版第459页定义了GVF。萨顿和巴托的RL书作为$$V_ \Pi、\Gamma、C(S)=\MathBB E \ Left[\Left.\Sum K=T ^ \ Infty\ Left(\Prod I=T+1 ^K\ Gamma(S I\ Right)C K+1 \ Right\rvert S T=S,A T:\infty \sim\pi\right]。$$哪里$c_t\ in \mathbb r$是一段时间内信号的总和。

$\Gamma(Syt)$是一个函数$\gamma:\cal s \到[0,1]$允许贴现率取决于国家。萨顿和巴托称之为终止函数。一些称之为延续函数。

编辑:
还需要注意的是微分函数。这些是在继续,未贴现的设置。因为没有折扣,未来奖励的预期金额是无限的。相反,我们优化了预期的差别报酬$r_t+1-r(\pi)$,哪里$R(\pi)$是政策规定的平均报酬吗?$PI-$.

$$V \pi,\,diff(s)=\sum \pi(a s)\sum s',r p(s',r s,a)\left[r-r(\pi)+v \pi,\,diff(s')\right]$$ $$V*,\,diff(s)=\max a \ sum s’,r p(s’,r s,a)左[r-\max pi r(\pi)+v*,\,diff(s')\right]$$

微分函数假定$R(\pi)$存在。也就是说,他们假设MDP是“遍历的”。有关详细信息,请参阅Sutton和Barto的第10.3节。

$\EdTrime$$

你的答案

点击“发布你的答案”,你同意我们的服务条款隐私政策饼干政策

不是你要找的答案?浏览标记的其他问题必威英雄联盟 必威电竞问你自己的问题.