$\begingroup公司$

AIMA的书中有一个练习,展示了一个MDP和表单的奖励$ R(S,A,S')$可以转换为MDP并获得奖励$ R(S,A)$,并与报酬的MDP$ R(S)$具有同等最优策略。

在转换到的情况下$ R(S)$正如作者的解决方案所建议的那样,我认为需要包含一个后状态。但是,我马上要从$r(s,a,s')$$r(s,a)$只是为了$r(s,a,s')$关于s'(*)。即:

$$ R(S,A)= \ sum_ {S '} R(S,A,S')\ CDOT P(S'| S,A)$$

然而,作者提出了一种类似于后状态的前状态转换。我相信基于期望的方法更加优雅,并且显示了一种不同的推理,补充了人工状态的引入。然而其他资源我也发现有关预定状态会谈。

我的推理是否有任何缺陷,阻碍了对回报的预期,并允许更简单的转换?我倾向于说不,因为我接受了答案在这里似乎支持这一点。这个答案提到了萨顿和巴托的书,顺便说一句,这本书似乎也可以接受$ R(S,A,S')$.

这是一种存在的问题是困扰我不时和我希望得到一些确认。

(*)当然,这在$ R(S,A)$$ R(S)$案例,因为我们没有行动的概率分布(事实上,这是一个政策,这就是我们所追求的)。

| 改善这个问题 | |
$\endgroup组$
  • 1个
    $\begingroup公司$ 你可能想看看这个奖励函数$R(s)$,$R(s,a)$和$R(s,a,s')$是如何等价的?回答。 $\endgroup组$大卫·爱尔兰 5月25日13:18
  • $\begingroup公司$ 其实,我有这样的线程在我的问题联系在一起,但:1)我不是声称不同的奖励功能,可以进行等价的,但最优策略整体MDP即可;2)在他们的解决方案预定,弱势族群和Russell描述了基于扩大与前后的状态,和一些更多的变化贴现因子和过渡考虑到这些附加状态的状态空间的变换;3)我想知道,如果服用的期望超过S'可以做的伎俩,至少在R(S,A,S')的R(S,A)的情况下。 $\endgroup组$灰烬 5月25日在14:58
  • $\begingroup公司$ 对不起,是我不好没有注意到的环节。请注意,如果你有一个$联合分布(X,Y)美元,你无法找到$ \ mathbb {E} [Y] $通过简单相加超过$ Y $和使用联合PMF - 你首先需要边缘化联合PMF获得$ Y $的单PMF,所以你的期望不工作了。 $\endgroup组$大卫·爱尔兰 5月25日15:09
  • $\begingroup公司$ 我明白,但我想我不是暗示。。。?事实上,我是说你可以通过边缘化r(s,a,s)函数中的s,a来逃避(如果你可以在这里说边缘化,因为r(s,a,s)不是概率分布)。 $\endgroup组$灰烬 5月25日在15:24
  • $\begingroup公司$ $ R(S,A,S')= \ mathbb {E} [R_t |S_ {T-1} = S,A_ {T-1} = A,S_T = S'] $? $\endgroup组$大卫·爱尔兰 5月25日在15:36

1个回答1个

0个
$\begingroup公司$

我想我可以回答我自己的问题。具有最优策略的MDP的Bellman方程$r(s,a,s')$奖励如下:

$$V(s)=\max|a \左{\sum|s}p(s|s,a)(r(s,a,s')+\gamma V(s'))\右}$$$$ V(S)= \ max_a \左\ {\ sum_ {S '} P(S' | S,A)\ CDOT R(S,A,S ')+ \伽马\ sum_ {S'} P(S '| A,S)\ CDOT V(S')\右\} $$

现在,$ \ sum_ {S '} P(S' | S,A)\ CDOT R(S,A,S')$正是$\mathbb{E}\left[r(s,a,s')|s,a\right]=r(s,a)$.

总之,贝尔曼方程如下:

$$ V(S)= \ max_a \左\ {R(S,A)+ \伽马\ sum_ {S '} P(S' | S,A)\ CDOT V(S')\右\} $$

很明显$ R(S,A,S')$奖励可以转换为$r(s,a)$不引入人工状态和保持最优策略的过程。

作为与问题本身无关的旁注,这使我相信$ R(S,A,S')$功能可能在某些情况下方便的,但他们不加“表现力”,在某种意义上说,他们不允许模型问题更紧凑(因为当我们扩展情况$r(s)$$r(s,a)$)。

| 改进这个答案 | |
新贡献
灰烬是一种新的贡献者到这个网站。在要求澄清,评论,并回答照必威电竞顾。看看我们行为准则.
$\endgroup组$
  • $\begingroup公司$ 我不认为你对$V(s)$的定义是正确的,你对它的定义只适用于最优策略。一般来说,值函数是$Q(s,a)$的平均值,其中平均值超过$a$。另外,您定义$p(s,a,s')$是什么? $\endgroup组$大卫·爱尔兰 5月26日在12:07
  • $\begingroup公司$ 不够公平,因为我的兴趣只是在最优策略。也许我应该编辑答案,以反映(虽然我的印象是,Bellman方程已经传达最优)?我认为,$ P(S,A,S ')$是一个相当理解的符号来表示的转移概率,意思是:过渡到$ S的概率' $采取行动后,$ A $在$ S $。$ |我已经$ P(S,A S')取而代之。 $\endgroup组$灰烬 5月26日13:37
  • $\begingroup公司$ 不,贝尔曼最优性方程表示最优性。我的理科学士学位是数学,理科硕士学位是统计学,我认为你的符号将用于超过$s,s',a$的联合分布,而不是条件分布。萨顿和巴托也使用条件符号,例如$p(s',r | s,a)$。 $\endgroup组$大卫·爱尔兰 5月26日13:45
  • $\begingroup公司$ 好,说的很清楚。 $\endgroup组$灰烬 5月26日13:49
  • $\begingroup公司$ “我的理科学士学位是数学,理科硕士学位是统计学”——>这可以解释我对严谨、清晰的符号和恰当的术语的痴迷;)谢谢你的笔记,伙计。 $\endgroup组$灰烬 5月26日15:35

你的答案

点击“发布您的答案”,您同意我们的服务条款,隐私政策Cookie政策

不是你要找的答案?浏览其他标记的问题必威英雄联盟必威电竞问你自己的问题.