5
$ \ begingroup $

在这方面视频,讲师指出$ r(s)$,$ r(s,a)$$ R (s, s)美元是奖励功能的等同表示。直观地,这是这种情况,根据同一讲师,因为$ s $可以代表状态和动作。此外,显然,马尔可夫决策过程会根据我们是否使用一个表示或另一个表示而改变。

我在寻找一个正式的证明来证明这些表示是等价的。此外,如果我们使用一种表示而不是另一种,马尔科夫决策过程究竟会发生怎样的变化?最后,什么时候我们应该使用一种表示而不是另一种,为什么有三种表示?我想这是因为在某些情况下,一种表述可能比另一种表述更方便:哪种情况?如何决定使用哪种表示?

\ endgroup美元
    7
    $ \ begingroup $

    一般来说,不同的奖励功能$ r(s)$,$ r(s,a)$$ R (s, s)美元不是在数学上是等价的,所以你找不到任何形式的证明。

    在特定的MDP中,函数可以解析为相同的值,例如,如果您使用$ R (s, s)美元返回的值只取决于$ s $,然后$R(s, a, s') = R(s)$。这通常不是真的,但随着奖励函数经常在您的控制下,可能会经常如此。

    例如,在代理的目标是达到某种预定义状态的场景中(如视频中的grid world示例),那么两者之间没有区别$ R (s, s)美元或者$ r(s)$。鉴于这种情况,对于您可以使用的示例问题$ r(s)$,因为它简化了您需要计算Q-Learning等算法所需的表达式。

    我认为讲师并不意味着在数学意义上的“相同”,但在这种情况下,未来的讲座将使用其中一个职能,以及你将学习的许多东西会与你使用过的一样不同的奖励功能。

    最后,什么时候我们应该使用一种表示而不是另一种,为什么有三种表示?

    通常,我默认情况下不使用任何这些表示。我倾向于使用Sutton和Barto的$ p(s',r | s,a)$组合国家过渡和奖励的符号。该表达返回转换到州的概率$ s'$并获得奖励r美元在州开始时$ s $并采取行动$ a $。对于离散的操作,您可以重新编写不同功能的期望$ r $就此功能而言,如下:

    $$ \ mathbb {e} [r(s)] = \ sum_ {a \ in \ mathcal {a}} \ sum_ {s'\ In \ mathcal {s}} \ sum_ {r \ in {r}} RP(S',R | S,A)\ QQuad * $$

    $ $ \ mathbb {E} [R (s)] = \ sum_{年代的\ \ mathcal{年代}}\ sum_ {R \ {R}} rp (s、R | s $ $

    $$ \ mathbb {e} [r(s,a,s')] = \ sum_ {r \ in {r}} r \ frac {p(s',r |,a)} {p(s'| S,A)} $$

    我认为这是一种方法,可以看出视频中的函数是如何紧密相连的。

    你会用哪一个?这取决于你在做什么。如果你想简化一个等式或代码,那么就使用最简单的奖励函数版本,这与你为解决问题的目标而设置的奖励机制相匹配。例如,如果存在一个退出迷宫的目标状态,而这一状态一旦发生便会结束一个情节,那么你便不关心自己是如何到达那个状态或之前的状态是什么,并能够使用它$ r(s)$

    在实践中,如果您使用不同的奖励功能,则会发生什么,是您需要注意它在贝尔曼的理论治疗等方面出现的位置。当您实现无Q学习的无模型方法时,$ r(s)$或者它的变体除了理论之外,没有真正出现。


    *在所有情况下,这在技术上并不正确。我所做的假设是$ r(s)$是在奖励的奖励离开状态$ s $,并且与状态留下的和代理结束的位置的独立性。

    如果这是一个固定的奖励进入状态$ s $,无论如何,它可以写在美元$ R(年代)如下:

    $ $ \ mathbb {E} [R (s)] = \ sum_ {s \ \ mathcal{年代}}\ sum_{一\ \ mathcal{一}(s)} \ sum_ {R \ {R}} rp (s、R | s $ $

    即,通过总结最终的所有奖励$ s'$

    \ endgroup美元
    2
    • $ \ begingroup $ Sutton&Barto定义了$ r(s,a,s')$不同,似乎并不相当于您的定义。看第2版​​的公式3.6。他们还使用不同的符号来表示这些奖励功能,但也是如此,在我的原始问题中,我也使用了与本书中这个版本中的一个不同的符号(所以也许是不是一个好主意编辑你的答案与书籍一致)。 \ endgroup美元- - - - - -nbro. 11月6日14:57
    • 1
      $ \ begingroup $ @nbro:正如你所期待的那样,萨顿和巴特就在这里。我错过了修复$ s'$意味着需要规范化值。我已经修复了它,虽然我也可以扩大$ p(s'| s,a)$,我认为它与其他定义相当明确。 \ endgroup美元- - - - - -尼尔斯拉特 11月6日20日15:46
    4
    $ \ begingroup $

    $ r(s)$在奖励中表示概率分布,我们的代理人可能会在一些MDP中作为进入国家的奖励$ s $。最简单的情况是证明我们也可以选择将此写为$ r(s,a)$或者$ R (s, s)美元:只需拍摄$ \ forall答:r(s,a)= r(s)$, 或者$ \ forall a \ forall s':r(s,a,s')= r(s)$,也描述于此尼尔的答案


    $ r(s,a)$表示我们的代理人可以作为执行行动的奖励获得奖励的概率分布$ a $在州$ s $。展示等价的容易案例$ R (s, s)美元已经在上面处理,但我们还可以构建一个MDP,我们只使用它$ r(s)$符号?

    我能想到的最简单方法(可能不是最干净的方式)是建立一个带有一堆“虚拟”状态的新MDP$ z(s,a)$,例如执行动作$ a $在州$ s $在原始MDP中确定地导致虚拟状态$ z(s,a)$在新的MDP中。注意我写的$ z(s,a)$要将连接返回原始MDP显式,但这是一个完全独立的MDP,您应该将其视为一个状态“$ z $”。

    然后,奖励分配$ r(s,a)$与国家行动对有关$(s,a)$在原始MDP中可以写成$ r(z(s,a))$,它现在只是新MDP中的状态的函数。在这个虚拟状态$ z(s,a)$在新的MDP中,每一个可能的行动$ \ Alpha $应该对新州具有完全相同的过渡概率$ s'$作为执行的原始转移概率$ a $$ s $回到原始的MDP。这保证了相同的政策具有在MDP中达到某些状态的相同概率;只有在我们的新MDP中,代理商被迫通过这些虚拟状态转换到之间。

    如果还有一个折现因子$ \ gamma $在原始MDP中,我猜你应该使用折扣因素$ \ sqrt {\ gamma} $在新的MDP中,由于原始MDP中的每个步骤需要两个步骤(一步到一个虚拟状态,并且再次在新的状态下逐步)。


    最后一个例子是$ R (s, s)美元可以以非常相似的方式完成,但正式写出来会变得更加复杂。直觉将是相同的。以上,我们几乎是“烘焙”的国家行为对$(s,a)$从原始的MDP到额外的虚拟状态,例如在新的MDP中,我们有“携带相同数量的信息”的状态,就像原始MDP中的一个完整的状态-动作对。为$ R (s, s)美元案例,您需要使用更多信息“烘焙到”虚拟状态,使您能够设计,以使您可以满意(s, s)美元单身三分之一$ z(s,a,s')$在新的MDP中。


    最后,什么时候我们应该使用一种表示而不是另一种,为什么有三种表示?我想这是因为在某些情况下,一种表述可能比另一种表述更方便:哪种情况?如何决定使用哪种表示?

    我建议始终使用最简单的表示那碰巧充足的描述奖励如何在你的环境中以一种自然的方式发挥作用。

    例如,如果您有两个玩家零和游戏,终端游戏状态奖励$ 1 $,$ 0 $, 或者$ 1 $对于损失,绘制或获胜,使用它就足够了$ r(s)$符号;奖励取决于终端游戏状态,而不是如何达到它。另一个例子是具有特定目标位置的迷宫,如尼尔的答案中所述。你可以使用更复杂的$ r(s,a)$或者$ R (s, s)美元符号......但实际上没有太多的观点。

    如果您有一个达到的状态和戏剧行动对奖励分配影响的环境,那么只需使用它更明智$ r(s,a)$符号而不是试图用虚拟状态定义大规模过度的MDP,因为我尝试过上面。一个例子是......让我们说我们正在玩一个曲线,在哪里$ s $表示当前的问题和不同的行动$ a $代理商可以给出不同的答案。然后将问题作为MDP在其中模拟问题是自然的$ r(s,a)$只有肯定的话$ a $是这个问题的正确答案$ s $

    \ endgroup美元
    2
    • 1
      $ \ begingroup $ 我想指出的是,$R(s)$, $R(s, a)$和$R(s, a, s’)$直观上可以有不同的解释。我们可以把$R(s)$看作是您进入、退出或停留在状态$s$(无论我们采取什么行动或我们可能会进入下一个状态)时获得的奖励。直觉上,$R(s, a)$可以被认为是在州$s$中采取行动所获得的奖励$a$。最后,$R(s, a, s')$可以被认为是你在状态$s$中采取行动$a$并最终达到状态$s'$时获得的奖励。 \ endgroup美元- - - - - -nbro. 2月9日14:29
    • $ \ begingroup $ 我记得环境可能是随机的,所以,一般来说,如果我们采取行动$ a $的州$ s $,我们可能不会始终处于相同的下一个州,即如果我们采取行动$ a $州$两次,结果下一个州可能不同。 \ endgroup美元- - - - - -nbro. 2月9日'19 14:30

    你的答案

    点击“发表您的答案”,即表示您同意我们的答案服务条款,隐私政策饼干的政策

    不是你想要的答案?浏览其他标记的问题必威英雄联盟或者必威电竞问自己的问题