2
$ \ $请将BeginGroup

碰巧的最佳状态 - 动作值函数是什么,$ Q _ * $如果回报函数被乘以一个常数$ C $?是最佳的状态 - 动作值函数也乘以这样一个常数?

| 改善这个问题 | |
$ \ $端基
  • $ \ $请将BeginGroup 什么是奖励有关系吗?它是在最后1个奖励或可以有多个奖励?这是否包括负的奖励/惩罚的每一步(如果有人选择包括它)? $ \ $端基-DuttaA 09月16日在'19 4:32
  • $ \ $请将BeginGroup @DuttaA如果乘以一个常数回报功能的所有输出。 $ \ $端基-NBRO 9月16日,11点52分

1个回答1

2
$ \ $请将BeginGroup

贝尔曼最优性方程是(谁)给的

$$ q _ *(S,A)= \ sum_ {S'\在\ mathcal {S}中,r \在\ mathcal {R}} P(S',R \中期S,A)(R + \伽马\MAX_ {A '\在\ mathcal {A}(S')} q _ *(S',A'))\标签{1} \标签{1}。$$

如果奖励乘以一个常数$ C> 0 \在\ mathbb {R} $,那么新的最优动作值函数为$ CQ _ *(S,A)$

为了证明这一点,我们只需要证明方程\裁判{1}成立时的奖励$ CR $和动作值是$ C q _ *(S,A)$

\开始{对齐}℃q _ *(S,A)&= \ sum_ {S'\在\ mathcal {S}中,r \在\ mathcal {R}} P(S',R \中期S,A)(c r + \gamma \max_{a'\in\mathcal{A}(s')} c q_*(s',a')) \tag{2}\label{2} \end{align}

鉴于$ C> 0 $, 然后$ \ MAX_ {A '\在\ mathcal {A}(S')}℃q _ *(S',A ')= C \ MAX_ {A' \在\ mathcal {A}(S')} q _ *(S',一个')$,所以$ C $可采取的出$ \ {operatorname最大} $运营商。因此,方程\ REF {2}变为

\开始{对齐}℃q _ *(S,A)&= \ sum_ {S'\在\ mathcal {S}中,r \在\ mathcal {R}} P(S',R \中期S,A)(c r + \gamma c \max_{a'\in\mathcal{A}(s')} q_*(s',a')) \\ &= \sum_{s' \in \mathcal{S}, r \in \mathcal{R}}c p(s',r \mid s,a)(r + \gamma \max_{a'\in\mathcal{A}(s')} q_*(s',a')) \\ &= c \sum_{s' \in \mathcal{S}, r \in \mathcal{R}} p(s',r \mid s,a)(r + \gamma \max_{a'\in\mathcal{A}(s')} q_*(s',a')) \\ q_*(s,a) &= \sum_{s' \in \mathcal{S}, r \in \mathcal{R}} p(s',r \mid s,a)(r + \gamma \max_{a'\in\mathcal{A}(s')} q_*(s',a')) \tag{3}\label{3} \end{align}这等于贝尔曼最优在\ REF {1},这意味着,当所述奖励由下式给出$ CR $$ C q _ *(S,A)$是解决贝尔曼最优方程。因此,在这种情况下,设置最优的政策不会改变。

如果$ C = 0 $,然后\ REF {2}变为$ 0 = 0 $,这是真的。

如果$ C <0 $, 然后$ \ MAX_ {A '\在\ mathcal {A}(S')}℃q _ *(S',A ')= C \ min_ {A' \在\ mathcal {A}(S')} q _ *(S',一个')$,所以方程\ REF {3}变为

\开始{对齐} q _ *(S,A)&= \ sum_ {S'\在\ mathcal {S}中,r \在\ mathcal {R}} P(S',R \中期S,A)(R+ \伽马\ min_ {A '\在\ mathcal {A}(S')} q _ *(S',A'))\ {端对齐}

这是等于贝尔曼最优方程中\ REF {1}。

| 提高这个答案 | |
$ \ $端基

    你的答案

    点击“发表你的答案”,你同意我们的服务条款隐私政策Cookie政策

    不是你要找的答案?浏览其他问题标签必威英雄联盟要么必威电竞问你自己的问题