1
\ begingroup美元

澄清它在我的脑海里,函数值计算是多么“好”处于某一状态的求和所有未来(贴现)奖励,但奖励函数值函数用于生成的那些奖励它在计算中使用的“好”是在国家吗?

\ endgroup美元
    1
    \ begingroup美元

    我认为区分理论(方程式)和实践(算法)在教学上是有用的。

    如果你谈论的是价值函数的定义(理论)

    \{对齐}开始v_{\π}(s) & \点{=}\ mathbb {E} _{\π}\离开(G_t \ S_t =年代\右)\ \ & = \ mathbb {E} _{\π}\离开[\ sum_ {k = 0} ^ \ infty \伽马^ k R_ {t + k + 1} \ bigl \绿色S_t = s \对]\ \ \{对齐}结束

    对所有$ s \ \ mathcal{年代}$,在那里$ \点{=}$指“定义为”和$ \ mathcal{年代}$是状态空间,那么价值函数就可以根据奖励来定义,如上所述。(注意,美元R_ {t + k + 1} $,G美元S_t美元是随机变量,而事实上,期望是关于随机变量的)

    上面的定义实际上可以扩展为基于奖励函数定义的Bellman方程(即递归方程)美元$ R(年代)底层的MDP。然而,通常,不是符号美元$ R(年代),你会看到的$p(s', r \mid s, a)$ p(s', r \mid s, a)$(表示的组合转移概率函数奖励函数)。因此,价值是奖励的函数

    如果你在估算一个价值函数(实践),例如使用Q-learning,你不一定要使用马尔科夫决策过程中的奖励函数。你可以估计价值功能是通过观察你在探索环境时所获得的奖励,而不是真正了解奖励功能。但是,通过探索环境,你可以估算奖励功能。例如,如果每次你在状态年代美元你采取行动一个美元你会得到奖励r美元,那么你已经了解了一些实际的潜在奖励功能。如果你对MDP进行了足够的探索,你也有可能学会奖励功能(除非它不断变化,在这种情况下,它可能更难学习)。

    总而言之,价值函数确实与奖励函数和奖励非常相关,你可以从定义价值函数的方程中立即看出这一点。

    \ endgroup美元

      你的答案

      点击“发表您的答案”,即表示您同意我们的答案服务条款,隐私政策饼干的政策

      不是你想要的答案?浏览其他标记的问题必威英雄联盟必威电竞问自己的问题