1
\ begingroup美元

从文章中取自2.1节:

我们考虑标准的强化学习形式主义,包括一个主体与环境的互动。为了简化论述,我们假定环境是完全可观察的。环境是由一组状态来描述的年代美元,一组动作一个美元,初始状态的分布p (s_0)美元,奖励功能$r: \mathcal{S} \times \mathcal{A} \ rightrow \mathbb{r}$,过渡概率$p(s_{t+1} \mid s_t, a_t)$,和一个折现系数$ gamma \in [0,1]$ gamma \。*

人们应该如何解释它背后的数学?

\ endgroup美元
    3.
    \ begingroup美元

    这个答案假设您只对本文中的这种表示法有问题:

    $r: \mathcal{S} \times \mathcal{A} \ rightrow \mathbb{r}$

    这是一种标准的符号,用于定义函数及其输入和输出。它有点像函数的方法签名——它没有完全定义它,但足以说明它如何与其他表达式交互。

    所有的函数都可以看作是输入域和输出域之间的映射。您提供一个输入值,它将返回一个输出值。值可以是任意的数学对象。为了显示允许输入和输出的对象类型,函数符号集使用。

    重要的符号$ \ mathbb {R} $最后并不是指环境中可能的奖励集合(尽管这是一个奖励函数,并将成为它的输出),而是所有实数的集合,因为奖励总是一个实数*。

    作为一个具体的例子,如果你有这个函数$ f(x)= x ^ 2 - 2x + 7 $定义一个实数x美元,那么它的等价符号可能是$f: \mathbb{R} \ rightrow \mathbb{R}$。如果你允许x美元那么它就会是复杂的$f: \mathbb{C} \ rightrow \mathbb{C}$,因为$ \ mathbb {C} $是所有复数集合的标准符号。

    现在我们可以分解符号了$r: \mathcal{S} \times \mathcal{A} \ rightrow \mathbb{r}$

    r美元

    函数被调用r美元

    :美元

    它的输入域是…

    $ \ mathcal{年代}\ * \ mathcal{一}$

    所有可能状态集合的笛卡尔积$ \ mathcal{年代}$以及一系列可能的行动$ \ mathcal {} $

    这就相当于说函数有一个签名美元$ r(年代)在哪里$ s \ \ mathcal{年代}$美元的\ \ mathcal{一}$

    \ rightarrow美元

    它的输出域是…

    $ \ mathbb {R} $

    任何一个实数。


    *这个选择(声明更一般$ \ mathbb {R} $而不是特定的$ \ mathcal {R} $)之所以如此,部分原因在于运营商喜欢$ + $$ \ * $对于实数有很好的定义。当定义值函数如何工作时,这是一个关于奖励函数输出行为的断言。当然,你可以更具体地定义$ \ mathcal {R} $作为$ \ mathbb {R} $,这将是正确和更精确的定义,但在强化学习的一般理论中不需要它。这个不那么精确的定义几乎适用于所有用途。

    \ endgroup美元

      你的答案

      点击“发表您的答案”,即表示您同意我们的答案服务条款,隐私政策饼干的政策

      不是你想要的答案?浏览其他标记的问题必威英雄联盟必威电竞问自己的问题