0
\ begingroup美元

从文章第2.1节摘录:

我们考虑的标准强化学习的形式主义组成的一个代理与环境的交互。为了简化说明,我们假设环境是完全可观察的。环境是由一组状态来描述的年代美元,一组动作一个美元,初始状态的分布p (s_0)美元,奖励功能$r: \mathcal{S} \times \mathcal{A} \右列\mathbb{r}$,过渡概率$p(s_{t+1} \mid s_t, a_t)$,以及折现因子$\gamma \在[0,1]$。*

人们应该如何解释其背后的数学原理呢?

| 改善这个问题 | |
\ endgroup美元
  • 1
    \ begingroup美元 您是否只是在询问符号$r:必威电竞 \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{r}$,并希望对此进行澄清?目前还不清楚。“一个人应该如何解释背后的数学?”是不清楚的,因为你不解释你不明白的部分,文章似乎是字面上的数学解释简明。看起来你需要把一些数学分解成描述性的句子和多个步骤,但是是哪一部分呢?还请链接原文。使用编辑提供细节。 \ endgroup美元- - - - - -尼尔·斯莱特 9月14日8:21
  • \ begingroup美元 你好。欢迎来到爱思!注意,您可以在这个站点上使用latex。我已经编辑了你的帖子来使用它,但是请在下一篇帖子中使用latex。不要忘记澄清你的问题,就像前面的评论建议的那样。 \ endgroup美元- - - - - -nbro 9月14日10:18
3.
\ begingroup美元

这个答案假设您只对本文中的符号有问题:

$r: \mathcal{S} \times \mathcal{A} \右列\mathbb{r}$

这是一种标准符号,在许多学科中使用,用于定义函数及其输入和输出。它有点像函数的方法签名——它没有完全定义函数,但足以显示它如何与其他表达式交互。

所有的函数都可以看作是输入域和输出域之间的映射。您提供一个输入值,它将返回一个输出值。值可以是任意的数学对象。属性显示允许输入和输出的对象类型符号集使用。

重要的符号$ \ mathbb {R} $最后并不是指环境中可能的奖励的集合(尽管它是一个奖励函数,并且那将是它的输出),而是所有实数的集合,因为一个奖励总是一个实数*。

作为一个具体的例子,如果你有一个函数$f(x) = x^2 - 2x + 7定义为实数x美元,那么它的等价符号可能是$f: \mathbb{R} \右行\mathbb{R}$。如果你允许x美元那么它就会变得复杂$f: \mathbb{C} \rightarrow \mathbb{C}$,因为$ \ mathbb {C} $是所有复数集合的标准符号。

现在我们可以分解符号了$r: \mathcal{S} \times \mathcal{A} \右列\mathbb{r}$

r美元

函数被调用r美元

:美元

它的输入域是。

$ \ mathcal{年代}\ * \ mathcal{一}$

所有可能状态集的笛卡尔积$ \ mathcal{年代}$以及一系列可能的动作$ \ mathcal {} $

这与说函数有一个签名非常相似美元$ r(年代)在哪里$ s \ \ mathcal{年代}$美元的\ \ mathcal{一}$

\ rightarrow美元

它的输出域是…

$ \ mathbb {R} $

任意一个实数。


*这个选择(宣告的比较一般)$ \ mathbb {R} $而不是特定的$ \ mathcal {R} $)的部分原因是运营商喜欢$ + $$ \ * $对于实数是定义良好的。例如,当定义价值函数如何工作时,这是一个关于奖励函数输出行为的有用断言。当然,你可以更具体,定义$ \ mathcal {R} $作为$ \ mathbb {R} $,这将是正确的和更精确的定义,但它是不需要的一般理论在强化学习。不那么精确的定义几乎适用于所有目的。

| 改善这个答案 | |
\ endgroup美元

    你的答案

    点击“发布您的答案”,即表示您同意我们的服务条款,隐私政策饼干的政策

    不是你想要的答案吗?浏览其他已标记的问题必威英雄联盟必威电竞问你自己的问题