0
\ begingroup美元

我正试图了解以下问题:

在此输入图像描述

在这里,我们从V(rf)开始,例如,我们说使用动态编程并考虑Bellman方程,我们从上一个州假设开始h在最后一步中,我们得到了值10 V (RF).当我们前往之前的一步值增加时19,在V(rf)中的H-1.为什么价值像在位置上一样在向后增长h最后一步是什么10.但在h -它的19.当我们调查V (RF)

当我应用这个方程时,我没有得到V(RF)的第三个答案25.08.下面是我对V(RF)的解决方案:

让我们假设对于RF,我知道VH(rf)= max {r(rf,a),r(rf,s)} = max({10,10} vh(rf)= 10 **为h-1 ** VH-1(RF)= MAX R(RF,ACT)+伽马e(求和状态)P(态度,ACT)VH(状态)= MAX {10 + 0.9(1 * 0),10 + 0.9(0.5(10)+ 0.5(10))} = H-2 ** VH-2(RF)= MAX R(RF,ACT)+ Gamma E(求和状态)P(状态)的最大(10,19)**(州| RF,ACT)VH(州H-1)=最大{19 + 0.9(1 * 0),19 + 0.9(0.5(10)+0.5(10))} = 28.0

所以在上面的情景奖励0.9但我不确定我们如何在v(rf)为25.08以及我们使用这个最后一部分的地方获得第三个结果vh(州)从方程?

新贡献者
AHF是这个网站的新贡献者。在询问澄清、评论和回答时要必威电竞小心。看看我们的行为准则
\ endgroup美元
6
  • \ begingroup美元 你好。欢迎来到AI SE!为了提高这篇文章的清晰度,我认为你应该描述这些符号的意思。我认为$ S $和$ a $是可用的行动,即美元$,$ PF $等是国家,但后来我不明白为什么你称之为$ h $ a状态。这不是一步吗? \ endgroup美元- - - - - -nbro. 6月4日1:32
  • \ begingroup美元 嗨,谢谢你的帮助,H是Horizo​​ n,时间次数。当我恳求这个方程时,我没有得到rf的第三个答案,即25.08 \ endgroup美元- - - - - -AHF 6月4日1点46分
  • \ begingroup美元 我还没有看过你的代码,但是哪个具体的你用的是DP算法吗?价值迭代,策略迭代或者其他什么?你也可以提供一个参考,你正在使用实现你的算法和你从哪里得到这个练习?最后,请编辑你的帖子,把你的主要具体的标题中的问题,这样人们在阅读问题列表中的标题时就能马上知道你在问什么。必威英雄联盟必威电竞 \ endgroup美元- - - - - -nbro. 6月4日14:34
  • \ begingroup美元 它在这个视频的42分钟:youtube.com/... \ endgroup美元- - - - - -AHF 12月4日15:39
  • 1
    \ begingroup美元 @AHF请用所有必要的信息编辑你的帖子,让事情更清楚。 \ endgroup美元- - - - - -指针 2天前
1
+ 50
\ begingroup美元

哇,这真是一个令人困惑的例子,如果我是你,我会去看看其他的RL资源。我不会考虑h是最后一步和h -作为前一步。就动态编程算法迭代的步骤而言,h实际上是第一步,h -下一步,依此类推。从这些方面来看,RF的值从10增加到19是有意义的,因为在动态规划的第一步之后,状态RF包含了RU的一些值。

这是H-2的正确计算。

$$10 + 0.9(0.5\times19+0.5\times14.5) = 25.08$$

您在计算中正在做一些错误的事情:

  • 首先,你错误地将奖励值设置为19。奖励应该是10。注意,奖励和价值是两个不同的数量。当我们迭代动态规划算法时,我们当前的数值近似值将发生变化,但奖励将始终保持不变(即图表中气泡所示的数值)。在第一步(h)中,价值和奖励是相等的。
  • 你使用的值的状态RU和RF(=10)从步骤h要计算值,步骤2这是不正确的。您应该使用step中的值h -分别是14.5和19。

使用此理解,下一步计算h-3(注意,我现在使用的是从step2).

$$ 10 + 0.9 *(0.5 * 25.08 + 0.5 * 16.53)= 28.72 $$

\ endgroup美元

    你的答案

    AHF是一个新的贡献者。友善点,看看我们的的行为准则

    点击“发表您的答案”,表示您同意我们的服务条款隐私政策饼干的政策

    不是你想要的答案?浏览标记的其他问题必威英雄联盟或者必威电竞问你自己的问题