3.
\ begingroup美元

我已经实现了一个简单的Q学习算法,可以通过将奖励设置为代理所采取的动作成本的逆来最小化成本函数。该算法很好地融合,但有一些差异我在全球成本收敛方面获得了不同的奖励函数的顺序。如果我使用奖励函数是:

$ ${奖励}= \ \文本压裂{1}{}{成本+ 1)(\文本^ 2}$ $

算法的收敛性更好(更低的全局成本,这是这个过程的目标),比我使用奖励时更好:

$ ${奖励}= \ \文本压裂{1}{}{成本+ 1)(\文本}$ $

如何解释这种差异呢?是面对不确定性的乐观主义问题吗?

| 改善这个问题 | |
$ \ endgroup $
    3.
    \ begingroup美元

    强化学习(RL)控制最大化了预期的奖励总和。如果更改奖励度量,则会将计数更改为最佳状态。您的奖励功能不一样,因此在某些情况下会更改解决方案的优先级。

    作为一个简单的例子,考虑具有成本A(0,4,4,4)和B(1,1,1,1)的轨迹之间的选择。在原始成本方案B中显然是更好的,与A的成本相比,与A的成本相比,刚刚在开始时具有一个低成本,我故意在您的转换时出现问题。

    在你的两个奖励公式中:

    奖励= 1 /(成本+ 1)* * 2。B: 0.25 + 0.25 + 0.25 + 0.25 = 1.0奖励= 1/(成本+1)答:1.0 + 0.2 + 0.2 + 0.2 = 1.6 B: 0.5 + 0.5 + 0.5 + 0.5 = 2.0

    因此,通过这个例子(仔细选择的数字),最大化总奖励的总奖励A的总奖励A的总奖励A的总奖励A,而是B总和的逆量子,而B应该是最小化成本总和的清晰偏好。可以找到两个公式的示例,其中最好的奖励总和不会给您最低的成本。

    在您的情况下,如果您真正想要最小化总成本,那么您的转换奖励应该是:

    奖励=成本

    其他任何事情都在技术上改变了问题的性质,并将导致不同的解决方案,这可能对您的初始目标可能不是最佳的。

    | 改善这个答案 | |
    $ \ endgroup $
    • \ begingroup美元 谢谢你的演示。你所提出的奖励函数与神经行为者-批评家工作得相当好,但当我使用q表时,它返回较差的收敛性(与更高的全局成本)比我的两个函数。你认为这是怎么回事?我用0初始化q值。 $ \ endgroup $-EArwa 5月15日10:14
    • \ begingroup美元 @earwa:对不起,我不知道。我建议你问一个关于你是否被困必威电竞的新问题。 $ \ endgroup $-尼尔·斯莱特 5月15日11:24

    你的答案

    点击“发布答案”,您同意我们的同意服务条款隐私政策饼干的政策

    不是您要找的答案?浏览其他标记的问题必威英雄联盟必威电竞问你自己的问题