3.
\ begingroup美元

我已经实现了一个简单的Q-learning算法,通过将奖励设置为代理所采取行动的成本的倒数来最小化成本函数。算法的收敛性很好,但是对于不同阶的奖励函数,在全局收敛性上有一些不同。如果我使用的奖励功能是:

$ ${奖励}= \ \文本压裂{1}{}{成本+ 1)(\文本^ 2}$ $

算法的收敛性更好(更低的全局成本,这是这个过程的目标),比我使用奖励时更好:

$ ${奖励}= \ \文本压裂{1}{}{成本+ 1)(\文本}$ $

如何解释这种差异呢?是面对不确定性的乐观主义问题吗?

| 改善这个问题 | |
\ endgroup美元
    3.
    \ begingroup美元

    强化学习(RL)控制使期望奖励的总和最大化。如果你改变了奖励指标,它便会改变所谓的最佳状态。你们的奖励功能是不一样的,所以在某些情况下会改变解决方案的优先级。

    作为一个简单的例子,考虑在代价为a(0,4,4,4)和B(1,1,1,1)的轨迹之间进行选择。在原来的成本公式中,B显然更好,总成本是4,而A的成本是12,A一开始只有一个低成本,这是我故意放进去的,因为它暴露了你转换的问题。

    在你的两个奖励公式中:

    奖励= 1 /(成本+ 1)* * 2。B: 0.25 + 0.25 + 0.25 + 0.25 = 1.0奖励= 1/(成本+1)答:1.0 + 0.2 + 0.2 + 0.2 = 1.6 B: 0.5 + 0.5 + 0.5 + 0.5 = 2.0

    所以在这个例子中(精心选择的数字),最大化总回报有利于A的平方和,而B则有利于B的平方和和,而B显然应该是最小化成本总和的首选。从你的两个公式中,我们可以找到一些例子,说明最好的奖励总和并不能带给你最低的成本。

    在你的情况下,如果你真的想要最小化总成本,那么你的收益转换应该是:

    奖励=成本

    从技术上讲,其他任何事情都改变了问题的本质,并将导致不同的解决方案,而这些解决方案可能并不符合你的初始目标。

    | 改善这个答案 | |
    \ endgroup美元
    • \ begingroup美元 谢谢你的演示。你所提出的奖励函数与神经行为者-批评家工作得相当好,但当我使用q表时,它返回较差的收敛性(与更高的全局成本)比我的两个函数。你认为这是怎么回事?我用0初始化q值。 \ endgroup美元- - - - - -EArwa 5月15日10:14
    • \ begingroup美元 对不起,我不知道。如果你卡住了,我建议你问一个必威电竞新的问题。 \ endgroup美元- - - - - -尼尔·斯莱特 5月15日11点24分

    你的答案

    点击“发表您的答案”,即表示您同意我们的答案服务条款,隐私政策饼干的政策

    不是你想要的答案?浏览其他标记的问题必威英雄联盟必威电竞问自己的问题