3.
\ begingroup美元

我实现了一个简单的Q-learning算法,通过将奖励设置为agent所采取行动的成本的倒数来最小化代价函数。该算法收敛得很好,但我有一些区别在全球成本奖励函数的收敛为不同的订单。如果我使用奖励函数如下:

$ ${奖励}= \ \文本压裂{1}{}{成本+ 1)(\文本^ 2}$ $

当我使用奖励时,算法的收敛性更好(更低的全局代价,这是过程的目标):

$ ${奖励}= \ \文本压裂{1}{}{成本+ 1)(\文本}$ $

如何解释这种差异呢?这是面对不确定性时的乐观态度吗?

| 改善这个问题 | |
\ endgroup美元
    3.
    \ begingroup美元

    强化学习(RL)控制最大限度的期望和奖励。如果你改变了奖励标准,它就会改变什么才是最优的。你的奖励功能是不一样的,所以在某些情况下会改变解决方案的优先级。

    举一个简单的例子,考虑代价为a(0,4,4,4)和B(1,1,1,1)的轨迹之间的选择。在最初的成本公式中,B显然更好,总成本为4,而A的成本为12 - A在一开始只有一个低成本,我故意把它放在这里,因为它暴露了转换的问题。

    在你的两个奖励公式中:

    奖励= 1 /(成本+ 1)* * 2。A: 1.0 + 0.04 + 0.04 + 0.04 = 1.12 B: 0.25 + 0.25 + 0.25 + 0.25 = 1.0答:1.0 + 0.2 + 0.2 + 0.2 = 1.6 B: 0.5 + 0.5 + 0.5 + 0.5 = 2.0

    因此,在这个例子中(数字仔细选择),最大的总回报有利于A的逆平方和,而B的逆平方和,而B应该是成本总和最小的明显偏好。这是可能的例子,为你的公式,其中最好的回报总和没有给你最低的成本。

    在你的情况下,如果你真的想最小化总成本,那么你的回报应该是:

    奖励=成本

    其他任何事情都是在技术上改变问题的性质,并将导致不同的解决方案,可能不是您最初目标的最佳方案。

    | 改善这个答案 | |
    \ endgroup美元
    • \ begingroup美元 谢谢你的解释。您提出的奖赏函数与神经角色批评家一起工作得相当好,但当我使用q表时,它的收敛性比我的两个函数差(具有更高的全局代价)。你认为是什么问题?我用0初始化q值。 \ endgroup美元- - - - - -EArwa 5月15日14时
    • \ begingroup美元 抱歉,我不知道。如果你被困住了,我建议你问一必威电竞个新的问题。 \ endgroup美元- - - - - -尼尔·斯莱特 5月15日11:24

    你的答案

    点击“发布您的答案”,即表示您同意我们的服务条款,隐私政策饼干的政策

    不是你想要的答案吗?浏览其他已标记的问题必威英雄联盟必威电竞问你自己的问题