$ $开始组$

表格Q-学习算法保证找到最优的$Q$function,$Q^*$,如果满足以下关于学习率的条件

  1. $\sum_{t} \alpha_t(s,a) = \infty$
  2. $\sum_t \alpha_t^2(s,a)

在哪里?$alpHaaT(s,A)means the learning rate used when updating the$Q$与状态关联的值$s$与行动$$at time time step$T$,在哪里?$0 \leq \alpha \u t(s,a)<1美元is assumed to be true,对于所有州$s$行动$$.

显然地,given that$0 \leq \alpha \u t(s,a)<1美元,为了使这两个条件成立,所有状态-动作对必须无限频繁地访问:这在书中也有说明。强化学习:导论,除了众所周知的事实外,它是使用$\epsilon$-greedy policy (or similar) during training.

一个完整的证据表明$Q$-学习发现最佳$Q$函数可以在本文中找到Q学习的收敛性:一个简单的证明(作者:Francisco S.Melo)他使用的概念是收缩映射为了确定最佳$Q$功能(另请参见强化学习中的行李员是什么?)它是这个收缩算符的固定点。他还使用了一个定理。2) regarding random process that converges to0美元,给出了一些假设。(证据可能不容易理解,如果你不是一个数学迷。)

我听说当我们用神经网络来表示$Q$function,收敛性保证$Q$-学习不再有效。这到底是为什么?为什么Q学习在使用函数逼近时不收敛?Is there a formal proof of such non-convergence of$Q$-使用函数逼近学习?

我在寻找不同类型的答案,从那些只给出直觉背后不收敛的$Q$-学习使用函数近似于那些提供形式证明(或链接到带有形式证明的论文)的方法。

$\EdTrime$$
  • $ $开始组$ 好问题! $\EdTrime$$- 约翰杜塞特 4月5日19:26
  • $ $开始组$ 你所引用的那本书在第11章中讨论了这个问题,所以你可以阅读它。也,我不认为有正式的证据证明这是为什么,但即使在简单的环境中也很少有例子显示出分歧(例如Tsitsiklis and van Roy) . $\EdTrime$$- 布雷利 4月5日20点21分
$ $开始组$

下面是一个直观的描述答案:

Function approximation can be done with any parameterizable function.考虑一个问题$Q(s,a)$空间在哪里$s$是积极的现实,$$is0美元or1美元,真正的q函数是$q(s)0)=S ^ 2美元,和$q(s)1)=2s^ 2美元,适用于所有国家。If your function approximator is$q(s)a)=m*s+n*a+b$,没有能够准确表示真实情况的参数$Q$函数(我们试图将一条直线拟合为二次函数)。因此,即使你选择了一个好的学习率,经常到各个州去,你的近似函数永远不会收敛到真$Q$功能。

And here's a bit more detail:

  1. 神经网络近似functions.一个函数可以通过使用或多或少复杂的多项式来近似它,从而近似到更大或更小的程度。如果你熟悉泰勒级数近似,这个想法似乎很自然。If not,考虑一个函数,就像一个正弦波在区间[0-$PI/2美元).你可以用一条直线(很差)来近似它。You can approximate it better with a quadratic curve.通过增加多项式的阶数,我们用它来近似曲线,我们可以得到越来越接近曲线的东西。
  2. 神经网络是通用函数逼近器.这意味着,如果你有一个函数,你也可以制作一个足够深或足够宽的神经网络,它可以将你创建的函数近似到任意精确的程度。However,您选择的任何特定网络拓扑都将无法学习全部的功能,除非它是无限宽或无限深。这类似于,如果你选择了正确的参数,a line can fit any two points,但不是3分。如果你选择一个有限宽度或深度的网络,I can always construct a function that needs a few more neurons to fit properly.

  3. 只有当q函数的表示为准确的.看看为什么,假设您选择用线性插值来近似您的q函数。If the true function can take any shape at all,then clearly the error in our interpolation can be made unboundedly large simply by constructing a XOR-like Q-function function,而且,任何额外的时间或数据都不允许我们减少这个错误。如果使用函数近似值,你想要适应的真正功能是函数可以任意近似的东西,那么你的模型就不能正确收敛了,即使选择了一个良好的学习率和探索率。使用计算学习理论的术语,我们可以说,Q学习的收敛证明隐含地假设,真正的Q函数是假设空间的一个成员,从中您将选择您的模型。

$\EdTrime$$
  • $ $开始组$ Where can we see from the proof I mentioned that "Q-learning's bounds hold only when the representation of the Q-function is exact" is true? $\EdTrime$$- nbro 4月5日19:39
  • $ $开始组$ So,我们可以使用一些神经网络(体系结构)来近似任何(合理的)函数,但是,给定一个固定的神经网络结构$Z$(我们需要在$Q$学习的培训阶段开始时选择它),$Q$学习可能无法使用特定的体系结构$Z$聚合,because $Z$ might not be expressive enough to represent $Q^*$. $\EdTrime$$- nbro 4月5日22:07
  • $ $开始组$ @nbro证据没有明确说明,but it assumes an exact representation of the Q-function (that is,that exact values are computed and stored for every state/action pair).对于无限状态空间,很明显,在最坏的情况下,这个精确的表示可以无限大(简单的例子:让q(s,a)=pi的某个数字)。你的第二条评论总结得很好。更正式地说,如果真实假设q*不是您选择模型的假设空间h的元素,你不能收敛到q*,even with infinite time or data. $\EdTrime$$- 约翰杜塞特 4月6日0:10
$ $开始组$

据我所知,要想弄清楚正式理解为什么/什么时候我们缺乏一致性——或者,更糟的是,有时会有分歧的危险。这通常归因于“致命三联征”(见萨顿和巴托书第二版11.3)组合:

  1. 函数近似,和
  2. 引导(在计算训练目标时使用我们自己的价值估计,as done by$Q$-学习,和
  3. 政策外培训($Q$-学习确实脱离了政策)。

这只给了我们一个(可能是非详尽的)描述,在这种情况下,我们缺乏一致性和/或有分歧的危险,but still doesn't tell us为什么?it happens in those cases.


John's answer已经提供了这样一种直觉:问题的一部分就是使用函数逼近很容易导致函数逼近器不够强大,无法表示真实情况。$Q^*$function,如果不切换到不同的函数逼近器,可能总是存在无法消除的近似误差。

就个人而言,I think this intuition does help to understand why the algorithm cannot guarantee convergence to the optimal solution,但是我仍然可以直观地期望它能够“聚合”到某种“稳定”的解决方案,考虑到所选函数表示中固有的限制,这是最好的近似值。Indeed,这是我们在实践中观察到的,当我们转向政策培训(例如Sarsa)至少在线性函数逼近的情况下。


我对这个问题的直觉是,问题的一个重要来源是泛化.在表格设置中,我们有完全隔离的条目$q(s)A)为了所有美元,A)对。每当我们更新一个条目的估计时,它使所有其他条目保持不变(至少在最初——由于更新规则中的引导,在将来的更新中可能会对其他条目产生一些影响)。Update rules for algorithms like$Q$-如果我们“不走运”,学习和SARSA有时会向“错误”的方向更新。但是in expectation,它们通常向正确的“方向”更新。直观地说,this means that,在表格设置中,in expectation我们会慢慢的,逐步修复任何单独条目中的错误,不会损害其他条目。

用函数逼近法,当我们更新$q(s)A)估计一个美元,A)一对,它也可能影响全部的我们的其他估计全部的其他状态动作对。直观地说,这意味着我们不再像在表格设置中那样对条目进行良好的隔离,一个条目中的“修正”错误可能会给其他条目增加新的错误。However,就像约翰的回答,整个直觉也适用于政策算法,所以它仍然不能解释什么是特别的$Q$-学习(以及其他非政策方法)。


最近关于这个话题的一篇非常有趣的论文是非妄想性Q学习与价值迭代.他们指出了函数逼近与更新规则相结合的算法中的“妄想偏差”问题。$max运算符,例如Q-Learning(它可能不是$max运算符,但可能适用于一般的非政策?).

问题如下。假设我们运行这个$Q$-状态-动作对的学习更新美元,A)

$q(s)a)得到q(s),a)+\alpha\左[\max_a'q(s',a’-q(s),A)右。$$

The value estimate$最大值a'q(s',A)$这里使用的是基于这样一个假设,即我们执行的策略对于旧版本的$Q$estimates over a -- possibly very long -- trajectory.正如前面一些答案中所讨论的,我们的函数逼近器具有有限的表示能力,对一个状态动作对的更新可能会影响其他状态动作对的值估计。这意味着,在触发更新后$q(s)A)我们的函数逼近器可能不再能够同时表达导致我们的$最大值a'q(s',A)$estimate was based on.本文作者认为该算法具有“妄想性”。它在以下假设下执行更新:下线,it can still obtain large returns,但实际上,它可能不再强大到可以用新版本的函数近似器参数获得这些返回。


最后,another (even more recent) paper that I suspect is relevant to this question is深度Q学习算法中的瓶颈诊断,但不幸的是,我还没有足够的时间来详细阅读和总结它。

$\EdTrime$$
  • $ $开始组$ But isn't the use of a neural network also due to the assumption that certain states are very similar to each?非常相似的状态(例如一个游戏中的连续帧)通常有非常相似(或相同)的最佳动作,因此,我不确定第一篇文章中的解释是否有效(我应该阅读它来充分理解他们的要点)。 $\EdTrime$$- nbro 4月6日9时33分
  • $ $开始组$ 嗯,是的,通常情况下,泛化被认为是advantage而不是因为这个原因而产生的问题。如果结果是“预期的”,它可以非常强大并加速学习,因为我们将所学的一切转移到类似的状态/类似的行动中,而不是孤立地学习每一个稍微不同的状态/行动。但也会导致问题,especially in theory but also in practice.我想这就像一把“双刃剑”。 $\EdTrime$$- 丹尼斯苏默斯 4月6日9时48分
  • $ $开始组$ @丹尼斯·索默斯非常有趣的回答。非妄想性的Q学习点非常有意义。Finding the correct Q-function means finding a fixed point for your update rule,但是,如果你这样想的话,函数近似可能会导致Q学习中的循环更新。 $\EdTrime$$- 约翰杜塞特 4月6日16:44

你的答案

点击“发布你的答案”,你同意我们的服务条款隐私政策饼干政策

不是你要找的答案?浏览标记的其他问题必威英雄联盟 or必威电竞问你自己的问题.