$ $开始组$

蒙特卡罗树搜索收敛速度有多快?有证据证明它是收敛的吗?在收敛速度方面,它如何与时间差学习进行比较(假设评估步骤有点慢)?有没有办法利用模拟阶段收集的信息来加速MCT?

抱歉,如果问题太多,必威英雄联盟如果你必须选择一个,请选择最后一个问题:p。谢谢。

$\EdTrime$$
$ $开始组$

对,蒙特卡罗树搜索(MCTS)已被证明收敛到最优解。在无限内存和计算时间的假设下。也就是说,至少对于完美的信息来说,确定性游戏/MDP。

也许其他一些问题也被一些证明所覆盖(我可以直观地想象证明也支持非确定性博弈,取决于实现细节)但是我上面提到的问题是我确信的。最初的,经典证明可在以下位置找到:

最近报纸基于监督学习的蒙特卡罗树搜索强化学习:非渐近分析出现在arxiv上,在其中我看到有人提到那些原稿可能有一些瑕疵,但他们似乎也能够修复它,并为更“现代”的变种添加更多的理论,这些变种结合了MCT内部的(深层)学习方法。


应该注意的是,通常情况下,所有这些收敛证明都适用于您花费无限时间运行算法的情况。对于MCT,只有当你的算法建立起完整搜索树,除此之外还有足够的时间树中所有可能的路径足够经常的正确的值来反向传播。这对于最有趣的问题来说不太现实(如果可行,更简单的广度优先搜索算法可能是更好的选择)。


在收敛速度方面,它如何与时间差学习进行比较(假设评估步骤有点慢)?

如果你在考虑一个标准,表格式TD学习方法,如SARSA…事实证明,这种方法与MCT密切相关。.在收敛速度方面,我认为重要的区别是:

  • MCTS专注于单一状态下的“学习”,根状态;所有努力都是为了获得该节点(及其直接子节点)的准确值估计值,然而,典型的TD实现是关于立即学习完整的状态空间。我想MCT的“焦点”可以提高它在特定状态下的收敛速度…
  • 但事实上,搜索树$Q元-你在萨沙看到的价值观$Q元-学习)只有缓慢增长也可能是不利因素,与表TD学习方法相比,表TD学习方法从包含完整状态空间的完整表开始。

请注意,如上文所链接的最后一篇文章展示了MCT如何也可以实际使用时间差异学习来通过树来支持值。因此,从“MCT与TD学习”的角度来看,当你认为TD学习可以在MCT内部使用时,这并没有什么意义。


有没有办法利用模拟阶段收集的信息来加速MCT?

有很多这样的想法往往会从经验上提高绩效。不过,从理论上讲,很难多说。我头脑中的一些例子:

  • 一举一动(AMAF)
  • 快速动作值估计(RAVE,也见坟墓)
  • 移动平均采样技术(MAST)
  • n-gram选择技术(NST)
  • 上次良好答复政策

它们中的许多可以在本调查报告,但现在(从2012年起)已经有点老了,所以它不包括所有最新的东西。

$\EdTrime$$

你的答案

点击“发布你的答案”,你同意我们的服务条款隐私政策饼干政策

不是你要找的答案?浏览标记的其他问题必威英雄联盟 必威电竞问你自己的问题.