1
$ \ begingroup $

我读过一些关于应用持续学习策略来强化学习的方法。

既然强化学习在训练阶段也是一步一步地学习(在某种意义上,也就是任务接任务地学习),为什么它本身不被认为是一种持续学习策略呢?必威电竞

当然,如果代理人灾难性地忘记了以前学识过的任务,则需要防止这种情况,因此制定对缓解灾难性遗忘的策略,但我的问题更多地是关于定义的。必威电竞如果连续学习(或在线学习)是关于一次学习一个任务,而且RL以某种方式做到这一点,为什么它不被认为是持续的学习策略(无论它可能不是有效的必威电竞)吗?

澄清一下,我还没有读到过RL不是一个方法,但也没有那个。只有为RL提出CL方法这一事实给我的印象是,RL不被认为是一种方法。我也没有看到有人为此目的提到RL。我只是好奇为什么会这样。

\ endgroup美元
5
  • $ \ begingroup $ 为了支持你的观点,RL不是一种持续学习的方法,你可能应该引用2-3篇这样的研究论文。 \ endgroup美元- - - - - -nbro 4月29日10:23
  • $ \ begingroup $ 我没有看到任何论文特别指出它不是,但是由于在RL之上有其他方法的建议,它似乎不被认为是CL。但这可能只是我的一个印象,也许是错的。所以我才问你必威电竞 \ endgroup美元- - - - - -康复 4月29日11:06
  • $ \ begingroup $ 我问这是原因的原因是因为我知道通过考虑它必威电竞是一个持续的学习技术,对RL进行了研究,这是一个合理的事情。无论如何,我知道,如您所知,人们也开发了处理灾难性遗忘的方法,这可能可能为什么要问这个问题。必威电竞所以,我建议你至少引用1-2篇论文,这使你问这个问题。必威电竞 \ endgroup美元- - - - - -nbro 4月29日11:29
  • 1
    $ \ begingroup $ 无论如何,我认为你的问题的答案取决于你对“持续学习”的定义。如果你所说的持续学习指的是“持续学习而不会灾难性遗忘”,那么,RL通常不是一种持续学习技术,因为我们知道某些RL算法会受到CF的影响。那么RL可以被认为是一种持续学习的技术。 \ endgroup美元- - - - - -nbro 4月29日11:31
  • $ \ begingroup $ 啊好吧!我很高兴你支持我的假设它取决于定义。你能给我一些针对其中用作CL技术的文件的例子吗? \ endgroup美元- - - - - -康复 4月29日12:31

你的答案

点击“发表您的答案”,表示您同意我们的服务条款,隐私政策饼干的政策

浏览其他标记的问题必威英雄联盟或者必威电竞问你自己的问题