必威英雄联盟问题标记[问题学习]

对于与Q必威英雄联盟-学习算法相关的问题,Q-学习算法是一种无模型时差强化学习算法,它试图逼近Q函数,Q函数是一个给定状态s和动作a的函数,返回一个实数,该实数表示从s采取行动a时s状态的返回(或值)。Watkins在博士论文“从延迟奖励中学习”(1989)中介绍了Q学习。

191个必威英雄联盟问题
筛选依据
排序依据
标记为
1个
投票
1个回答
23个视图

Q学习能预测样本的ouf吗?

我对Q-learning的理解是,它本质上是建立状态到动作的字典,以便最大化马尔可夫(即,逐步的,历史不可知?)奖励。此增量更新。。。
1个
投票
0个答案
28个视图

如何防止深度Q-learning算法过度拟合?

我最近用双深度Q学习解决了Cartpole问题。当我看到特工的表现时,他每次都是向右走,从不向左走,而且总是做类似的动作。做。。。
1个
投票
1个回答
29日视图

如果深度Q学习开始只选择一个动作,这是算法发散的迹象吗?

我正在研究一个无限视界问题的深层q学习模型,有连续的状态空间和3种可能的行为。我用一个神经网络来近似动作价值函数。
2个
投票
2个答案
290个视图

双深度Q学习有什么好的参考吗?

我是刚接触强化学习,但是我已经了解了深度Q-learning和Q-learning。现在,我想学习双深度Q-learning。你知道双深度Q-learning有什么好的参考吗?…
2个
投票
1个回答
37个视图

在Q-learning中我应该如何衰减$\epsilon$?

我应该如何在Q-learning中衰减$\epsilon$?目前,我正在腐烂的epsilon如下。我将$\epsilon$初始化为1,然后在每集之后,我将它乘以一些$C$(设为$0.999$)。。。
1个
投票
1个回答
45个视图

在深度Q-学习中,我们应该如何以及何时更新Q-目标?

我最近看了David silver的课程,并开始实现深度Q学习算法。我想我应该直接在Q目标和Q电流之间切换(意思是,每。。。
1个
投票
1个回答
93个视图

在q-learning中处理不存在的状态

我用Q-学习来解决一个工程问题。目标是生成一个Q表,将状态与Q值关联起来。我创建了一个状态向量。。。
2个
投票
1个回答
58岁的观点

PyTorch官方教程真的是关于Q-learning的吗?

我读过Q-学习算法,也知道值迭代(当你更新动作值时)。我认为PyTorch的例子是价值迭代,而不是Q-学习。以下是链接:https://pytorch。。。。
投票
0个答案
42个视图

延迟策略更新Q-学习的收敛性

我考虑了一个稍微扭曲标准Q-学习的算法,但是我不确定是否可以保证收敛到最优Q-值。算法从一个初始。。。
1个
投票
1个回答
38个视图

我们能提高强化学习算法的训练速度吗?

我是强化学习的新手。我开始阅读PyTorch关于手推车杆控制的文档。每当代理失败时,它们都会重新启动环境。当我运行代码的时候。。。
1个
投票
1个回答
24个视图

我们有两个Q学习更新公式吗?

我见过两个深度Q学习公式:$$Q\left(S{t},A{t}\right)\leftarrow Q\left(S{t},A{t}\right)+\alpha\left[R{t+1}+\gamma\max{A}Q\left(S{t+1},A\right)-Q\left(S{t},A{t}\right)。。。
0个
投票
0个答案
13个视图

如何保存和加载Q-Learning代理[迁移]

我知道这听起来可能不太靠谱,但我如何才能挽救一个深度Q学习代理的进步呢?我是说,当我在第500集结束时,我的经纪人接受了培训,我重新开始(在我的情况下是一个游戏)我的经纪人是。。。
0个
投票
1个回答
28个视图

如何使用Q学习在一代中添加多个代理

有时代理学习有点慢,您希望在一代中有多个代理。在每一集中,你只会在屏幕上画出其中最好的部分或全部。怎么可能呢。。。
1个
投票
1个回答
33个视图

如何利用强化学习来模拟和解决骑士之旅问题?

我读过骑士之旅的问题。我想尝试用OpenAI健身房的强化学习算法来解决这个问题。所以,我想做一个机器人,可以在象棋桌上移动,就像。。。
投票
1个回答
31个视图

如果代理选择了环境无法操作的操作,我应该如何处理这种情况?

我正在做一个非常简单的实验,让一个特工在一张3x3平方的纸上从左下角移动到右上角。我打算用DQN来做这个。我在处理。。。

15个 30个 50个 每页