必威英雄联盟问题标记[Q-Learning]

问题相关必威英雄联盟的Q学习算法,这是一个模范自由和temporal-difference强化学习算法,试图近似Q函数,这是一个函数,给定一个国家和一个动作,返回一个实数表示状态的返回(或价值)当行动取自年代。介绍了Q学习的博士论文“从延迟学习奖励”由沃特金斯(1989)。

282个必威英雄联盟问题
通过过滤
标记有
1
投票
0.答案
23日视图

深度Q网络不稳定学习过程的原因

我正在编写一个应用程序,其中自主车与曲目的环境相互作用。这辆车前面有7个传感器,它们定义了该状态。我使用深网络来估计q ...
0.
投票
0.答案
34岁的观点

有没有玩具的例子可以说明双问学习的表现?

我最近试图重现双Q学习的结果。但是,结果不令人满意。我还试图在出租车-V3中使用Q-Learning进行比较双Q学习,Froozenlake没有...
1
投票
1回答
36次观点

如何构建神经网络以近似Q函数?

我正在用Q-learning学习强化学习,使用在线资源,比如博客文章、youtube视频和书籍。在这一点上,我已经学会了强化的基础概念……
0.
投票
0.答案
24次观点

为什么在使用近似时不保证收敛?[重复]

我正在通过博客帖子,YouTube视频和书籍等在线资源进行Q-Learning进行加强学习的自我研究,我已经了解了......
-1
投票
0.答案
15的观点

如何通过加固学习监测神经网络的学习性能?

我对Q-Learning进行了加强学习的自我研究。我正在使用像博客帖子,YouTube视频和书籍这样的在线资源,此时我已经学会了......
4.
投票
1回答
59次观点

DQN丢失来自Bellman方程的(或理论上)的DQN丢失,以及如何与Q学习更新有关?

我正在进行加强学习的项目。我编写了一个使用ddqn的代理。有很多教程,所以代码实现并不是那么难。但是,我有问题......
1
投票
1回答
55岁的观点

如果$ \ Alpha $随着时间的推移而减少,为什么Q-Learning保证融合?

如果随着时间的推移,则保证Q-Learning将收敛于收敛。第161页的第161页由Sutton和Barto,第8.1节第8.1节,他们编写Dyna-Q被保证会收敛...
2
投票
2答案
250意见

当代理面临一个从未遇到的状态时会发生什么?

我有一个带有节点和链接的网络,每个节点在初始状态都有一定数量的资源(可以取离散值)。在随机的时间步骤中,一个服务被生成,并且,基于…
0.
投票
1回答
46观点

为什么Q-Learnal确定暗示的策略是Q-Learnal确定,当它总是选择具有最高概率的动作?

Q-learning在每一步都使用最大值,这意味着存在一个概率分布,它恰好选择概率最大的那个。没有直接的映射…
0.
投票
0.答案
32次观点

深度q学习网络不工作

我有这个代码:...
2
投票
1回答
60次观点

我是否需要提前知道Q-Learning中各种国家数量?

在q学习中,是否必须知道agent可能最终处于的所有可能状态?我的网络有4个源节点,3个汇聚节点,4个主链路。初始状态是状态。
2
投票
1回答
56岁的观点

什么构成了一个大的空间状态(在Q学习)?

我知道这可能针对不同的问题,但是有人知道关于什么构成大状态空间有什么经验或参考吗?我知道,根据多篇论文…
1
投票
0.答案
24次观点

如何计算多阶段脱助策略强化学习的回报目标?

我正在执行A3C算法,我想增加使用Retrace的非策略培训,但我在理解如何计算Retrace目标时遇到了一些问题。Retrace用于组合…
3.
投票
1回答
85意见

为什么非政策学习优于政策学习?

我正在自学研究使用不同的在线资源的加强学习。我现在有一个基本的了解RL如何工作。我在一本书中看到了这一点:Q-Learning是一个违规学习者。off -...
2
投票
1回答
55岁的观点

Epsilon的价值应该是Q学习的吗?

我正在尝试理解强化学习,并且已经探索了不同的Youtube视频、博客文章和维基百科文章。我不明白的是$\epsilon$的影响。什么价值……

15 30. 50 每个页面
1
2 3. 4. 5.
......
19