堆栈交换网络

Stack Exchange network consists of 175 Q&A communities including栈溢出,最大的,最值得开发者学习的在线社区,分享他们的知识,建立他们的事业。

Visit Stack Exchange

必威英雄联盟标记问题[强化学习]

对于由外必威英雄联盟部正强化或负反馈信号或两者共同控制的与学习相关的问题,到目前为止所学知识的学习和使用同时发生的地方。

467个必威英雄联盟问题
votes
答案
16视图

在actor/critical算法中,噪声(如ou)是否应该随着时间的推移而降低?

在我看到的大多数RL算法中,there is a coefficient that reduces actions exploration over time,to help convergence.But in Actor-Critic,or other algorithms (A3C,DDPG,…)用于连续…
1
vote
答案
20 views

为什么在DQN中过度安装是不好的?

Fu 2019提到过拟合可能会对DQN培训产生负面影响。They showed that with either early stopping or experience replay this effect could be reduced.第一个是…
votes
2答案
586的浏览量

什么算法被认为是强化学习算法?

What are the areas that belong to the Reinforcement Learning?TD(0),Q-Learning和SARSA都是时间差分算法,属于强化学习领域,but is there more to ...
votes
答案
14视图

测量网格世界环境差异强化学习

我想测量两个网格世界之间的差异,以使用表格Q-Learning确定我的代理的泛化能力。例如(Openai Freeze Lake):sffffhfffhfgfg和:…
1
vote
答案
14视图

How is Parallelism Implemented in RL algorithms like PPO?

在强化学习中有多种实现并行性的方法。一种是使用在自己环境中运行的并行工作人员并行收集数据,而不是使用重播内存…
2
votes
1回答
28视图

体验重播并不总是能获得更好的效果

我最近开始使用DeepMind提出的深度Q网络(https://arxiv.org/abs/1312.5602)来解决控制问题。最初,我在没有经验回放的情况下实现了它。The ...
votes
答案
22 views

RL: Confusion about Retrace

在第4.3节“通过玩来学习-从头解决稀疏奖励任务”中,必威电竞作者将retrace定义为$$Q ^ ret=\sum j=i ^ \ infty \ left(\gamma ^ j-i \ prod k=i ^jc k \ right)[r(s j,a j)+……
votes
答案
20 views

用RL控制多个单元的代码示例

任何人都知道资源(论文,文章,尤其是存储库)关于用RL控制多个单元。不应固定控制单元,for example in Real Time Strategy the ...
1
vote
答案
15视图

如何正确优化演员和评论家之间的共享网络?

我正在构建一个演员评论增强学习算法来解决环境问题。I want to use a single encoder to find representation of my environment.When I share the encoder with the actor ...
votes
1回答
35 views

Picking a random move in exploitation in Q-Learning

I've been unsure about a principle of Q-Learning,我希望有人能把它清理干净。当遇到一个新的状态时,因此,没有现有的Q值,算法决定…
votes
答案
28视图

$\epsilon$-庞大状态空间的贪婪策略

我目前正在建立一个代理,通过强化学习学习学习卡拉。我已经走得很远了。当$\epsilon$为0时,意味着没有勘探,只有开发,它能…
votes
2答案
29视图

如何在学习过程中阻止dqn q函数的增加?

Following the DQN algorithm with experience replay:We calculate the $loss=(Q(s,a)-(r+Q(s+1,a)))^2$.Assume I have positive but changing rewards.意义,$R> 0美元,因此,因为奖励是…
votes
1回答
25 views

阿尔法泽罗保险单损失不减少

我现在正在为一个棋盘游戏训练一个阿尔法泽罗球员。棋盘游戏的实施是我的,阿尔法泽罗的MCT被带到其他地方。由于游戏的复杂性,it takes a much ...
1
vote
1回答
29视图

Is there any example of using Q-learning with big data?

我们甚至可以使用大数据集的强化学习吗?或者在RL中,代理是否构建了自己的数据集?
1
vote
答案
34视图

Difficulty in balancing Pendulum using Deep Reinforcement Learning Algorithm

我正在使用OpenAI Gym框架来强化学习,我正在尝试解决平衡倒立摆的经典控制问题,它类似于“摇锤-v0”,在…