必威英雄联盟问题标记[深-RL]

对于与深必威英雄联盟强化学习(DRL),也就是说,RL与深度学习相结合的问题。更精确地,深神经网络用于表示例如值函数或者策略。

122个必威英雄联盟问题
过滤
排序
与标签
1
投票
1回答
60次

什么是在健身房的突破-RAM环境RAM状态?

我曾经遇到过健身房的环境,并决定建立AI播放突围。这里是链接:https://gym.openai.com/envs/Breakout-ram-v0/。该文件说,国家是...
1
投票
0答案
28点意见

如何防止深Q学习算法来过拟合?

采用双深Q学习我最近解决了Cartpole问题。当我看到代理是如何做的,它用来向右走每一次,从来没有离开过,而且也做了类似的行动所有的时间。没有...
1
投票
1回答
29次

如果深Q学习开始只选择一个动作,这是一个迹象,表明算法分歧?

我正在研究一个无限视界问题的深度q-学习模型,它有一个连续的状态空间和3个可能的行为。我用一个神经网络来近似动作值函数。。。
2
2答案
290点意见

是否有双深Q学习任何很好的参考?

我是新来的强化学习,但我已经知道深入的Q-学习和Q-学习。现在,我想学习双深度Q-学习。你知道什么好的双深度Q学习的参考资料吗。。。
2
1回答
37点意见

我应该如何在Q-学习腐烂$ \ $小量?

我应该如何在衰减Q学习的$ \ $小量?目前,我腐烂小量如下。我初始化$ \ $小量为1,那么,每次发作后,我乘它约$ C $(让它为$ 0.999 $)...
1
投票
1回答
45次

如何以及何时应当更新深Q学习的Q-目标?

我最近看了大卫银的过程中,并开始实施深Q学习算法。我想我应该做Q-目标,并直接Q-电流的开关(意为,每...
0
0答案
18次

你能找到另一个原因是对政策的深度强化学习无模型的样本低效率?

下面的思维导图给出了多种理由样品低效率的概述。这份名单是绝对不完整。你可以看到到目前为止还没有提到的另一个原因是什么?一些相关链接:...
0
0答案
19次

为什么我们还需要对标准化连续动作空间的动作的价值观?

我在这里阅读提示和技巧于DRL的训练,我发现以下情况:当你总是可以正常化你的观察空间,即,当你知道边界归你...
1
投票
1回答
93次点击

手柄不存在的状态在Q学习

我使用Q学习来解决工程问题。其目的是产生一个Q-表的Q值相关联的状态。我创建了一个国家矢量...
1
投票
1回答
24次

我们有两个Q学习更新公式?

我已经看到两个深Q学习公式:$$ Q \左(S_ {T},{A_吨} \右)\ LEFTARROW Q \左(S_ {T},{A_吨} \右)+ \阿尔法\左[R_ {T + 1} + \伽马\最大_ {A} Q \左(S_ {T + 1},A \右)-Q \左(S_ {T},{A_吨} \右)\...
3
1回答
31次

如果代理人选择的环境中无法操作的动作,我应该如何处理这种情况?

我建立一个非常简单的实验,让从左下角的代理移动到右上角的一个3x3方格纸上。我打算使用DQN做到这一点。我无法处理...
4
1回答
45次

怎样的特点各州在不同的时间步骤的重复影响学习?

比方说,你在RL设置,其中的状态(即功能/输入数据)训练神经网络可以成为一个小插曲多个连续的步骤(通常〜8左右的步骤)相同。对于...
2
0答案
18次

是否确认损失的概念应用到训练深Q网络?

在深度学习,确认损失的概念,以确保模型被训练当前没有过度拟合数据。是否有一个类似的深Q学习过拟合的概念?鉴于...
1
投票
0答案
19次

我们应该在训练中有小批量的规模和增长开始改善样品效率?

只是做了一个有趣的观察玩弄稳定基线的实现PPO和从OpenAI的健身房的BipedalWalker环境。但我相信这应该是一个普遍...
1
投票
1回答
29次

是否可以证明该目标的政策比政策的行为更好地根据了解到的Q值?

我有一种“行为策略”的回顾性数据,我将用它来训练一个深度q网络来学习一个目标贪婪策略。在学习了这个目标策略的Q值之后,我们可以。。。

15 三十 50 每页
1
2 3 4
...
9