编写代码的人:我们需要您的参与。参加调查

必威英雄联盟问题标记为[Deep-R1]

对于与深必威英雄联盟度加强学习(DRL)相关的问题,即RL与深度学习相结合。更准确地说,深度神经网络用于表示例如价值函数或策略。

283个必威英雄联盟问题
过滤
标记
0.
投票
1回答
24次观点

如何在千克中制定折扣回报?

我正在努力制定一个旨在延长模拟的寿命的问题,与Cartpole问题相同。我知道有两种类型的回报:有限的地平线未被招示......
0.
投票
0.答案
26意见

加固学习中的最佳情节长度

我有一个定制的股票交易环境,其中一集可以长达2000-3000步。我已经使用TD3和SAC算法运行了几个实验,在......后平均奖励
3.
投票
2答案
59岁的观点

在加固学习中最好的超参数是什么?

显然,这有点主观,但超参数通常对RL代理的学习能力产生最大的影响?例如,重放缓冲区大小,学习率,...
1
投票
1回答
26意见

为什么分配Q学习疏忽?

我读过一些论文(例如,这个)和谈论分布Q学习的优势的博客。但是,它似乎不再有文学。它有没有缺点......
0.
投票
0.答案
7的观点

以神经网络为近似器的基于QBased的策略学习对所有状态总是选择相同的动作

我已经创建了一个RL模型,它使用QABASED策略与神经网络估算Q值。我的动作空间是27个动作,其中每个动作是3元组,其中每个值可以是1,2或3.
2
投票
1回答
37次观点

可以使用钢筋学习来生成序列吗?

所以基本上我们可以为SEQ2SEQ任务使用强化学习吗?必威电竞尽管是一个好的/不好的选择,如何采取方法?
0.
投票
0.答案
27意见

Cartpolev0型号甚至在使用Deep Q-Learning之后也没有接受过1500多集的培训

我是新的深度Q学习和尝试训练开放AI cartpole_V0游戏使用深度Q学习。这是我的代码:…
1
投票
0.答案
17次观点

如何在PPO中共享策略和价值函数之间的参数?

当策略和值函数共用参数时,PPO目标可能包括值函数误差项。这是如何帮助的,什么时候使用神经网络架构,共享…
4.
投票
1回答
108的浏览量

平行环境在强化学习中的作用是什么?

并行环境是否会提高代理人的学习能力或者它没有真正有所作为的能力?具体而言,我正在使用PPO,但我认为这也适用于其他算法。
0.
投票
0.答案
23次观点

DDPG中缓冲区大小与演员丢失之间的关系是什么?

DDPG算法中的演员丢失是:批评_Value =批评_Model([exten_batch,action_batch])Actor_Loss = -TF.Math.Reduce_mean(批评_Value)我试图......
1
投票
1回答
54意见

如果奖励是可微分的,政策梯度法会发生什么?

我想要一些帮助,了解为什么没有明确的信息从奖励梯度到策略梯度方法中的策略参数。我的意思是以下内容,......
2
投票
1回答
28次观点

是否有一个多智能体深度强化学习算法,这是为环境只有离散的行动空间(不是混合)?

是否有多种代理深度加强学习算法,该算法仅适用于仅具有离散动作空间(不是混合)并具有集中培训的环境?我一直在寻找算法,(...
1
投票
1回答
27意见

了解加强学习中的广义优势估算

我正在阅读关于广义优势估算的论文。它首先介绍了一种概括的政策梯度方程形式,而不涉及$ \ Gamma $,然后它说:我们将......
2
投票
0.答案
74意见

使用Deep Q-Learning(DQN)更新规则,适用于2人游戏

我想知道如何正确实现双手游戏等DQN算法,如TIC TAC脚趾和连接4.虽然我的算法相对快速地掌握TIC TAC TOE,但我无法得到很好......
1
投票
0.答案
17次观点

在状态空间的基数上是否有任何拇指规则,以便使用参数化函数来估计值函数?

给定MDP的价值函数可以通过体验至少两种方式学习。在足够小的状态空间的情况下,通常使用第一种方法(表格计算)。第二 ...

15. 30. 50. 每页
1
2 3. 4. 5.
......
19.