必威英雄联盟问题标记为[Deep-R1]

对于与深必威英雄联盟度加强学习(DRL)相关的问题,即RL与深度学习相结合。更准确地说,深度神经网络用于表示例如价值函数或策略。

213个必威英雄联盟问题
通过过滤
标记
4.
投票
1回答
51意见

从根节点开始时,alphazero的MCT如何工作?

从alphago Zero纸张,在MCT期间,每个新节点的统计信息都初始化:$ {n(s_l,a)= 0,w(s_l,a)= 0,q(s_l,a)= 0,p(s_l,a)= p_a} $。用于选择的Puct算法......
2
投票
0.答案
23日视图

在MCTS的评估步骤和测试过程中输入的字母零是否相同?

从alphazero纸张:神经网络的输入是一个n×n×(m t + l)图像堆栈,其表示使用大小为n×n的t组平面的串联的状态。每套飞机......
1
投票
0.答案
20次观点

奥赛罗的DDQN代理(REVERSI)游戏争取学习

这是我来到这个论坛的第一个问题,欢迎大家。我正在尝试执行DDQN代理玩奥赛罗(逆转)游戏。我试过很多方法,但是代理似乎…
1
投票
1回答
31次观点

是否有alphapero(象棋)的培训数据容量限制?

在Alphazero中,我们收集($ s_t,\ pi_t,z_t $)元组从自行播放,其中$ s_t $是董事会状态,$ \ pi_t $是策略,$ z_t $ in赢得/失去的奖励游戏。在其他Deepll Off -...
3.
投票
0.答案
64的浏览量

政策渐变:它是否使用Markov属性?

为了推导策略梯度,我们首先写出特定轨迹的概率方程(例如,参见spinningup教程):$$ begin{align} P_\theta(\tau) &= P_\theta(s_0, a_0,…)
1
投票
1回答
40的观点

如何构建神经网络以近似Q函数?

我正在用Q-learning学习强化学习,使用在线资源,比如博客文章、youtube视频和书籍。在这一点上,我已经学会了强化的基础概念……
0.
投票
0.答案
31次观点

在AlphaZero中,哪些特征是一次性编码的,哪些是单实值的?

从alphazero纸张,表S1(第13页)表S1的标题为每个位置重复第一组特征...
1
投票
0.答案
33的观点

作为AlphaZero(象棋)的动作空间表示的平面堆栈

我对Alphazero中使用的策略网络的动作空间有一个问题。从论文中:我们代表了一个策略π(a | s)的一个8×8×73堆的飞机编码概率......
2
投票
1回答
35的观点

在AlphaZero中,我们需要存储终端状态的数据吗?

我对Alphazero中神经网络的更新/反向传播步骤中使用的培训数据有问题。从论文中:每次步骤$ t $的数据存储为($ s_t,\ pi_t,...
1
投票
0.答案
19观

最近的策略优化版本PPO1和PPO2之间有什么区别?

当释放近端政策优化(PPO)时,它伴随着描述它的纸张。后来,Openai的作者推出了第二个版本的PPO,称为PPO2(而原始......
2
投票
0.答案
20次观点

CNN为DQN代理,其状态为二维矩阵,动作为二维矩阵

我有一个定制的环境,其中的状态是一个由11行(等于需要满足的用户数)和3列组成的2D矩阵。每一列的值可以是0或1,每一行的值可以是…
3.
投票
1回答
57岁的观点

如何构建一个状态和动作为数组的DQN代理?

我有一个强化学习环境,其中状态是一个0和1的数组,长度等于代理必须满足的用户数(11个用户)。代理必须从12个中选择一个…
3.
投票
0.答案
28日视图

在Keras中以二维矩阵作为输入的DQN Agent

我有一个加强学习环境,其中状态是具有0s和1s的2d矩阵(每行中只有一列,只有一个列)。示例:......
1
投票
0.答案
24次观点

如何计算多阶段脱助策略强化学习的回报目标?

我正在执行A3C算法,我想增加使用Retrace的非策略培训,但我在理解如何计算Retrace目标时遇到了一些问题。Retrace用于组合…
1
投票
1回答
38次观点

为什么浅网络在RL中如此普遍?

在深度学习中,使用更多的神经网络层增加了捕捉更多特征的能力。在大多数RL论文中,他们的实验使用了2层神经网络。学习重置,约束…

15 30. 50 每个页面
1
2 3. 4. 5.
......
15