必威英雄联盟问题标记(proximal-policy-optimization)

对于与强必威英雄联盟化学习算法“近端策略优化(PPO)”相关的问题,该算法在John Schulman等人的论文“近端策略优化算法”(2017)中介绍。

36个必威英雄联盟问题
通过过滤
标记
1
投票
0答案
34岁的观点

在连续动作空间中测试时动作是否具有确定性?

在一个连续的行动空间中(例如,PPO, TRPO, REINFORCE等),在训练中,一个行动从$\mu$和$\sigma$的随机分布中取样。这导致了一种固有的……
1
投票
0答案
25的观点

近端策略优化版本PPO1和PPO2有什么区别?

当“近端政策优化”(PPO)发布时,有一篇论文对其进行了描述。后来,OpenAI的作者介绍了PPO的第二个版本,称为PPO2(而原来的…
1
投票
1回答
59岁的观点

在PPO中,如何从策略网络中采样(或生成)连续动作?

我试图理解和复制近端策略优化(PPO)算法的细节。我发现在介绍算法的论文中缺少的一件事是如何准确地操作$a_t$…
1
投票
0答案
43岁的观点

为什么PPO比TRPO在同样的任务中表现更差?必威电竞

我正在用演员评论家网络培训一名探员目前正在向TRPO更新。现在,我尝试了PPO,结果完全不同,而且很糟糕。我只是从TRPO改成PPO,剩下的…
1
投票
0答案
41岁的观点

如何为一款简单的“石头剪刀布”游戏设计一个观察(状态)空间?

几个星期以来我一直在玩这个玩具游戏Rock-Paper-Scissor。我想用aPPO特工学会打败电脑…
3.
1回答
42岁的观点

连续动作空间PPO中'新日志概率'的生成

我有一个概念性的问题希望我能清楚地传达给你们。我正在Keras建造一个RL代理,使用连续的PPO来控制附着在平底/倾斜炮塔上的激光来瞄准目标…
1
投票
0答案
25的观点

如何处理因批评价值适应而导致的GAE无效?

我注意到如果你有一个小的负面奖励(例如,-0.01)每个步骤的空闲和一系列空闲步骤,一个代理似乎学习欺骗GAE通过学习一个…
0
0答案
31日视图

患者PPO:如何处理不平衡的离散作用空间?

PPO的代理。动作空间包括3个动作:0:不做任何事1:act (start) 2: stop代理必须执行数千个不做任何事的步骤,然后只执行第1步(act),然后不做任何事…
1
投票
0答案
34岁的观点

如何增加近端策略优化算法的探索?

如何增加近端策略优化强化学习算法的探索?是否有为此目的分配的变量?我使用的是稳定基线实现:…
2
1回答
57岁的观点

如何在强化学习中最好地利用学习率调度?

如何在强化学习中最好地利用学习率调度?对我来说,在最后使用较低的学习率,通过细微的更新来调整你所学到的内容是有意义的。但我不…
2
0答案
34岁的观点

PPO算法只收敛于一个动作

我已经采取了一些PPO算法的参考实现,并试图创建一个代理,可以玩太空入侵者。不幸的是,从第二次试用开始(训练演员和…
2
0答案
47岁的观点

针对像PPO这样必威电竞的策略算法的行动屏蔽

我有一个环境,我的代理人按照PPO学习。环境最多有80个动作,但是并不是所有的动作都是允许的。我的想法是通过设置…必威电竞
1
投票
0答案
42岁的观点

nan经过一段时间的PPO训练

我的问题是,每次我试图训练我的PPO代理人,我得到NaN值一段时间后。我得到的诊断如下:
3.
0答案
33的观点

输入的标准化如何在PPO环境中工作?

在PPO中输入的标准化意味着什么?在一个片段的每一个时间步中,我只知道这个时间步和之前的时间步的值,如果我跟踪它们。这个…
3.
1回答
97的浏览量

在PPO算法中argmax的目的是什么?

我对机器学习有点陌生,在数学和微积分方面还不是很扎实。我目前试图实现PPO算法如spiningUp网站所述:这一行是…

15 30. 50 每个页面