必威英雄联盟问题标记[ddpg]

对于涉及必威英雄联盟到所谓的深确定性政策梯度(DDPG)强化学习算法的问题。

24个必威英雄联盟问题
过滤
排序
与标签
2
1回答
83次

是什么让您在环境中实现DDPG的?

我的工作有内在的随机性等问题。的动作和状态空间的尺寸分别为1和5。我使用DDPG,但似乎非常不稳定,到目前为止,它...
1
投票
0答案
17点意见

基于Pybullet的SAC基准测试

到目前为止,我看到的Pybullet环境TD3和DDPG基准,但我期待的SAC基准上Pybullet过,任何人都可以帮忙吗?
1
投票
0答案
37点意见

有关沃尔珀丁格算法的一个问题(深RL在离散大行动空间纸)

我试图重现从本文的推荐任务的实验。必威电竞本文建议嵌入离散的动作变成连续动作空间,然后使用所提出的沃尔珀丁格剂。...
1
投票
0答案
14次

DDPG如何处理离散动作空间?

我想知道DDPG或DPG如何能处理离散的行动空间。有一些论文称使用冈贝尔SOFTMAX与DDPG可以使离散动作的问题得到解决。但是,将在...
1
投票
0答案
16次

如果环境带来的回报也与政策有关呢?

Assume we have a policy $\pi_{\theta}$ in a classic reinforcement learning setting, and a reward function $R^{\pi}(s,a)$ that changes as long as $\pi$ changes i.e. not only is it predefined by the ...
0
1回答
37点意见

为什么DDPG偏离政策RL算法?

在DDPG,如果没有$ \ $小量和-greedy无动作噪音,是DDPG一间政策的算法?
3
1回答
37点意见

适当的算法RL问题稀疏的奖励,连续动作和显著随机性

我工作在RL上的问题,具有以下属性:回报是极其稀疏,即所有的奖励都是不同的终端非零回报0。理想的情况是我不会用任何报酬工程...
1
投票
0答案
18次

为什么从结果恢复的结果,当保存DDPG型号而异显著保存的时候吗?

我保存训练模型一定数量的具有特殊保存DDPG类的()函数(当奖励达到零时,网络保存)发作后,但是当我再次恢复模型...
2答案
80次

为什么强化学习方法,样本低效?

强化学习方法被认为是非常样本ineffcient。例如,在由Hessel等人最近的Deepmind论文中,他们发现,为了达到对人体级别的性能...
1
投票
2答案
44次

连续控制与DDPG:如何消除稳态误差?

目前我正在使用DDPG我的RL算法进行连续控制问题。总而言之,一切正常得非常好,但是算法不显示任何倾向,消除...
2
1回答
51次

我怎样才能实现对8自由度机器人手臂TRPO奖励功能?

我需要得到一个8 DOF(自由度)的机器人臂移动一个指定点。我需要实现使用OpenAI健身房TRPO RL代码。我已经有凉亭环境。但我不知道该如何的?
2
0答案
38次

在学习如何不增加噪声在DDPG帮助作用?

我无法理解游戏通过添加噪声项由DDPG演员网络所产生的作用是如何帮助勘探。
2
1回答
53次

强化学习的连续控制(DDPG):如何避免发出行动的颠簸?如何奖励平滑输出过拍打?

目前我正在一个连续状态/连续动作控制器上。它应通过发出正确副翼命令(之间-1 ... 1连续的)控制飞机的一定的侧倾角。...
3
1回答
55次

使用下确定性MDP动态演员评论家算法的目的是什么?

其中MC策略梯度算法(加固)描述说的主要缺点这里是它具有高方差(回报,这是我们品尝,从会显著改变的事实......
2
0答案
16次

如何学习使用Python中DDPG单独使用时间序列数据集

我有一个很长的timeseries数据集,其中包含几个变量(来自传感器等),可以归类为操作或状态。如果他们成功完成了,我想学习一个控制策略。。。

15 三十 50 每页