必威英雄联盟问题标记(policy-gradients)

对于与强必威英雄联盟化学习算法相关的问题,通常被称为“政策梯度”(或“政策梯度算法”),这种算法试图使用相对于政策参数的目标函数的梯度直接优化参数化政策(而不首先尝试估计值函数)。

123个必威英雄联盟问题
通过过滤
排序
标记有
2
0答案
58意见

$ \ nabla \ log \ pi $ the some参数不断为零

我是强化学习的新手。请问这里有一必威电竞个简单的(和可能有点愚蠢)问题吗?我正在尝试使用“一步演员 - 评论家”方法来培训GridWorld的机器人。让我们 ...
1
投票
0答案
19日视图

为什么我们在政策梯度方法中使用大批次/秒钟大小(专门的VPG)?

我重新实现vpg和使用旋转向上作为参考实现。我注意到默认的epoch大小是4000。我也在论文中看到提示,大批量生产是相当标准的。我的…
1
投票
0答案
31日视图

设计具有大变量作用空间的深度rl策略网络

我正在尝试一个使用深度强化学习训练agent玩游戏的项目。这个项目有几个特点使神经网络的设计复杂化:动作…
3.
0答案
64的浏览量

策略梯度:它使用马尔科夫性质吗?

为了推导策略梯度,我们首先写出特定轨迹的概率方程(例如,参见spinningup教程):$$ begin{align} P_\theta(\tau) &= P_\theta(s_0, a_0,…)
1
投票
0答案
41岁的观点

为什么在相同的任务中PPO导致比TRPO更差的性能?必威电竞

我正在用一个演员-评论家网络培训一名特工,到目前为止用TRPO更新它。现在,我尝试了PPO,结果截然不同,而且很糟糕。我只把TRPO改成了PPO,其余的…
2
0答案
18岁的观点

理解连续状态和行动空间策略梯度强化学习中的神经网络结构

我正在尝试使用强化学习/策略梯度方法训练一个神经网络。状态,即输入,以及我试图采样的动作是每个元素的向量…
3.
0答案
70次观点

在软演员评论中,为什么从当前策略中采样动作,而不是在值函数更新上重放缓冲区?

在阅读软演员评论家的原始论文时,我在第5页,在等式(5)和(6)下,$$ J_{V}(\psi)=\mathbb{E}_{\mathbf{s}_{t} \sim \mathcal{D}}\left[\frac{1}{2}\left(V_{\…
2
0答案
35的观点

有梯度偏差的演员批评方法的问题

据我所知,Actor critical至少有6种不同的变体:begin{array}{l l l l}} text{Actor gradient} & \text{Critic gradient} & \text{Actor gradient biased} & \text{name}…
1
投票
0答案
42岁的观点

相对于基于价值的方法,仅参与者方法的缺点是什么?

而仅参与者算法,即不使用价值函数直接搜索策略的算法,其优点是显而易见的(可能有连续的行动空间,随机的…
3.
1回答
140的浏览量

持续行动的政策梯度损失是什么?

我知道在一个有离散动作空间的环境中使用的策略梯度是用$$ Delta \theta_{t}=\alpha \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) v_{t} $$…
5
1回答
132的浏览量

强化更新方程到底是什么意思?

I understand that this is the update for the parameters of a policy in REINFORCE: $$ \Delta \theta_{t}=\alpha \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) v_{t} $$ Where is ...
3.
2答案
70次观点

为什么州的分布取决于导致它的政策参数?

我遇到了以下的证明,它通常被称为政策梯度算法中的对数导数技巧,我有一个问题——当从第一行转换到……
3.
0答案
33的观点

简单策略的例子是什么,而不是复杂的值函数?

DeepMind的研究员Hado van Hasselt在他在Youtube上的一个视频(从7:20到8:20)(关于政策梯度方法)中提到,有些情况下,政策非常简单……
3.
1回答
41岁的观点

在连续动作空间PPO中生成“新的日志概率”

我有一个概念性的问题,希望我能清楚地表达出来。我正在Keras建立一个RL代理,使用连续PPO来控制连接在pan/tilt炮塔上的激光。
4
1回答
311的浏览量

奥恩斯坦-乌伦贝克过程是如何工作的,它是如何在DDPG中使用的?

在论文《带深度强化学习的连续控制》的第3节中,作者如补充材料中详细写道,我们使用了一个Ornstein-Uhlenbeck过程(Uhlenbeck &…

15 30. 50 每个页面
1
2 3. 4 5
9