必威英雄联盟问题标记(q学习)

问题相关必威英雄联盟的Q学习算法,这是一个模范自由和temporal-difference强化学习算法,试图近似Q函数,这是一个函数,给定一个国家和一个动作,返回一个实数表示状态的返回(或价值)当行动取自年代。介绍了Q学习的博士论文“从延迟学习奖励”由沃特金斯(1989)。

262个必威英雄联盟问题
通过过滤
标记
0
0答案
19日视图

Pytorch和keras ddqn看起来一模一样,只有keras知道

我遵循了ddqn的教程来打败pong,它在keras中取得了完美的成绩,但当我尝试将它翻译成pytorch时,它一点也学不到。我错过了什么?我粘贴了所有的代码。
2
1回答
45的观点

我们能不能在epsilon很小的时候就停止训练?

我对强化学习很陌生。因为它在RL中很常见,所以使用$\epsilon$-贪婪搜索行为/探索。所以,在培训开始的时候,$\epsilon$是很高的,因此很多…
1
投票
1回答
43岁的观点

为什么在使用D3QN进行广泛的培训后,我的奖励减少了?

我正在运行一个使用D3QN的轻微变体来避免碰撞的无人机模拟器。训练通常是昂贵的(至少要跑一个星期),我观察到奖励功能逐渐…
0
2答案
71的浏览量

在强化学习中,人们如何知道一个问题是“无模型的”呢?

看看这张来自斯坦福大学关于强化学习的演讲的幻灯片。它指出,模型是agent对世界如何响应其行为而发生变化的表示。我一直在…
1
投票
0答案
26日视图

Pytorch深问网络不是学习和一步走向目标

我试图创建一个简单的深q网络与conv2d层的rl。我不知道我做错了什么,我唯一觉得不对的是当我拿到模型的时候……
2
0答案
28日视图

深度Q学习中大量离散动作空间的处理

我试图用深度Q学习来解决一个时间表问题。它可以被认为是一个资源分配问题,以获得一些证明“最优性”。然而,如何定义和…
1
投票
0答案
20的观点

训练一个有数千个输入端口的DQN可行吗?

我设计了一个DQN架构来解决一些问题。这个问题有一个参数$m$作为客户端数量。在我的情况下,$m$是大的,$m在{100,200,\ldots,1000\}$。对于这种情况,号码…
1
投票
1回答
39岁的观点

在Q*bert中最优的探索-开发权衡是什么?

我正在培训一个RL代理与深度Q学习+经验重放在Q*bert Atari环境。40万帧之后,我的经纪人似乎已经掌握了游戏的战略信息,但是…
2
2答案
52岁的观点

当奖励只有在最后一个状态才可用时,Q-learning如何应用?

我有一个调度问题,其中有$n$ slot和$m$客户机。我正在尝试用Q-learning来解决这个问题,所以我做了如下的状态-行动模型。一个状态$s_t$是由…
2
1回答
75的浏览量

为什么重播内存的采样不均匀是一个问题?(优先体验回放)

我似乎不能理解为什么我们需要重要性抽样的经验优先重放(每个)。这篇论文的作者在第5页写道:用随机…
3.
1回答
33的观点

当训练一个深度Q-learning agent与经验重放时,是否有推理一个最佳批量大小的逻辑方法?

我训练一个RL代理使用的学习经验Deep-Q重播。在每一帧中,我目前从一个最大存储20000的队列中随机采样32次转换,训练为…
1
投票
1回答
22日视图

加权平均计算在深问网络怎么样

我翻阅了萨顿的书,他们说Q学习的更新公式来自收益的加权平均,即新估计=旧估计+alpha*[收益-旧估计]所以…
3.
1回答
1 k的观点

Q-Learning和A*有什么区别?

Q-learning似乎与A*有关。我想知道它们之间有什么区别吗?
2
1回答
70的浏览量

如何计算双q学习更新步骤的目标?

我已经阅读原始论文双DQN但我找不到一个明确的和实际的解释目标y美元是如何计算的,这是我如何解释方法(假设有3…
1
投票
0答案
28日视图

使用强化学习为基于个人资料的个人定制食物

我是强化学习的新手,这是我的想法——代理(食品供应商)必须根据环境(基于用户配置文件)选择食品。这里的奖励将给予基于代理的…

15 30. 50 每个页面
1
2 3. 4 5
18