必威英雄联盟问题标记为[强化学习]

与强化学必威英雄联盟习相关的问题,即一个机器学习技术,我们想象与环境交互的代理(由州)时间的步骤,采取行动和接收奖励(或增援部队),然后基于这些交互,代理试图找到一个政策(即行为策略),最大化的累积奖励(长期),所以代理的目标是最大化回报。

1,537个必威英雄联盟问题
通过过滤
标记有
0.
投票
1回答
39岁的观点

时间序列数据的基于模型的RL

我有时间序列数据。当我采取动作时,它会影响下一个状态,因为我的动作直接确定下一个状态,但它尚不知道影响是什么。具体:我有$ x(t)$ ...
1
投票
1回答
24次观点

RL:编码动作在上一个操作上

我有一场玩家转弯的纸牌游戏,玩家顺序画两张牌。每张卡可以从另一个玩家的丢弃堆栈(面朝上)或从甲板(面朝下)绘制。思考...
1
投票
0.答案
26日视图

使用大型可变动作空间设计深度RL的策略网络

我正在尝试一个涉及培训代理商的项目来使用深度加强学习玩游戏。该项目具有一些功能,使神经网络的设计复杂化:动作......
1
投票
1回答
40次观点

如何派生贝尔曼运营商的矩阵形式?

阅读回扫纸(安全有效的脱助政策强化学习)我看到他们经常使用Bellman运营商的矩阵形式,例如如下图所示。我们如何派生......
1
投票
0.答案
19观

了解POMDPS改进政策迭代的示例

我在看汉森的论文。本文提出了一种策略改进方法,首先将$\alpha$向量集合转换为有限状态控制器,然后将它们进行比较,得到改进的…
1
投票
0.答案
18岁的观点

奥赛罗的DDQN代理(REVERSI)游戏争取学习

这是我来到这个论坛的第一个问题,欢迎大家。我正在尝试执行DDQN代理玩奥赛罗(逆转)游戏。我试过很多方法,但是代理似乎…
0.
投票
0.答案
38次观点

有没有玩具的例子可以说明双问学习的表现?

我最近试图重现双Q学习的结果。但是,结果不令人满意。我还试图在出租车-V3中使用Q-Learning进行比较双Q学习,Froozenlake没有...
1
投票
0.答案
44次观点

alphago深度使用什么样的加固学习方法使用来击败最好的人类去球员?

在钢筋学习中,有基于模型的无模型方法。在基于模型的基础内,存在基于策略的基于价值的方法。Alphago DeepMind RL Model令人振奋的是最好的...
2
投票
0.答案
44次观点

政策渐变:它是否使用Markov属性?

To derive the policy gradient, we start by writing the equation for the probability of a certain trajectory (e.g. see spinningup tutorial): $$ \begin{align} P_\theta(\tau) &= P_\theta(s_0, a_0, ...
5.
投票
2答案
132意见

Bellman方程到底告诉我们什么?

贝尔曼方程到底说了什么?它有多种口味吗?当我寻找Bellman方程的时候,我有点困惑,因为我觉得人们在告诉我。
2
投票
0.答案
22次观点

均匀偏移平铺如何与函数近似工作?

我已经知道贴图是如何工作的,但是在Barton和Sutton的书《强化学习:介绍》(第二版)中,第219页的一个图表(图9.11)显示了……
1
投票
1回答
40次观点

如何构建神经网络以近似Q函数?

我正在用Q-learning学习强化学习,使用在线资源,比如博客文章、youtube视频和书籍。在这一点上,我已经学会了强化的基础概念……
0.
投票
0.答案
25次观点

为什么在使用近似时不保证收敛?[重复]

我正在通过博客帖子,YouTube视频和书籍等在线资源进行Q-Learning进行加强学习的自我研究,我已经了解了......
-1
投票
0.答案
15的观点

如何通过加固学习监测神经网络的学习性能?

我对Q-Learning进行了加强学习的自我研究。我正在使用像博客帖子,YouTube视频和书籍这样的在线资源,此时我已经学会了......
-1
投票
0.答案
30次观点

无限奖励的返回和问题

我有一个问题与奖励和返回在RL购物车的例子。在这个例子中,作者表示,对于阶段性成功的任务,该步骤的奖励是无限的。必威电竞那么我们下一集怎么做呢?或者怎样…

15 30. 50 每个页面
1
2 3. 4. 5.
......
103.