必威英雄联盟问题标记为[强化学习]

For questions related to reinforcement learning, i.e. a machine learning technique where we imagine an agent that interacts with an environment (composed of states) in time steps by taking actions and receiving rewards (or reinforcements), then, based on these interactions, the agent tries to find a policy (i.e. a behavioural strategy) that maximizes the cumulative reward (in the long run), so the goal of the agent is to maximize the reward.

1819个问必威英雄联盟题
过滤
标记
0.
投票
0.答案
24次观点

钢筋学习的利用实现复杂动态系统的最优控制

我可以使用强化学习(RL)方法来识别最坏情况控制输入(策略)到(高度非线性)Blackbox型系统。特别是我对以下问题感兴趣。......
0.
投票
0.答案
8次观点

为什么虚构的自主游戏使用由强化学习的平均战略收集的数据?

我正在阅读一篇题为“广义游戏中的虚拟自我体验”的论文,这篇论文介绍了虚拟自我体验(FPS)。在广义博弈中,让$\beta$为最佳对策,$\pi$为最佳对策。
0.
投票
0.答案
8次观点

Actor-Critic的联合优化vs独立优化

说我有一个简单的演员批评批评架构,(我不熟悉Tensorflow,但)在Pytorch中,我们需要在定义优化程序(SGD,ADAM等)时指定参数,因此我们......
0.
投票
0.答案
12的观点

马尔可夫假设如何适用于情景任务?必威电竞

Markov假设假定当前状态足以采取下一个动作。考虑一项eoisodic任务,其中rl代理正必威电竞在努力学习玩TIC-TAC-TOE的游戏。这里, ...
1
投票
1回答
20次观点

如何计算棋盘或TIC-TAC-TOE等情节任务的奖励?必威电竞

我对加强学习的新人,并试图了解在情节任务中获得收获奖励的概念。必威电竞我想在像TIC-TAC-TOE这样的游戏中,奖励将在胜利或失败方面。但是......
1
投票
0.答案
28次观点

我们是否可以在DDPG的actor的输出层中添加剪辑?

我对剪裁如何影响RL代理商的培训有疑问。特别是,我遇到了培训DDPG代理的代码,伪代码是以下内容:...
-1
投票
0.答案
27意见

计算Markov决策过程中的状态值函数

我正在观看David Silver在YouTube上提供的RL讲座。我的问题在这里关于讲座2(链接到视频)。1:11:00,我无法理解他是如何计算国家价值的......
1
投票
1回答
31次观点

Bellman Optimaly方程 - 以2种方式写表达式

好吧,我知道这个问题很基础,但我看到了$V_{*}(s)$(可能还有$Q_{*}(s,a)$)的最优方程的两个版本。第一个问题是:第二个问题是:如果……
1
投票
0.答案
27意见

在DDPG中设置初始值,以帮助更好的操作

我正在使用DDPG解决问题。是否有可能在初始化阶段添加一些智能,使得收敛时间得到改善/缩短,并且避免了本地最佳的...
3.
投票
1回答
53意见
+100

如何接近一个21点类纸牌游戏与纸牌被计算的可能性?

考虑一下单人玩家的纸牌游戏,它与“不专业”分享许多特征(在赌场中播放,参考点2)Blackjack,即:您正在与经销商一起玩......
0.
投票
1回答
41意见

DQN的Q值是在一次单一的时间里绑定的吗?

考虑一下我们有一个代理商,每个代理商在每个时间都有成千上万的不同行动。$ r:s \ lightarrow \ {0,1 \} $中的奖励函数。让$ q_ {t} ^ \ pi(s,a)$是神经神经的估计
1
投票
1回答
31次观点

在深度强化学习中,我是否应该将观察结果归一化?

我是DRL的新手,并试图实现我的自定义环境。我想知道是否正常化和正则化技术在深度学习中的RL中是重要的。在我的自定义环境中,...
1
投票
0.答案
21次观点

如何并行化多代理DDPG(MADDPG)

我正在尝试在这个回购中实施的Maddpg算法。由于实施(也在原始纸张中)只有几个代理(2-3),因此参数更新,操作......
1
投票
1回答
63的浏览量

在统计学习中,我可以将加强学习的“经验”视为“培训数据”?

统计数据是数学的分支,从数据中提取有用信息。数据通常被称为统计(机器)学习中的“培训数据”。考虑以下 ...
-1
投票
0.答案
36次观点

可与强化学习结合的算法示例[关闭]

我正在准备我的论文,我想到了另一种方法结合了强化学习。我尝试过零拍摄学习,但找不到解决方案。因此,我希望有一些建议,......

15. 30. 50. 每页
1
2 3. 4. 5.
......
122.