必威英雄联盟问题标记(reward-design)
28日必威英雄联盟问题
1
投票
1回答
48个观点
0
票
0答案
30的观点
2
票
0答案
22日视图
2
票
2答案
84的浏览量
如何定义奖励函数来解决深度Q-learning的Wumpus游戏?
我正在为Wumpus游戏编写DQN代理。训练q -网络(目标网络和策略)的奖励功能是否与游戏的分数相同,如拾取黄金的奖励为+1000,……
2
票
1回答
44岁的观点
1
投票
0答案
34岁的观点
4
票
2答案
195的浏览量
2
票
1回答
140的浏览量
1
投票
1回答
56岁的观点
1
投票
0答案
40的观点
4
票
1回答
56岁的观点
3.
票
1回答
62的浏览量
为什么奖励函数$\text{reward} =1/ {(\text{cost}+1)^2}$优于$\text{reward} =1/(\text{cost}+1)$?
我已经实现了一个简单的Q-learning算法,通过将奖励设置为代理所采取行动的成本的倒数来最小化成本函数。算法收敛得很好,但是…
3.
票
1回答
82的浏览量
2
票
1回答
76的浏览量
我如何实现一个具有TRPO的8自由度机器人手臂的奖励功能?
我需要一个8自由度的机器人手臂来移动一个指定的点。我需要使用OpenAI gym实现TRPO RL代码。我已经有了凉亭环境。但我不确定如何……
3.
票
1回答
112的浏览量