$ $开始组$

强化学习问题是否适合只有一个最终奖励的环境?我知道报酬稀少和延迟的问题,但唯一的奖励和相当长的路呢?

$\EdTrime$$
$ $开始组$

RL可用于这些情况,但是,在这种环境下,代理人在轨道上获得的经验并不能提供有关行动质量的很多信息。

游戏通常可以被定义为情景任务。必威电竞例如,你可以把国际象棋比赛安排成一个插曲,你只能在比赛结束时给予奖励。然而,这将很难让RL“理解”哪些动作主要是为了获得奖励。这叫做信贷分配问题.

“延迟奖励”一词也指在剧集结束时只收到一份奖励的情况。

$\EdTrime$$

你的答案

点击“发布你的答案”,你同意我们的服务条款隐私政策饼干政策

不是你要找的答案?浏览标记的其他问题必威英雄联盟必威电竞问你自己的问题.