$ $开始组$

使用确定性策略的动机是什么?鉴于环境不确定,随机政策似乎更有意义。

$\EdTrime$$
$ $开始组$

你说得对!行为根据一个确定性的政策,在大多数情况下(除了“为你做探索”的环境),仍然学习是一个可怕的想法;见评论)。但确定性策略是从策略中学习出来的。也就是说,根据随机行为策略,通过行为收集学习确定性策略的经验。

在一些合理的假设下——比如环境是完全观察到的并且是固定的——一个最优的确定性策略总是存在的。证据见“第6章”马尔可夫决策过程离散随机动态规划“Martin L.Puterman。随机警察也不能这样说。对于这种环境(即使是随机的),最优策略几乎不可能是随机的。

所以,想要学习确定性策略的动机通常是因为我们知道存在一个最优的确定性策略。

你的问题也可能与政策外学习无关。“当我们可以使用诸如衰减之类的东西时,为什么要直接(非策略)学习确定性策略?$\ε$-贪婪?”简要地,政策外学习是非常强大和普遍的。在任何使用经验回放的算法中都是必要的,例如。关于政策外学习的优点的讨论最好留给另一个问题,但是阅读萨顿和巴托的第5.5节RL图书你应该开始了。

最后,如果使用确定性策略梯度.在具有连续状态和动作空间的环境中,确定性策略梯度存在,比随机策略梯度具有更简单的期望值。

随机策略梯度:

\begin Align*\\nabla_ \theta j(\pi_ \theta)&=\int\\ \mat数学\ \nabla\ \ \ \nabla\\ \ \ \theta \ \ \pi \ \ \theta(a s)q ^ \ \ \pi(s,a \ \text d a \ \ \ \text d d s \ \ \ \ \ \ \ \ \ \ \ S \sim \rho^ \pi,,a \sim \pi_ \theta[\nabla_theta \log \pi_theta(a s)q ^ \pi(s,a)]\end align*$$

确定性策略梯度:$$\begin{align*}\nabla_\theta J(\mu_\theta) &= \int_\mathcal{S} \rho^\mu (s) \nabla_\theta \mu_\theta (s) \nabla_a Q^\mu (s,a)|_{a=\mu_\theta (s)}\text{d}s\\& = \mathbb{E}_{s\sim \rho^\mu}[\nabla_\theta \mu_\theta (s) \nabla_a Q^\mu (s,a)|_{a=\mu_\theta (s)}]\end{align*}$$

请注意,确定性策略梯度中的期望并不超过操作空间。估计这一期望值将需要在连续设置中使用更少的样本,高维行动空间。

重述:

  • 最优策略通常是确定性的,非随机
  • 直接学习确定性策略(非策略)功能强大且通用
  • 如果在一个连续的高维行动空间
$\EdTrime$$
  • $ $开始组$ 也许在末尾加上第二/第三个要点:2)随机环境并不意味着存在最优随机策略3)没有最优随机策略是常见的 $\EdTrime$$- 尼尔斯莱特 4月4日19:17
  • $ $开始组$ 我还想说,如果环境有足够的随机性,学习最优控制是可能的,关于具有确定性贪婪策略的策略。例如,TD Gammon就是这样工作的。关键是环境增加了必要的状态探索 $\EdTrime$$- 尼尔斯莱特 4月4日19:18
  • $ $开始组$ @尼尔·斯莱特的观点很好。编辑应反映这些更改。 $\EdTrime$$- 菲利普·雷斯加森 4月4日19:35

你的答案

点击“发布你的答案”,你同意我们的服务条款隐私政策饼干政策

不是你要找的答案?浏览标记的其他问题必威英雄联盟 必威电竞问你自己的问题.