2
\ begingroup美元

在RL(强化学习)或MARL(多智能体强化学习)中,我们有常见的元组:

(state, action, transition_probability, reward, next_state)

在MORL(多目标强化学习)中,我们在元组中增加了两个新功能,即“偏好”和“偏好函数”。

他们是什么?我们该拿他们怎么办?有人能提供一个直观的例子吗?

| 改善这个问题 | |
\ endgroup美元
    3.
    \ begingroup美元

    在MORL中,奖励成分是向量而不是标量,每个目标都有一个元素。因此,如果我们使用像Q-learning这样的算法的多目标版本,那么为每个状态-动作对存储的q值也将是向量。

    Q-learning要求agent能够识别任何状态下的贪婪行为(期望能带来最高长期回报的行为)。对于标量奖励来说,这很简单,但对于向量值来说就复杂多了,因为一个向量对于目标1来说可能更高,而另一个向量对于目标2来说更高,等等。

    我们需要一种方法订单矢量值是指它们在不同目标之间满足用户期望的权衡的程度。这就是偏好函数首选项。该函数定义了一种通用操作,用于将向量值转换为标量值以便进行比较,或者执行向量的某种排序(某些排序类型,如字典排序,不能根据标量定义)。例如,我们的偏好函数可能是向量各分量的加权和。首选项指定了首选项函数的参数,该函数定义了特定的排序(即基于当前用户的需求)。所以,在偏好函数的加权和的情况下,偏好会根据权重的值来指定。

    偏好函数的选择可能会影响到可以找到的解决方案的类型,或是否需要在状态中包含额外的信息以确保收敛。

    我建议你阅读下面的调查报告,了解MORL的概述(免责声明——我是这方面的合著者之一,但我真心认为这是对这一领域有用的介绍)

    Roijers, D. M., Vamplew, P., Whiteson, S., & Dazeley, R.(2013)。多目标顺序决策研究综述。人工智能研究杂志,48betway电竞,67-113。

    | 改善这个答案 | |
    \ endgroup美元

      你的答案

      点击“发表您的答案”,即表示您同意我们的答案服务条款,隐私政策饼干的政策

      不是你想要的答案?浏览其他标记的问题必威英雄联盟必威电竞问自己的问题