5
$ \ begingroup $

我面对的是一个拥有大量武器的(随机)多武器强盗。

考虑一个根据输入生成一个披萨的披萨机我美元(相当于一只手臂)。(有限的)一组手臂K美元是由$ k = x_1 \ times x_2 \ times x_3 \ times x_4 $在哪里X_j美元表示可能的配料数量$ j $

例如$ X_1 = \ {$小号中号大号美元$ \}(奶酪数量)或$ x_2 = \ {0,1,2,3,4,5,6,7,8,9,10 \} $(萨拉米的切片)

因此,运行输入的披萨机我美元相当于拉臂$ i \以k $。由于不同的排列,武器的数量| | K美元非常大(在100,000到1,000,000之间)。取决于被拉的手臂我美元,这台机器会生成一个披萨(与显示披萨有多美味的奖励相关联)。然而,机器的奖励不是静态的。把一只手臂我美元根据未知(ARM特定)分发产生奖励$ p_i $,所有奖励都来自于此$ p_i $得到先验知识. .此外,可以将所有奖励归一化到区间[0,1]。

上述问题对应于随机MAB的标准问题,但是以大量的臂为特征。在披萨机的情况下,有几天的计算时间可用于确定最佳披萨,因此允许易用的数量很大。

在我对处理大量手臂的单抗算法的调查中,我遇到了可以调用几千手臂的研究。

是否存在在MAB域中存在的算法,这是专门处理大问题实例(例如,$ | k |>> 100,000美元)?

\ endgroup美元
  • $ \ begingroup $ 我不是MAB的专家,所以我不知道我的头顶,但本文(file:///tmp/mozilla_kevin0/Xu_cornellgrad_0058F_11968.pdf)可能对你有趣。第2节对MAB有许多武器进行了文献综述,第3节与MAB有关记忆约束的文献综述。这些部分引用的论文将是一个很好的开始。如果你最终找到答案,如果你回答自己的帖子,我会感到欣赏,因为我也有兴趣学习更多! \ endgroup美元- - - - - -User3667125. 12月17日20日在1:54
0
$ \ begingroup $

没有关于你遇到的参考的知识,我假设作者正在考虑MAB(规划,在线学习等)的共同应用,其中时间地平线通常很小。在此类应用中,我们通常不能为标准MAB算法不可避免的大平均遗憾,这是不可能的$ \ sqrt {K | |} $的因素。

根据应用程序或附加的限制,你可以强加给你的问题,有几个工作,考虑结构化随机MABs有更好的保证比悲观的$ \ sqrt {k} $界限。结构化mabs的一个变体正在图表[1],其中一个人可以获得生长的后悔界限$ \√6{\β(G)} $, 在哪里\β(G)美元是图形的独立号码G美元

Liu F. Liu, Z. Zheng, N. Shroff,“无图的图形强盗的Thompson抽样分析”,ArXiv。2018.

\ endgroup美元
  • $ \ begingroup $ 感谢您的回复和对论文的参考。衷心感谢您的这一份。然而,在上述问题中,时间范围也可能非常大:“在比萨饼机的情况下,可以用几天的计算时间来确定最佳比萨饼,因此itarations的数量也允许非常大。” \ endgroup美元- - - - - -d·B。 12月18日20日8:56
  • $ \ begingroup $ 那么问题不是吗?Either (1) run a standard MAB algorithm for a long time and you will find the best pizza or if the large number of actions is still an issue, (2) model similar toppings (e.g. sausage and Italian sausage) as "neighbors" and run a graphical MAB algorithm as in [1]. \ endgroup美元- - - - - -rhdxor 12月19日20日9:18

你的答案

点击“发表您的答案”,即表示您同意我们的答案服务条款,隐私政策饼干的政策

不是你想要的答案?浏览其他标记的问题必威英雄联盟必威电竞问自己的问题