必威英雄联盟问题标记(奖励)
84个必威英雄联盟问题
2
票
1回答
35次观点
我们如何在持续任务中获得平均奖励设置的表达式?必威电竞
在平均奖励设置:$ $ r(\π)\ doteq \ lim_ {h \ rightarrow \ infty} \压裂{1}{h} \ sum_ {t = 1} ^ {h} \ mathbb {E} (R_ {t} | S_0,现代{0:t - 1} \ sim \π)$ $ $ $ r(\π)\ doteq \ lim_ {t \ rightarrow \ infty} \ mathbb {E} (R_ {t}…
1
投票
1回答
60的观点
1
投票
0答案
33次观点
3.
票
1回答
67的浏览量
2
票
1回答
44岁的观点
2
票
0答案
56观
4
票
2答案
108意见
6
票
2答案
174的浏览量
4
票
3.答案
320意见
2
票
1回答
141意见
2
票
1回答
104的浏览量
4
票
1回答
111意见
1
投票
2答案
62的浏览量
如何计算折扣系数和奖励顺序的返回?
我知道$G_t = R_{t+1} + G_{t+1}$。假设$\gamma = 0.9$,奖励序列为$R_1 = 2$,后面是一个由$7$s组成的无限序列。$G_0$的值是多少?既然它是无限的,我们怎么能……
1
投票
0答案
38岁的观点
非政策估计的重要抽样是否也适用于负奖励的情况?
重要采样是计算RL中的截止策略估计的常用方法。我一直在阅读一些原始文件(D.G. Horvitz和D.J. Thompson,Powell,M.J.和...
2
票
1回答
266的浏览量