必威英雄联盟问题标记(符号)
32个必威英雄联盟问题
2
票
1回答
35的观点
在AlphaZero中,我们需要存储终端状态的数据吗?
我有一个关于AlphaZero中神经网络更新/反向传播步骤中使用的训练数据的问题。从论文中:每个时间步长的数据$t$被存储为($s_t, \pi_t,…
0
票
1回答
60的观点
这些在Noise2Noise纸上的方程是什么意思?
我在试图理解Nvidia的Noise2Noise论文中的方程式是什么意思。这个图像中的方程是什么意思?什么是美元\ mathbb {E} _y吗\ {y \} $ ?我该怎么努力……
1
投票
1回答
48个观点
在定义状态-行为值函数时,我们期望的随机变量是什么?
我知道对于任意随机变量$X$, $$ mathbb{E}[g(X) \mid A] = \sum\limits_{X} g(X) p_{X \mid A}(X) $$。现在,考虑下面的表达式。$ $ \ mathbb {E} _{\π}左\[\总和\ limits_ {k = 0} ^ {\ infty}…
0
票
1回答
39岁的观点
设计矩阵的行是指观察数据还是预测数据?
我尝试理解字典学习在本文中的形成:抑郁检测via harvest Social Media: A Multimodal dictionary learning Solution Multimodal task driven…必威电竞
2
票
1回答
81的浏览量
符号$\mathcal{N}(z;(mu, sigma)$在统计学中代表什么?
我知道符号$ mathcal{N}(\mu, \sigma)$表示正态分布。但是我在读《变分自动编码器简介》这本书,里面有这样一个符号:…
4
票
2答案
103的浏览量
为什么我们使用$X_{I_t,t}$和$v_{I_t}$来表示接收到的奖励和时间步长$t$以及选择的arm $I_t$的分布?
我正在做一些关于经典(随机)矩阵的介绍性研究。然而,我对常见的符号有点困惑(例如在Auer(2002)或Bubeck和Cesa-Bianchi(2012)的流行论文中)……
4
票
1回答
77的浏览量
术语$|\mathcal{A}(s)|$在$\epsilon$-greedy策略中是什么意思?
我一直在网上寻找解释这些计算的来源,但我找不到任何地方$| a (s)|$是什么意思。我想$A$是动作集,但我不确定……
0
票
0答案
43岁的观点
1
投票
1回答
44岁的观点
符号$\sim$和$\Delta (A) $在论文“通过意识实现公平”中是什么意思?
在这篇通过感知公平的文章中,使用了符号$\mathbb{E}_{x \sim V} \mathbb{E}_{a \sim \mu_x} L(x,a)$(第5页最上面一行),其中$V$表示个体集合(所以我猜…
4
票
2答案
169的浏览量
为什么值函数有时用大写字母写,有时用小写字母写?
为什么state-value和action-value函数有时用小写字母写,有时用大写字母写?例如,为什么在Q-learning算法(Barto and Sutton's的131页…
1
投票
1回答
92的浏览量
$\partial \theta_{\pi}$在这个角色评论更新规则中是什么意思?
角色批判算法的一个步骤是$$偏theta_{\pi} \gets \偏theta_{\pi} + \nabla_{\theta}\log\pi_{\theta} (a_i | s_i) (R - V_{\theta}(s_i))$$。
1
投票
1回答
50的观点
2
票
1回答
38岁的观点
符号${s'\sim T(s,a,\cdot)}$是什么意思?
我已经看到关于期望的符号有它们各自的下标,例如$E_{s_0 \sim D}[V^\pi (s_0)] = \Sigma_{t=0}^\infty[\gamma^t\phi(s_t)]$。这个公式摘自https://ai....
0
票
1回答
36的观点
这个公式中箭头$\leftarrow$的用途是什么?
下面公式中的箭头$\leftarrow$的用途是什么?$$V(S_t) \leftarrow V(S_t) + \alpha \left[G_t - V(S_t) \right]$$我假设它不等于'equals'。
1
投票
1回答
59岁的观点
为什么在VAE的编码器中使用exp而不是单独使用标准差的值?
这里有一个VAE的例子:https://towardsdatascience.com/teaching-a-variational-autoencoder-vae-to-draw-mnist-characters-978675c95776。编码器的源代码可以在…