必威英雄联盟问题标记[数学]

有关人工必威英雄联盟智能的数学问题。betway电竞

168个必威英雄联盟问题
通过过滤
标记
2
0答案
38次

在状态预计时间

我正在研究Rabiner 1989他写到持续时间d在状态I的离散概率密度函数(也就是说,在持续时间d的状态下,条件是。
1
投票
1回答
41次

在支持向量机的背景下,高斯径向基核中使用的变量是什么?

如果我有高斯核函数$$ k(x, x') = \operatorname{exp}\left(- | x - x' \|^2 / 2\∑2 ^2 \)$$ x$和$x'$在训练SVM的环境中是什么?
2
1回答
95的浏览量

如何逼近DQN损失函数的期望值?

在深度Q学习中,参数化Q函数$Q_i$通过对一系列损失函数执行梯度下降来优化$L_i(\theta_i)= E_{(s,a)\sim p}[(y_i-Q(s,a;\theta_i))^2]$,其中…
1
投票
2答案
48次

SARSA收敛到最优值函数的条件是什么?

SARSA要收敛到最优值函数(和策略),学习速率参数$\alpha$必须满足以下条件:$$\sum \alpha {n^k(s,a)} =\infty \quad \text{and}…
1
投票
1回答
31次

什么是隔离线这个神经元与身份激活的方程?

我有一个有两个输入的神经元,和恒等激活F为激活函数,ü$u = f(w_1x_1 +…)
1
投票
1回答
84次

TD(0)预测是否需要罗宾斯-蒙罗条件收敛于值函数?

对于TD(0)算法,学习速率参数$\alpha$是否需要下面的罗宾斯-蒙罗条件来收敛到策略的真值函数?$$\sum \alpha_t =\infty \quad \text{…
3
1回答
56岁的观点

在策略梯度方程,为$ \ PI(A_ {吨} | {S_ T},\ THETA)$ A分布或功能?

我正在学习有关从深RL训练营由彼得Abbeel政策梯度的方法和我有点迷迷糊糊所提出的数学。在讲座中,他得出的梯度数概率...
1
投票
1回答
64的浏览量

正式证明每一种纯反应剂都有行为上等价的标准剂

它种品牌的直观感觉,但我不知道正式的证明。我会从简单介绍上市的定义,以多智能体系统,伍德里奇,2002年开始,然后给你我的推理...
0
0答案
44次

理解V函数和q函数

假定由以下组成的马尔可夫决策过程的存在:状态空间$ S $行动空间$ A $转移模型$ T:S \倍A \倍小号\到[0,1] $回报函数$ R:S \次甲\次小号\到\ ...
4
2答案
125次

数学基础的学习能力

我在应用数学本科生,在人工智能的兴趣。betway电竞我目前正在探索的话题,我可以做研究。从数学的背景,我来了...
2
1回答
41次

是什么在变自动编码器来什么意思呢?

这里有一个变自动编码器的框图。有样品(编码矢量)前2个节点。一个是平均,一个是标准差。平均一个令人困惑。这是不是意味...
1
投票
1回答
72的浏览量

为什么是基于L2差异,而不是L1方差标准差

标准偏差和方差是在统计但对于方差式以某种方式相关的L1和L2。在数学上(L2在机器学习的意义上),$$差异= \ dfrac {(X_1均值)^ 2 + ... +(...
1
投票
0答案
52次

是梯度下降算法变分法的一部分吗?

如https://en.wikipedia.org/wiki/calculus_of_variation,变体演算是一种使用变体的数学分析领域,变体是函数和……
0
1回答
41次

如何理解平均L2损失?

在下面的代码片段中,突出显示的部分是平均规范,但是由于$1/|p_i|$不在求和范围内,因此理解起来非常混乱。是$|p_i|$ l2-norm(根据wolfram)还是$ l1-norm或…
3
1回答
86次

$\|x\|_1 \|x\|_2$和$|x|$之间的区别是什么?

$\|x\|_1 \|x\|_2$和$|x|$之间的区别是什么?我认为$|x|是$x的大小。

15 30. 50 每个页面