必威英雄联盟问题标记[注意]

关于人工必威英雄联盟智能和机器学习中关注概念的问题。betway电竞在自然语言处理和计算机视觉任务中成功使用了引起的引起的机制,例如机器翻译。必威电竞为了审查NLP中使用的关注机制,通过AndreaGalassi等人来看看“自然语言处理中的注意力”。

56个必威英雄联盟问题
过滤
排序
标记有
0.
投票
0.答案
30次观点

为什么注意昂贵?和多头的全球关注?[关闭]

我正在努力了解关注,还有一些我不太得到的东西。对于一个,为什么变形金刚如此昂贵?那个QW操作比完全大得多是怎样的......
3.
投票
0.答案
29次观点

基于内容的注意力和点产品的关注有什么区别?

我遵循这个博客文章,枚举各种类型的注意力。它提到了基于内容的注意力,其中$ j $ th编码器隐藏状态的对齐评分函数具有尊重...
1
投票
2答案
71意见

最近的深度学习教科书(即至少涵盖GAN,LSTM和变压器和关注)

我正在寻找一个学术(即,与数学公式)教科书,涵盖(至少)以下内容:GaN LSTM和变形金刚(例如SEQ2SEQ)注意机制我所获得的最接近的比赛......
0.
投票
1回答
21次观点

注意机制是否可以提高短序列的性能?

我知道注意机制可用于处理长期序列,其中与梯度消失的问题有关,并且更有效地表示整个序列。......
1
投票
1回答
27意见

在具有多个图层的注意力模型中,是跨层共享的权重矩阵?

在描述具有相同形式的多个注意层的神经架构的文章中,重量矩阵通常在层上通常相同?考虑一个例子,“注意是......
0.
投票
2答案
51意见

在变压器的多主题注意机制中,为什么我们需要$ w_i ^ q $和$ {w_i ^ k} ^ t $?

在关注的是您需要纸张,在第4页上,我们有等式1,它描述了变压器架构的自我关注机制$$ \文本{注意}(q,k,v)= \ operatorname {..。
1
投票
0.答案
49次观点

如何处理变形金刚的长序列?

我有一个时间序列序列,有1000万步。在步骤$ t $,我有一个400维特征矢量$ x_t $和标量值$ y_t $,我想在推理时间内预测,我知道在......
2
投票
1回答
41意见

多针关注机制的每个头部是什么不同的?

我很难了解原始变压器纸上的“多头”概念。是什么让每个头的学习独特?为什么神经网络不学习同样......
0.
投票
1回答
39次观点

注意门和CNN过滤器之间有什么区别?

注意力模型/门用于专注/注意重要地区。根据本文,作者描述了具有注意门(AG)的模型可以从头开始培训。然后 ...
1
投票
0.答案
29次观点

注意单元的渐变是什么?

本文注意事项是您所需要的描述变压器体系结构,它描述了作为查询$ q = x w ^ $,键$ k = x w ^ k $,以及值$ v = x w ^ v $:$ \ text {...
2
投票
1回答
42次观点

变压器的成本函数是多少?

纸质注意是您所需要的只是描述了具有编码器和解码器的变压器架构。但是,我不清楚最小化的成本函数是针对这样的架构。......
1
投票
1回答
19观

是仅在第一解码器块中应用的解码器必威电竞掩模(三角掩模),或者在解码器中的所有块中应用?

解码器掩模,也称为“向前掩必威电竞码”,应用于解码器侧,以防止其参加未来令牌。这样的东西:......
2
投票
1回答
30次观点

变形金刚:如何获取编码器的输出(键和值)?

我正在阅读论文的关注就是你所需要的。似乎编码器的最后一步是一个产族(Relu(Wx + B)+ x),即添加+归一化。这应该产生$ n $ x $ d ^ {model} $ ...
2
投票
1回答
27意见

变形金刚:解码器最终层如何输出所需的令牌?

在文章中,您所需要的是,这部分让我感到困惑:在我们的模型中,我们在两个嵌入层之间的相同重量矩阵[在编码部分]和Pre-softmax线性...
0.
投票
0.答案
8次观点

科学科目分类的最佳策略。Phy,Chem,Maths和Bio?伯特,变压器,注意力+ SLTM,自我关注+ LSTM?

我正在研究一个项目,我必须首先分类给定的问题的主题,然后是各章节,然后是子主题。简而言之,我必须预测主题,等级......

15. 30. 50. 每页