必威英雄联盟问题标记(变压器)

tran必威英雄联盟sformer是一种深度机器学习模型,在2017年的论文“Attention is All You Need”中引入,主要用于自然语言处理(natural language processing, NLP)领域。

56个必威英雄联盟问题
过滤
排序
与标签
0
0答案
9次

生成新句子时变压器语言模型产生仅<垫>令牌

我正在使用Pytorch中提供的transformer模块训练一个单词级语言模型。我得到了一个很好的训练损失模型能够在训练中重现句子…
2
1回答
29次

对同一数据集变压器和RNN +注意之间的比较呢?

我想知道什么被认为是变压器的优势的原因是什么?我看到一些人认为,因为使用的注意机制,它能够捕捉到更长的时间依赖性。...
4
1回答
44岁的观点
+ 50

什么是解码器面罩(口罩三角形)的变压器的目的是什么?必威电竞

我尝试使用本教程实现transformer模型。在Transformer模型的decoder块中,一个掩码被传递给“pad and mask fut必威电竞ure token In the input by the decoder&…”
0
0答案
42岁的观点

变压器语言模型生成的文本意义

我目前正在学习的变形金刚,所以请我的理解我试图实现小型基于变压器的语言模型,并将其与RNN基于语言模型。下面是代码...
1
投票
0答案
23次

如何训练注意力中的权重矩阵?

我一直在寻找到最近的变压器,并在阅读吨教程。所有这些解决背后关注的直觉,这我理解,但他们对待训练的权重矩阵为...
0
0答案
25的观点

如何实现或避免遮蔽变压器?必威电竞

当使用变形金刚进行图像字幕时,是否有理由使用屏蔽?必威电竞我目前有一个resnet101编码器,并试图使用功能作为输入的变压器模型…
4
0答案
26次

给定任意长度的文本文档,是否有基于转换器的架构可以生成固定长度的向量编码?

BERT编码一段文字,使得每个标记在输入文本映射到文本进行编码的载体(通常是字)。然而,这使得在编码的长度的函数变化...
0
1回答
36次

伯特:经过880000步的预训练,为什么微调不起作用?(关闭)

我使用从https://github.com/NVIDIA/DeepLearningExamples Pretrain参数训练前的代码:...
0
0答案
39次

如何输入一个给定的序列到变压器(或RNN)与发生的概率?

我在试验音乐和变形金刚,我有序列$S$的形状:$(B,L,N)其中$B$是批大小,$L$是序列长度,$N=12$是音符的数目…
0
0答案
13次

如何使用字幕生成与变压器-XL或BERT图像张量?

我是相当新的变压器和深度学习一般,所以请善待,我目前的工作,使用任一变压器-XL或BERT将字幕图像的项目,但是,我不知道......
2
1回答
56次

什么是自我关注权重矩阵?

我一直在寻找到自我的关注最近,并在文章,我已经看到,他们都谈论瞩目的“砝码”。我的理解是,在自我关注的权重...
1
投票
1回答
52岁的观点

如何从原来的变压器架构BERT不同?

据我所知,BERT是一种变压器结构。我不明白的是:如何从伯特原变压器架构的不同?什么工作更适必威电竞合于BERT,...
0
0答案
16次

为什么BERT最后4层应考虑到提取字的嵌入?

在大多数情况下,将BERT最后4层的嵌入向量相加表示嵌入的记号。我试图探索,但还没有找到任何强有力的理由/资源来解释为什么我们应该……
0
0答案
12次

什么是HANDELING生产数据的快速扩展的问题answeing任务的最佳NLP模型必威电竞

我最近写一个聊天机器人约的魔幻故事我保存到我的数据库回答问题。必威英雄联盟当用户打开一本书,它加载聊天机器人在给定的书。我并不需要它去努力......
3.
1回答
100的浏览量

变压器如何处理任意长度的输入?

transformer是一种流行的新型神经网络架构,通常被视为是递归神经网络(如LSTMs和…)的替代品。

15 三十 50 每页