0
$ \ begingroup $

我正在使用Pytorch中提供的变压器模块培训一个单词级语言模型。我得到了一个非常好的训练损失,而模型能够在训练中重现训练中的句子。当我尝试使用只使用时生成新句子< sos >标记作为输入,输出通常是一组衬垫标记

这是输入只有令牌

                                                                                                                                                                                                                                                     

这是训练数据的输出

< sos >。格罗斯说,他曾希望节省成本n亿美元将带来比美国电话电报公司(at & t)告诉分析师其预计未来的年收入增长更大的增长。格罗斯表示,他原本希望节省成本为美元九百万将导致甚至高于每年收益的增长率增加。对分析师表示,预计在未来 芬兰集团 OY AB表示,它达成了一项协议,以收购荷兰电缆公司   n个亿芬兰          0 1 2 3芬兰联合集团公司4 ab 6 7 $ n million芬兰7 $ n million芬兰联合集团公司4 ab 5 6 3     1 2 3n万          0 1 2 3 4加拿大大学表示,如果他们成功收购疫苗制造商      ,将在两周内花费n百万加元的研究n百万/ n年加拿大大学研究如果成功收购< unk >制造商< eos > <垫> <垫> <垫> <垫> <垫> <垫> < sos >每股净日圆升至n日圆n < eos > <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫>每股净日圆升至n日圆n < eos > <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫><垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> < sos >的时代声音< unk >”和即时民调是危险标签广泛适用于单个词< eos > <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫>在声音的时代我和即时民调是危险标签广泛适用于一个单一的词< eos > <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫><垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫>

第一行是输入,第二行是输出。我用的是注意遮罩,这样模特就不会看前面学习了。必威电竞我使用教师强制训练模型,因此您可以看到预期的输出句子是向右移动的输入句子1。我在训练时也屏蔽了输入必威电竞。

任何人都可以建议为什么这种情况发生或者至少为什么语言模型会产生这样的输出。即使在RNN的角度下也会有所帮助

| 改善这个问题 | |
\ endgroup美元

    你的答案

    点击“发表您的答案”,即表示您同意我们的答案服务条款,隐私政策饼干的政策

    浏览其他标记的问题必威英雄联盟必威电竞问自己的问题