0
$ \ $请将BeginGroup

我正在使用Pytorch提供的变压器模块训练字级语言模型。我得到一个非常好的训练损耗,该模型能够重现句子中正确设置了培训。当我尝试生成唯一的新句子令牌作为输入的输出的,通常一组垫令牌

这是输出当输入仅是代币

<衬垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫><衬垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫><衬垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫><衬垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫><衬垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫>

这是训练数据的输出

先生。格罗斯说,他原本希望节省成本美国电话电报公司曾对分析师表示,预计未来n亿美元的年收益增幅将超过nn。格罗斯说,他曾希望节省一笔成本ñ万美元将导致N N年收入增加&T超过$甚至更高的增长。对分析师表示,预计在未来 芬兰集团 OY AB表示,它达成了一项协议,以收购荷兰电缆公司   n个亿芬兰$ N百万 <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫>芬兰砾岩CORP  AB表示,它达成了协议,购买有线电视公司和  n个亿芬兰 $Ñ百万 <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> 大学所述两家公司同意斥资ň亿加元对在加拿大的大学研究$ N万元以上n年,如果他们能成功地获取疫苗制造商 <垫> <垫> <垫> <垫> <垫> <垫>大学说两周N到支出ñ万加元$n百万/ n年加拿大大学研究如果成功收购< unk >制造商< eos > <垫> <垫> <垫> <垫> <垫> <垫> < sos >每股净日圆升至n日圆n < eos > <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫>每股净日圆升至n日圆n < eos > <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫><垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> < sos >的时代声音< unk >”和即时民调是危险标签广泛适用于单个词< eos > <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫>在声音的时代我和即时民调是危险标签广泛适用于一个单一的词< eos > <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫> <垫>       

第一行是输入和所述第二线具有的输出。我使用的是关注度掩使模型不向前看,学习。必威电竞我使用老师逼训练模型,因此你可以看到预期的输出句话是输入句子一个右移。我也掩盖输入,同时训练必威电竞。

任何人都可以说明为什么会出现这种情况,或至少为什么会语言模型产生这样的输出。即使在RNN的角度来看将是有益的

| 改善这个问题 | |
$ \ $端基

    你的答案

    点击“发表你的答案”,你同意我们的服务条款隐私政策Cookie政策

    浏览其他问题标签必威英雄联盟必威电竞问你自己的问题