mask币如何获得,mass币挖一天能挖多少

  

  2021年10月8 -10日,第十七届全国机器翻译大会(CCMT 2021)在西宁召开。字节跳动火山翻译团队技术与产品研发负责人王明选以《预训练时代的机器翻译》为题,讲解了预训练技术在机器翻译中的应用。   

  

  锋利的工具能做好工作。火山翻译能够持续提供快速、稳定、安全的翻译服务,离不开团队对机器翻译前沿技术的深度探索。近年来,预训练技术在许多领域取得了巨大的成就。随着深度学习的快速发展,面向自然语言处理领域的预训练技术 (Pre-training)取得了长足的进步,火山翻译团队也为预训练技术在机器翻译的应用.收获了一些成果   

  

  以下是王明选演讲全文:   

  

  谢谢肖老师。在这次讲座中,我主要想介绍预训练技术在机器翻译中的应用。今天早上老师提供了一个很好的论坛,已经有一些这方面的介绍了。此外,王睿老师刚才提到的机器翻译的监督与前期培训密切相关。所以,我要带大家了解一下预训练技术在机器翻译中的应用。由于时间关系,我将重点谈谈文本翻译方面的预训练.   

  

     

  

  其实说到NLP(自然语言处理),这两三年变化最大的就是前期训练。从Bert(Google AI研究院提出的预训练模型transformers双向编码器表示法)到GPT(Open AI提出的预训练语言模型Generative pre-trained transformer)。从NLP到CV(计算机视觉)再到语音,它们在整个行业引起了一些翻天覆地的变化,可以说是近十年来最大的进步。   

  

  预训练框架其实是一个非常简单但有效的想法。简单来说,本质上是一种监督学习,即通过大量未标记数据训练一个预训练模型,然后对下游任务做微调。其实这是一个很简单的想法。它的一个优点是非常通用:一个可以适应不同下游任务的预训练模型。今天的讲座不是关于预训练,更多的是关于预训练和机器翻译的结合会不会产生某种化学反应。   

  

     

  

  今天的演讲由两部分组成。第一部分介绍了单语语言的预训练模型,以及预训练为什么会对机器翻译产生影响。   

  

  机器翻译的多语言预训练   

  

  (Monolingual Pre-training for NMT)   

  

  这是我画的一个实体图,主要用来介绍今天机器翻译的双语和单语数据的大小。这是目前的中英文双语数据,包括商业系统大约1亿条数据。因此,可以看到单语数据是远远大于双语数据的。,如何更好地利用这么多的数据实际上是一个非常值得注意的一点。   

  

     

  

  另外,我们比较了BERT出现前后的数据量。赛前训练其实是一个很老的话题:在BERT之前,有很多赛前训练的研究。早在2012年,大家就开始了这种工作。从过去到现在有什么变化?如图,过去单语数据量级比较小,但是BERT出现后,数据量开始百倍增长。我觉得质变可能来自于数据的增加。   

  

  因此,我们今天的主题之一是:机器翻译能不能也利用上这么大规模的单语数据,或通过预训练技术将这部分信息整合到翻译中。第一部分将分为两节。第一节是对近期几部作品的简单介绍,可以分为两种类型。一种可以简单归类为BERT融合模型,即如何将其与现有的预训练模型相结合。   

  

  我们知道,机器翻译是端到端的模型,但是之前我们比较了解的一些模型,比如伯特和GPT,都是理解模型,都是语言模型。他们的模型和机器翻译的模型不一样,所以如何更好的结合这种异构的网络信息,可能是探索方向的一部分。同时还有一部分探索方向,就是如何做一个端到端的预训练,然后应用到机器翻译上。从单语的角度来看,这是两个主要的应用方向。   

  

  BERT 在机器翻译里面发挥了什么作用?   

  

  关于第一个方向:BERT在机器翻译中会起到什么样的作用?本节我们大概会介绍三份工作,基本上都是2020年以后的研究,所以第一份是微软的早期工作。他们提议直接把BER   

T 运用到 NMT(Neural Machine Translation,神经网络机器翻译)里面 ,发现直接用它去做 initialize,并没有那么有效,因为一般来说 BERT pre-training fine-tuning 的模型需要更新 parameter。团队甚至发现 BERT-Frozen 可以把整个参数固定下来,可能取得的效果会更好,所以这个工作主要探讨的是 BERT 怎么样和 NMT 模型更好地结合起来 ,他们提出这样一个思路:把BERT的表示作为 feature 加进来

  

此外他们提出一个框架,可以简单理解为双encoder。一个encoder是BERT, 一个 encoder 是机器翻译本身的 encoder,接着让 decoder 同时去做 attention ,这样的话等于 BERT 这部分信息就会被加进去。这个是ICLR2020的工作,比较简洁有效。最后证明了 BERT-fused 在 rich resource 还有 low resource 的场景都取得了比较好的结果,另外也发现这种预训练对于无监督的提升是非常大的。尤其当数据量比较少,或者是没有平行数据的时候,加了预训练可能会带来质变的提升,而且会让整个模型都更容易训练。

  

  


  

这是另外一篇工作,由阿里和南京大学合作完成,他和上一个工作本质上是比较接近的,但其中一个很大的不同点在于他做了一些 dynamic layers fusion,考虑到了把不同的 layer,即把 BERT 和 NMT 的 encoder 结合。另外一个不同点是:他们也在 decoder 做了一些尝试, 就是包括把 decoder 用 GPT 去做预训练。最后发现了一个简单的结论:encoder 用 BERT,decoder 用 GPT,这样的提升是最显著的。在 transformer base 的情况下,差不多有接近两个点的、比较显著的提升。

  

  


  

第三个是我们的工作。我简单介绍一下,我们的工作和前两个不一样的地方,是我们更关注于怎么在不改变模型的架构的情况下也就是仍然用 BERT 做 initialize 进行 fine-tuning

  

最简单的一个思路就是我们不把 BERT tuning 得太多。在 tuning 的过程中就引入了 continue learning 的一些方法,就让 BERT 的 knowledge 和 NMT 的 knowledge 都能够同时保存,为此我们采用了一些具体的方法,结果也得到了比较大的提升。该模型已经开源,大家有兴趣的话可以在网上查询到相关细节。

  

  


  

这些思路,其实还有一个问题,我们可以看到前面几个工作,主要是集中在 BERT pre-train,就是对 decoder,包括 GPT 的应用其实是相对比较弱的。

  

但从事机器翻译的同学其实都明白,target of language model 是非常重要的,或者说 target 的数据其实甚至是比 source 都要重要。那怎么能够把类似于 language model 或者 GPT model 等用到 NMT 模型里面是我们非常需要关注的一个点。

  

这块的一个挑战在于,decoder 的分布是不一样的。如果直接用 GPT 预训练一个机器翻译模型的话,会发现中间的 cross attention 没有办法预训练,那么每一层的输出就不一样了。

  

  


  

这种初始化其实效果不是特别好,所以我们今年在 EMNLP 会议上发表了一个比较简单的工作,就是 encoder 用 BERT, decoder 用 GPT,用 grafting 作为嫁接模型,中间再用类似的 adaptor 把它连接起来。因为 encoder 是一个多语言 BERT,decoder 是一个多语言 GPT,我们可以不考虑初始化,直接把多语言 GPT 的 attention 去掉,然后在上面再结合 cause attention。

  

这样的好处是整个模型能够完全地保留 encoder 和 decoder 的信息,然后用少量的数据就能得到一个非常好的结果。上面讲述的主要是一种 fusion style,我们怎么把这种表示、生成,结合到机器翻译里面?

  

  


  

如何设计一种端到端预训练模型应用于机器翻译?

  

当然,这块还有另外一种类型的工作,类似 MASS (Masked Sequence to Sequence Pre-training for Language Generation) 或者 BERT。他们其实是采取了一个不一样的思路:他们保证了模型结构的一致性来预训练一个端到端模型。这样的一个好处在于,我们接下来做模型 fine-tuning 的话结构是一致的,整个模型、参数等会比较简单,不需要去考虑模型结构不一致的问题,结果也比较简单。

  

  

为了验证效果,我们在无监督的机器翻译上做了验证,其实效果是非常好的,基本上提升是七到八个点,但是在 rich resource 上的提升是比较有限的。此外,这个工作可能还有一个 cross-lingual 的问题。因为我们知道,机器翻译至少涉及两个语言,比如说中英翻译。那么如果用英语去预训练一个英语的 MASS,其实中文部分是没有办法很好地被预训练的。也就是其实整个模型虽然结构上一致了,但本质上也只有大概一半以上的参数被初始化,有一部分参数还是没有做好的,此外它的上下游的目标也不一致。

  

端到端的预训练更多是一个 autoencoder 对自编码,而没有考虑 language transfer,所以也不一定是最好的结构。类似的一个工作还有 BART,它其实和 MASS 本质上比较接近。最大的区别是 MASS 包含一些更复杂的过程。它不只是做 mask,还关注了包括输入文本做 random shuffle 等细节。最后这个工作在 low resource 上,包括在 unsupervised results 上做了一些验证,效果也比较好。

  

  


  

简单地做一个总结,第一部分讲了两块,一块是 fused style,就是把多个模块结合起来,比如把 BERT 把 GPT 放到 NMT 里面,怎么做能更好地结合;一块是做预训练的端到端模型。主要是这两块的工作,刚才也提到,这两块都有它的一些局限性。

  

Fused model 的这种局限性主要是指整个模型比较复杂,往往需要改变网络结构,训练也没有那么稳定。对于端到端模型,其实它使用起来非常方便,但缺点在于上下游任务不一致,所以就不一定把这个语言的信息用到了最大。

  

此外,这是个单语模型,没有办法扩展到双语的场景。就好比用英语去训练一个预训练模型,放到中英机器翻译里面,中文部分的信息是没有被充分考虑到的。所以接下来我们就会讨论这两年的一些在多语言预训练的一些探索。

  

  


  

机器翻译的多语言预训练

  

(Multilingual Pre-training for NMT)

  

因为机器翻译本身就是一个多语言的问题,多语言机器翻译预训练也是一件非常自然的事情。这块的话,我们还是分两个部分去讲,一部分是关于 fused 的预训练,一部分是多语言的端到端预训练,这一块也会有一些不同的思路。

  

  


  

比如多语言模型,虽然模型一样,但大家研究的侧重点更多的是集中在 knowledge transfer,就是指不同的语言其实分享了同样的 knowledge。比如说中文和英文,因为大家都生活在地球上,我们可能用不同的语言去描述同一个世界,所以这些知识理论上是可以转换的。

  

当然,人其实也有一个直觉,我们会发现很多语言学家在学过两种语言之后,学第三种语言会越来越快,甚至一些非常有天赋的人可以学八种语言。他们学语言的时候其实是会不断的去学习语言中的共性然后适应。所以我们在考虑语言之间是不是能够也寻找到这种共性然后学习。

  

  


  

这个是NeuIPS比较早期的工作:Cross-lingual Language Model Pretraining。它的思路是:是否能够把相同语义的句子表示到同一个空间里面。因为单独的模型中不同语义的句子其实是表示在不同空间里面的。这是一个例子:通过不断地去拉齐语义的表示达到目标。然后刚才王瑞老师也提及了,我就不再多讲,就是一个多语言预训练模型,这个模型其实比较简单。它沿用BERT的思路,把前半句翻译成英文后半句翻译成法语, 一起去训练一个 mask predict model。因为同种语义的英语和法语被放在了一个 context 里面,模型希望通过 context 能够比较隐式地去学习这种语言的贡献信息,最后把相似的东西表示在一块。

  

  


  

最后这项工作做了较多实验,主要集中在 low resource 和无监督,具体的实验结果这里就不再详细介绍,但其中有两个 ablation study 的结论是非常有趣的。一个是增加更多的语言,对 low resource 的提升非常显著。在我们要翻译一些很冷门的语言对时,比如说从英语到印地语,增加更多的语言对其实是对 low resource有较大的提升帮助的。但是增加更多的语言对有可能会降低 rich resource 的结果。

  

为什么会降低 rich resource 的结果?我觉得本质可能还是因为 model capacity 不够,也就是说这个模型空间是有限的,rich resource 本身资源已经比较充分了。所以这一块的话就需要引入更大的模型。说明多语言之间是能够很好的去学习 share knowledge 的。

  

  


  

接下来的这个工作是微软的另外一个研究,这个工作比较上一个,有一些不一样的地方。不一样的地方是上一个工作是在句子的维度做了mix,上半句放中文,下半句放法语,然后把它放在一起。希望他们的context 能够对齐,是潜在的。而微软的这个工作是在做一个 language model:我们希望模型对于英文的下半句的预测不一定是英文,因而我们会去做一些替换 ,像 “calls for 新的劳工”。其实就是把中文和英文混在一起让英文去预测中文

  

该模型中,词本身就是它的 contaxt,它的表示来自于 contaxt,那么“新的劳工”和 "calls for action" 这种关系就会被建立起来。甚至于“新的劳工”可能和其对应的英文表达 "fresh industrial action" 也能够能够对齐。它其实是一个 Alternating language model,当然这块的话侧重的是一个 language model。最后对结果可视化,发现从词的级别来看这种模型确实是能够把距离拉近的。

  

  


  

还有一个类似的工作――mBART。mBART 的思路和前两个不太一样,如果用一个词一句话来总结,我觉得就是:“大力出奇迹。”也就是说做的事情是非常简单的,它本质上还是把所有的语言放在一起去做预训练,你可以理解为一个多语言MASS或者多语言 BERT。

  

我们不需要双语数据,只需把英语 、法语、德语几十种数据全部放在一起,然后做一个 auto-encoder,然后再去下游任务做 fine-tuning ,那么他希望隐式的,比如 model 本身不同的语言都有相同的阿拉伯数字,或者有一些东西本身就是隐式的, 能够学习不同语言之间的 share 的表示。最后它的规模非常大,引入了可能有二十几倍的 BERT 的数据量,做了一个很大的多语言 BERT。最后在非常多的任务上,尤其在 low resource 上可能有三到十个点的提升。

  

  


  

同期类似的工作还有 Code-switching pretraining,当然这个也是完整地沿用了 MASS 的结构。它和 MASS 唯一的区别点在于 MASS 是 mask 来 predict ,模型把 mask 的 token 替换成了其他语言。所以就也是一个 Code-switching 的结构。

  

  


  

同期我们完成了 mRASP 工作,也是同期工作,做的规模要大很多。我们把多种语言混在一起去做预训练。这些语言会有比较丰富的 code-switching,最后可以把所有的语言距离拉近。最后得到的一个结果,即 rich resource 和 low resource 都能被映射到一个空间,那么 low resource 就能更好地借助 rich resource。而且在下游 fine-tuning速度也是非常快的,即能够一定程度上减少 pretraining knowledge loss 的问题

  

以前用 BERT 之类的进行预训练,最后做 fine-tuning 时往往需要花费两三天。那么用端到端预训练的模型可能只需两三个小时就可以完成fine-tuning,它的灾难性遗忘问题其实也会潜在地被缓解。

  

  


  

在这个基础上,在今年的 ACL 2021 会议,我们也做了一个 unsupervised 的,或者说 contrast learning 来进行预训练。我们的正例可能是 parallel 的,cross-lingual 的句子,反例可能让模型去区分不同语言,不再做数据增强,那么最后也能够得到一个统一的表示。另外,我们的框架跟之前的一个区别点在于,不论是单语还是多语言数据,都能放到一个框架里。这个模型的一个潜在优点在于,即使不做 fine-tuning,效果也挺好的。当然,做了 fine-tuning 则会有进一步提升,细节就不展开描述了。

  

  


  

从整体来看,在 rich resource, low resource,甚至 zero-shot 的情况下表现都不错。关于 zero-shot 在这里稍微多提一句,我们发现一个很有趣的点:把所有的语言进行对齐之后,模型就潜在具备了这种 zero-shot 的能力。也就是说,我们训练数据里没有法语到德语的平行数据,但我们当我们把德语和英语、法语和英语映射到一起后,这个 model 直接得出的法语和德语的翻译效果居然还不错,基本上能够接近于 pure。这种方式得到的 bleu 差距在一个点以内,我觉得几乎已经达到可用的状态。

  

  


  

最后我们简单地做一个总结, 其实今天围绕文本翻译主要讲了两块,第一部分是如何在多语言的场景下,怎么尽可能用更多的单语数据来帮助机器翻译。这里有两种方式,一种是把已经训练好的或者最强的,类似于 BERT, GPT 这类单独训练的 model 尝试用到机器翻译里。另一种场景:尝试针对机器翻译,端到端设计一种预训练模型,然后和机器翻译比较好地结合起来。

  

第二部分主要是介绍,多语言预训练最重要的一个点在于:它更多的不是依靠增加单语数据,而是学习一种 universal的 knowledge,即实现不同语言的表示,只要语义是接近的,他们就能有相似的表示。其实,不管对 low resource 还是 rich resource 其实都会有非常大的帮助。

  

因为时间关系,今天的介绍就主要到这里,谢谢大家。

相关文章