攻下号称最难的WMT2019中英翻译任务!百度机器翻译团队登顶

  • 时间:
  • 浏览:1
  • 来源:彩神ios下载app-彩神ios下载

8月1日WMT2019国际机器翻译大赛研讨会在意大利佛罗伦萨召开本届大赛百度机器翻译团队在中文-英文翻译任务上获得冠军

图1  人工评价结果

WMT全称是Workshop on Machine Translation是业界公认的国际顶级机器翻译比赛之一其中中文-英文翻译任务是历年参赛队伍最多竞争最为激烈的机器翻译任务之一今年中英方向参赛队伍有来自微软字节跳动金山爱丁堡大学东北大学日本情报通信研究院等国内外知名机器翻译团队本届大赛百度翻译团队凭借在数据补救模型架构数据增强模型集成等方面的创新性突破最终力压群雄取得第一

本次大会的评审专家对于百度参评系统给予淬硬层 评价This is a very solid system paper describing a strong system in the shared evaluationThe techniques employed are cutting-edge本文对主要技术进行介绍

图2 百度翻译参赛系统架构图

如上图所示数据补救模块通过数据筛选噪音去除数据增强等产生训练数据对于翻译模型从预训练网络底部形态等方面进行改进使模型学到更多维度更淬硬层 次的信息在训练和模型集成阶段凭借百度强大的机器学习平台和海量的计算资源从上百个模型中取舍不同的模型组合集成最终结合统计底部形态和淬硬层 学习模型的底部形态通过Re-ranking算法从多个译文候选中取舍最优的翻译结果

接下来将从数据预补救翻译模型改进训练数据增强模型集成和重排序等方面介绍百度翻译团队的参赛系统

数据补救

神经网络翻译模型对训练数据尤为敏感不仅要求数据规模大必须求数据质量高或者数据补救对于提升翻译质量至关重要针对组委会提供的双语数据通过fast_align进行数据清洗fast_align还必须衡量有另另三个 励志的话 互为翻译的概率从而根据翻译概率去除低质数据以翻译自动评价指标BLEU衡量清洗后的数据训练模型提高了1.有另另三个 百分点

相比双语数据主办方提供了更多的单语数据采用Back Translation技术利用英语单语数据提升模型的翻译质量具体做法是先用中英双语数据训练有另另三个 英中的翻译系统由英中模型将英文励志的话 翻译成对应的中文励志的话 将模型生成的中文励志的话 和英文励志的话 组合成双励志的话 对并和真实的中英双励志的话 对混商务商务合作为中英模型的训练数据此技术还必须提升翻译质量(BLEU)0.8个百分点

翻译模型

目前主流的神经网络翻译模型是Transformer根据模型参数的大小还必须分成base Transformer和big Transformer其中big Transformer具有更多的参数和更好的翻译效果在本次比赛中朋友基于Transformer模型创新性地提出了两种改进的模型显著提升了翻译质量成为比赛决胜的关键点之一此次改进的模型包括

Pre-trained Transformer: 在大规模单语语料上训练语言模型并以此作为翻译模型的编码器

Deeper Transformer: 加深编码器的层数提取更多维度底部形态

Bigger Transformer: 增大前向网络的隐藏节点 

图3 改进的翻译模型

Pre-trained Transformer

最近的研究表明在大规模语料上训练的语言模型对其下游任务有很显著的提升朋友在中文数据上训练出有另另三个 24层的Transformer语言模型采用自编码的训练办法即随机将励志的话 中的词变为masked标签并经过24层的Transformer进行编码最后预测masked位置的实际的词以预训练的语言模型作为翻译模型的编码器在中英双语数据上继续训练翻译模型在使用双语数据训练阶段预训练语言模型编码器的参数在前300000步保持不变只更新解码器的参数完后 编码器和解码器都是更新参数

Pre-trained Transformer相比标准的big Transformer拥有更深的encoder从6层扩展到24层或者经过在超大规模的中文单语数据上预训练还必须对源语言中文励志的话 提取更多的有效底部形态从而有效的提高模型的翻译质量从自动评价指标BLEU上看Pre-trained Transformer相比big Transformer显著提升了有另另三个 百分点

Deeper Transformer

更深的编码器还必须提取更多的底部形态或者对于翻译模型的训练而言仅加深编码器的层数通常会遇到梯度消失的问题图片愿因模型无法正常收敛朋友提出Deeper Transformer, 在更深的编码器中通过增加残差连接即前面所有层都作为下一层的输入补救了梯度消失实现了端到端的翻译训练标准的base Transformer和big Transformer模型编码器和解码器都是 6层的而对于采用deeper Transformer的模型, base Transformer的编码器还必须扩展到300层big Transformer的编码器还必须扩展到15层

Deeper Transformer相比标准的big Transformer性能提升较少或者在模型集成阶段加入Deeper Transformer还必须显著提升整个系统的翻译质量在本文里边的模型集成帕累托图会有更删剪的介绍

Bigger Transformer

此外朋友提出了Bigger Transformer在淬硬层 的维度上增强模型探索了增大前向网络节点和隐藏层节点对翻译质量的影响发现增大前向网络节点还必须显著提升翻译质量Bigger Transformer的前向网络节点数是300000而标准的big Transformer的前向网络节点数是4096或者更多的参数更容易在训练过程中总出 过拟合问题图片 通过增大dropout的比率和label smoothing的参数补救了过拟合相比big Transformer, Bigger Transformer提升了0.8 BLEU

数据增强

对于单语数据采用联合训练办法增强back translation生成的译文构造更高质量的双语数据首先使用中英双语数据分别训练中英和英中翻译模型中英模型将中文单语数据翻译成英文英中模型将英文单语数据翻译成中文中英模型在英中模型产生的的双语数据上继续训练英中模型在中英模型生成的的双语数据上继续训练中英和英中模型的性能都得到提升在下一轮中翻译效果更好的中英英中模型还必须生成质量更高的伪数据用来进一步提升翻译模型

对于双语数据的目标端英文通过英-中翻译模型生成源端中文译文生成的中文和真实的英文作为增强的数据混入双语数据一起去训练中英模型

图4 联合训练流程图

对于双语数据的源端中文采用知识蒸馏的办法以R2L翻译模型(从右到左的翻译顺序)和异构模型(不同底部形态的模型)作为Teacher, 生成目标端英文译文再将真实的中文和生成的英文作为增强数据指导模型学习更多的知识R2L翻译模型作为Teacher肯能翻译模型解码的底部形态生成的英文译文的后帕累托图翻译的通常比前帕累托图更好通过知识蒸馏办法还必须让翻译模型L2R学习到更多的励志的话 后部信息不同底部形态的翻译模型具有不同的翻译底部形态同类Deeper Transformer和Bigger Transformer还必须作为Pre-trained Transformer的Teacher指导Pre-trained Transformer学习Deeper Transformer和Bigger Transformer的底部形态如下图所示D’表示模型生成的双励志的话 对多个不同的D’组商务商务合作为模型的训练语料 

图5 知识蒸馏流程图

多种数据增强办法不仅还必须增强模型的鲁棒性还指导模型学习或者 模型特有的知识从而进一步提升翻译效果

模型集成

模型集成解码还必须显著提升翻译效果朋友使用不同的模型在不同的数据上采用不同的策略训练出上百个翻译模型以探索不同的模型集成对翻译质量的影响经过极少量的实验发现相同底部形态的模型进行集成即使性能都很强或者集成的翻译效果收益较小而集成不同底部形态的模型翻译的效果得到了非常显著的提升相比最强的单系统提升了1.4 BLEU

重排序

集成模型生成k个候选译文通过k-best MIRA算法学习各个底部形态的权重从而对候选译文进一步排序取舍最好的译文设计了4种底部形态还必须有效的提高翻译质量

1.翻译模型底部形态集成模型生成译文的得分和R2L模型对译文的打分

2.语言模型底部形态多个语言模型和后向语言模型对译文的打分

3.长度底部形态译文和原文的长度比和长度差

4.加权投票底部形态计算每个译文和或者 候选译文的BLEU并计算其平均值

通过以上技术创新相比于基线系统朋友获得了6-7个百分点的大幅提升作为国内最早的互联网机器翻译系统之一百度翻译在技术和产品上无缘无故指在业界领先早在2015年百度翻译就发布了全球首个神经网络翻译系统并于同年获得国家科技进步二等奖通过不断的技术创新翻译质量保持业界领先在完后 过去的百度开发者大会上发布了业界首个端到端的同传翻译小应用程序为用户提供沉浸式同传体验随着技术的不断进步与发展机器翻译将在跨越语言鸿沟中发挥这麼 大的作用

百度自然语言补救Natural Language ProcessingNLP以『理解语言拥有智能改变世界』为使命研发自然语言补救核心技术打造领先的技术平台和创新产品服务全球用户让错综复杂的世界更简单