谷歌揭秘自家翻译系统：如何利用AI技术提高翻译质量_杂志最新资讯-杂志铛杂志订阅资讯信息服务

对于机器翻译来说，如果一门语言可用的文字资料越多，经过人工智能模型训练出来的翻译效果就越好。但并不是所有语言都具备丰富可用训练的文字资料，这样一来，如何在数据不多的情况下，训练出更好的翻译器，成为机器翻译领域里需要解决的问题之一。

近日，谷歌在自己的博客上介绍了公司最新的翻译创新技术，这些技术提升了谷歌翻译的用户体验。目前谷歌翻译可支持108种语言，平均每天翻译1500亿个单词。

谷歌翻译最早亮相于2006年，在过去的13年间，翻译水平有了重大飞跃。谷歌表示，其翻译突破并不是由单一技术推动的，而是针对低资源语言、高资源语言、总体质量、推理速度等一系列技术组合的突破。在2019年5月到2020年5月之间，根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准)，谷歌翻译在所有语言中平均提高了5分以上，在50种语料资源最少的语言中平均提高了7分以上。

混合模型和数据挖掘器

在这系列技术突破中，谷歌首先提到了混合模型和数据挖掘器。

混合模型指的是由Transformer编码器和递归神经网络（RNN）解码器构成的模型。在机器翻译中，编码器通常将单词和短语编码为内部表征，解码器将其生成为所需要的语言文本。谷歌的研究人员在2017年称首次提出，翻译质量的提高主要依靠编码器。谷歌团队称这可能是因为RNN和Transformer都设计为处理有序数据序列，但Transformers并不需要按顺序处理序列。换句话说，如果所讨论的数据是自然语言，则Transformer无需在处理结尾之前先处理句子的开头。

尽管如此，RNN解码器在推理时间上仍然比Transformer中的解码器要“快得多”。谷歌翻译团队认识到这一点，于是在将RNN解码器与Transformer编码器耦合之前，对RNN解码器进行了优化，以创建低延迟、质量及稳定性均比此前所使用的RNN神经机器翻译模型更胜一筹的混合模型。

除了新颖的混合模型体系结构之外，谷歌还升级了爬虫工具，爬虫工具可以从数以百万计的示例翻译中收集编译训练数据。升级后，谷歌嵌入了14种大语言对，而不是单纯基于字典数据。也就是说它是使用实数向量来表示单词和短语,更多地聚焦于精确性(检索数据中的相关数据部分)，而非检索（实际检索的相关数据总量）。产出效果方面，谷歌说这使得该数据挖掘器提取到的句子数量平均增加了29%。

“嘈杂”的数据和迁移学习

谷歌翻译性能提升的另一个技术突破来自更好地处理训练数据中的“噪声”。“噪声”即嘈杂的数据，因含有大量无法正确理解或解释的信息数据，从而会损害语料资源丰富的语言翻译。因此谷歌翻译团队部署了一个系统，该系统使用经过训练的模型为翻译示例分配分数，进而筛选出“纯净”的数据。实际上，这些模型一开始基于所有的数据进行训练，然后逐渐基于更小、更纯净的数据子集进行训练，这种方法在人工智能研究领域被称为课程学习。

对于机器翻译来说，传统上依赖于源语言和目标语言中成对句子的语料统计。对于资源较少的语言，谷歌在谷歌翻译中采用了一个回译机制，来强化并行训练数据，即语言中的每个句子都与其译文相配对。在该机制中，训练数据与合成的并行数据自动对齐，目标文本为自然语言，而源文本则由神经翻译模型生成。结果是，谷歌翻译充分利用更丰富的单语文本数据来训练模型，谷歌称这对提高翻译流畅性特别有帮助。

此外，谷歌翻译团队还建了一个M4模型。M4模型由团队在2019年提出，该模型对100多种语言的250亿对句子进行训练后，提高了30多种低资源语言的翻译质量。这一模型也证明了在机器翻译过程中可以使用迁移学习技术。这也意味着收集包括法语、德语和西班牙语，这些有数十亿个并行示例的高资源语言，并进行训练后，可以应用于翻译诸如约鲁巴语，信德语和夏威夷语，这些仅有数万个示例的低资源语言。

机器翻译的未来

谷歌称，自2010年以来，翻译质量每年都在提高，但是机器翻译绝不是翻译问题的“终结者”。谷歌承认，即使是增强后的模型也容易出错，包括将一种语言的不同方言混合在一起，产生过多的直译，以及在特定主题，非正式或口语上的表现不佳。

谷歌尝试用不同的方法来解决上述的问题。公司曾发布一项计划旨在招募志愿者，通过检查翻译单词和短语是否正确来帮助提高低资源语言的翻译性能。今年2月份，谷歌翻译与新兴的机器学习技术相结合后就完成了进步，他们提供了仅有7500万人使用的五种语言翻译，例如Kinyarwanda（卢旺达语），Odia（奥里亚语），Tatar（鞑靼语），Turkmen（土库曼语）和Uyghur（维吾尔语）。

追求真正通用翻译的并不只有谷歌一家。在2018年8月，Facebook发布了一种AI模型，该模型结合了逐词翻译，语言模型和反向翻译，在语言配对方面表现优异。最近，麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型，即可以从未经明确标记或分类的测试数据中学习的模型，该模型可以在两种语言的文本之间进行翻译，而无需在两种语言之间直接进行翻译。

谷歌揭秘自家翻译系统：如何利用AI技术提高翻译质量 / 头条资讯

15次

《环境与发展》杂志2020年03期最新目录订阅

安全阀被堵塞，SpaceX更换载人任务火箭两部发动机

若中国先研制出疫苗咋办?特朗普:我们愿与中国合作

2020国际汽车轻量化大会闭幕专家达成两点共识

美团取消支付宝支付与阿里1%的爱情彻底分手了？

麦德岳接任一汽-大众销售公司执行副总经理

大量用户反馈QQ号被冻结因业务违规操作你的QQ还好吗?

小鹏汽车亮底牌叫板特斯拉不评论IPO传言

看好欧洲市场特斯拉德国布局V3充电站

“双赢”就是中国赢两次这句话到底是谁发明的？

潘占福/郭永锋履新一汽-大众新管理层搭建完成

微型纯电动车市场大变欧拉白猫“命悬一线”？

安倍承认病情复发：不希望像上次那样突然辞职

棰勮鎶曡祫瓒?浜挎鍏?瀹濋┈鎵╁ぇ鍦ㄥ痉鐢靛姩杞﹂浂閮ㄤ欢浜ц兘

贵州省委书记：打造以茅台为引领的酱香型白酒核心产区

新冠疫情再暴发特朗普支持者：我们错了

《董事会》杂志_董事会2023年03期杂志封面

联手虎扑线下轰趴哈弗大狗定义“不潮不花钱”

超越苹果三星！小米6月手机市场份额全球第一

江淮汽车和大众中国拟向江淮大众增资超50亿元

马斯克宣布特斯拉将开始量产电动卡车未提上市日期

谷歌揭秘自家翻译系统：如何利用AI技术提高翻译质量 / 头条资讯

15次

《环境与发展》杂志2020年03期最新目录订阅

安全阀被堵塞，SpaceX更换载人任务火箭两部发动机

若中国先研制出疫苗咋办?特朗普:我们愿与中国合作

2020国际汽车轻量化大会闭幕 专家达成两点共识

美团取消支付宝支付 与阿里1%的爱情彻底分手了？

麦德岳接任一汽-大众销售公司执行副总经理

大量用户反馈QQ号被冻结 因业务违规操作 你的QQ还好吗?

小鹏汽车亮底牌叫板特斯拉 不评论IPO传言

看好欧洲市场 特斯拉德国布局V3充电站

“双赢”就是中国赢两次 这句话到底是谁发明的？

潘占福/郭永锋履新 一汽-大众新管理层搭建完成

微型纯电动车市场大变 欧拉白猫“命悬一线”？