辛先森科技说|百种语言互译，FB开源首个单一多语言MT模型，不以英语为中心机器之心报道机器之心编辑部FacebookAI

机器之心报道
机器之心编辑部
FacebookAI近日开源了多语言机器翻译模型M2M-100 ，该模型不依赖以英语为中心的数据，可以实现100种语言之间的相互翻译。

文章图片
机器翻译（MT）打破了人类之间的语言障碍。如今，平均每天需要在Facebook新闻提要上提供200亿次翻译，这得益于低资源机器翻译领域的发展以及评估翻译质量的最新进展。
典型的MT系统需要为每种语言和每种任务构建单独的AI模型，但这种方法无法在Facebook上进行有效推广，因为人们在数十亿个帖子中发布超过160种语言的内容。先进的多语言处理系统能够同时处理多种语言，但由于依赖英语数据来弥合源语言和目标语言之间的差距，在准确性上会有所折中。
因此，我们需要一种可以翻译任何语言的多语言机器翻译（multilingualmachinetranslation,MMT）模型，从而更好地服务于全球近三分之二不使用英语的人们。
近日， Facebook根据多年对MT的研究宣布实现了一个重要的里程碑：首个单一的大规模MMT模型，该模型可以实现100x100个语言对的直接翻译，而不依赖以英语为中心的数据。这个单一的多语言模型表现得和传统双语模型一样好，并且比以英语为中心的多语言模型提高了10个BLEU点。
具体而言，通过使用新的挖掘策略来创建翻译数据，该研究构建了首个真正的多对多数据集。该数据集拥有100种语言的75亿个句子。研究者使用可扩展技术来建立具有150亿个参数的通用模型，它从相关语言中捕获信息，并反映出更加多样化的语言文字和词法。目前，这项研究已经开源。

文章图片
论文主页：https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation
GitHub地址：https://github.com/pytorch/fairseq/tree/master/examples/m2m_100
挖掘语言方向
构建多对多MMT模型的最大障碍之一是：在任意方向翻译大量的高质量句子对（也称为平行句），而不需要涉及英语。从中文到英文、从英文到法文的翻译要比从法文到中文容易得多。更重要的是，模型训练所需的数据量会随着语言数量的增加而呈二次增长。例如，如果每个方向需要10M句子对，我们需要挖掘10种语言的1B句子对和100种语言的100B句子对。
该研究建立了多样化的多对多MMT数据集：跨越100种语言的75亿句子对。通过结合互补的数据挖掘资源：ccAligned、ccMatrix以及LASER 。此外该研究还创建了一个新的LASER2.0并改进了fastText语言识别，提高了挖掘质量，并开放了源代码的训练和评估脚本。所有的数据挖掘资源都利用公开数据集，并且都是开源的。

文章图片
多对多数据集和多语言模型示意图。
尽管如此，即使使用了像LASER2.0这样先进的底层技术，为100种不同语言的任意对（或是4450种可能的语言对）挖掘大规模训练数据仍然需要大量的计算。为了使这种数据挖掘规模更容易管理，该研究首先关注翻译请求最多的语言。因此，以最高质量的数据和最大数量的数据为优先挖掘方向。该研究避开了在统计上很少需要翻译的方向，比如冰岛语到尼泊尔语翻译，或者是僧伽罗语到爪哇语的翻译。
桥梁语言策略
接着，研究者提出了一种新的桥梁挖掘（bridgemining）策略，其中按照语言分类、地域和文化相似性将100种语言分成了14个语系。这样做是因为，同一个语系中的人（包含多种语言）往往交流更频繁，并将从高质量翻译中收益。举例而言，一个语系中将涵盖印度境内使用的孟加拉语、印地语、马拉地语、尼泊尔语、泰米尔语和乌尔都语等多种语言。研究者系统性地挖掘每个语系中所有可能的语言对。