辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心

机器之心报道
机器之心编辑部
FacebookAI近日开源了多语言机器翻译模型M2M-100 , 该模型不依赖以英语为中心的数据 , 可以实现100种语言之间的相互翻译 。
辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心
文章图片
机器翻译(MT)打破了人类之间的语言障碍 。 如今 , 平均每天需要在Facebook新闻提要上提供200亿次翻译 , 这得益于低资源机器翻译领域的发展以及评估翻译质量的最新进展 。
典型的MT系统需要为每种语言和每种任务构建单独的AI模型 , 但这种方法无法在Facebook上进行有效推广 , 因为人们在数十亿个帖子中发布超过160种语言的内容 。 先进的多语言处理系统能够同时处理多种语言 , 但由于依赖英语数据来弥合源语言和目标语言之间的差距 , 在准确性上会有所折中 。
因此 , 我们需要一种可以翻译任何语言的多语言机器翻译(multilingualmachinetranslation,MMT)模型 , 从而更好地服务于全球近三分之二不使用英语的人们 。
近日 , Facebook根据多年对MT的研究宣布实现了一个重要的里程碑:首个单一的大规模MMT模型 , 该模型可以实现100x100个语言对的直接翻译 , 而不依赖以英语为中心的数据 。 这个单一的多语言模型表现得和传统双语模型一样好 , 并且比以英语为中心的多语言模型提高了10个BLEU点 。
具体而言 , 通过使用新的挖掘策略来创建翻译数据 , 该研究构建了首个真正的多对多数据集 。 该数据集拥有100种语言的75亿个句子 。 研究者使用可扩展技术来建立具有150亿个参数的通用模型 , 它从相关语言中捕获信息 , 并反映出更加多样化的语言文字和词法 。 目前 , 这项研究已经开源 。
辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心
文章图片
论文主页:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation
GitHub地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100
挖掘语言方向
构建多对多MMT模型的最大障碍之一是:在任意方向翻译大量的高质量句子对(也称为平行句) , 而不需要涉及英语 。 从中文到英文、从英文到法文的翻译要比从法文到中文容易得多 。 更重要的是 , 模型训练所需的数据量会随着语言数量的增加而呈二次增长 。 例如 , 如果每个方向需要10M句子对 , 我们需要挖掘10种语言的1B句子对和100种语言的100B句子对 。
该研究建立了多样化的多对多MMT数据集:跨越100种语言的75亿句子对 。 通过结合互补的数据挖掘资源:ccAligned、ccMatrix以及LASER 。 此外该研究还创建了一个新的LASER2.0并改进了fastText语言识别 , 提高了挖掘质量 , 并开放了源代码的训练和评估脚本 。 所有的数据挖掘资源都利用公开数据集 , 并且都是开源的 。
辛先森科技说|百种语言互译,FB开源首个单一多语言MT模型,不以英语为中心
文章图片
多对多数据集和多语言模型示意图 。
尽管如此 , 即使使用了像LASER2.0这样先进的底层技术 , 为100种不同语言的任意对(或是4450种可能的语言对)挖掘大规模训练数据仍然需要大量的计算 。 为了使这种数据挖掘规模更容易管理 , 该研究首先关注翻译请求最多的语言 。 因此 , 以最高质量的数据和最大数量的数据为优先挖掘方向 。 该研究避开了在统计上很少需要翻译的方向 , 比如冰岛语到尼泊尔语翻译 , 或者是僧伽罗语到爪哇语的翻译 。
桥梁语言策略
接着 , 研究者提出了一种新的桥梁挖掘(bridgemining)策略 , 其中按照语言分类、地域和文化相似性将100种语言分成了14个语系 。 这样做是因为 , 同一个语系中的人(包含多种语言)往往交流更频繁 , 并将从高质量翻译中收益 。 举例而言 , 一个语系中将涵盖印度境内使用的孟加拉语、印地语、马拉地语、尼泊尔语、泰米尔语和乌尔都语等多种语言 。 研究者系统性地挖掘每个语系中所有可能的语言对 。