火山翻译:打造AI地基之上的巴别塔
- 来源:电脑报 smarty:if $article.tag?>
- 关键字:火山翻译,AI,机器 smarty:/if?>
- 发布时间:2021-08-18 10:31
机器翻译新突破
8月5日,ACL2021正式颁发“最佳论文”奖项,字节跳动AILab的机器翻译技术论文在3350 篇论文投稿中脱颖而出,当选今年度“最佳论文”。ACL大会由国际计算语言学协会主办,被视为自然语言处理与计算语言学领域最高级别的学术会议。多年来,自然语言处理被誉为“人工智能皇冠上的明珠”,在机器翻译、搜索、信息流、输入法等领域都有着广泛的应用。
自1949年信息论先驱WarrenWeaver发表翻译备忘录、提出机器翻译的可能性以来,机器翻译已经过了几十年的发展迭代,如今进入了一个可以运用“神经网络”和加入了“深度学习技术”的AI翻译时代。
不可否认的是,全球化的商业巨头已经走在了最前端。
字节跳动作为互联网新贵,机器翻译是其AI 能力发展程度的重要体现之一。该公司业务覆盖 150个国家和地区,员工也遍布全球各地。在其11 万名员工跨越语言障碍、顺畅交流协作的背后,字节跳动AILab火山翻译团队多年打磨的机器翻译模型的支持必不可少。
基于文本翻译、语音翻译、图像翻译、语种识别等技术能力,火山翻译推出了一系列形态多样的产品与服务,包括机器翻译云服务、智能视频翻译、智能同传等。此外,火山翻译还支持垂直领域的快速模型定制,能够满足不同群体和不同行业的翻译需求。
据火山翻译负责人王明轩介绍,内部很多大热的软件中都可以看到火山翻译的身影。无论是在泛娱乐端还是工具端的应用,火山翻译多语言互译的速度和准确度都经受住了考验。
如今,火山翻译已经上线了56门语种之间的互译,支持的语向翻译多达3080个。据透露,今年内火山翻译上线语种将超过150个。值得一提的是,火山翻译不需要英语等通用语作为中间语,可以支持任意两个语种之间的互译,大大提高了翻译速度。
火山翻译的前沿技术也获得了学术界认可。今年共有9篇论文被ACL2021接收,就是由AI Lab的NLP基础研究团队和火山翻译团队合作实现的。由字节跳动AILab提出的一种新的词表学习方案VOLT,更是获得了年度唯一的“最佳论文”奖项。这是ACL59年历史上,华人科学家团队第二次赢得最高荣誉。
王明轩透露,火山翻译现在每天都要处理数亿次翻译请求,可以说每一个上线语种都经过了实际用户的检验,“因此,稳定和高质量的翻译服务是我们必须提供的保障”。
持续不断地为用户提供高水平翻译服务靠的不是运气,而是火山翻译背后强大的技术支撑和工程能力,以及字节跳动开放体系的联动支持。
技术底色支撑应用落地
火山翻译之所以能在近年快速落地,实现商业价值,离不开其浓厚的技术基底。
微软技术学院院士黄学东曾表示,一家公司构建的翻译系统效果如何,主要取决于两点:一是数据是否够全、够多;二是算法是否足够好。
海量数据是AI自我迭代不可或缺的基础,由于背靠字节全球化布局,火山翻译可以获得更好的AI训练结果,并从AI赋能中率先获益。
同时,得益于字节跳动多年机器学习和自然语言处理领域的深耕,其AI团队拥有百余项技术发明专利, 在机器翻译技术上更是独创了 multilingualRandom Aligned Substitution Pre-training(mRASP)多语言预训练算法,把几十种语言语料融合在一起训练,获得的模型在具体语对上微调取得了44个语对的业界最佳性能。
据悉,目前研究界主流的多语言翻译模型主要在英语相关的语对上进行训练。这样的系统通常在英语相关的语向(有监督语向)上表现不错,而在非英语方向(零资源方向)的翻译效果不佳。针对这个问题,火山翻译团队近期提出了更简洁优雅的大规模多语言预训练新范式mRASP2,通过引入对比学习,辅以对齐增强方法,将单语语料和双语语料囊括在统一的训练框架之下,旨在充分利用语料,学习更好的语言表示,并由此提升多语言翻译性能。
这一多语言预训练新范式运用在机器翻译时,就像是一个精通两三门语言的人类学者,在学习另一门语言时,速度就会更快。“人类在多语言学习过程中会自发去总结语言学习中比较抽象的共性,再去学习新语言的特性。因此想要提升个人语言学习能力,往往需要学习更多的语言。”火山翻译就将这一规律植入神经网络翻译中,创造出了一个统一的具备多种语言能力的模型,在遇到新的语言时,临时少量学习即可达到很流利的语言水平。
这意味着,无论是语料库丰富的通用语言,还是训练数据稀缺的小语种,机器都可以通过这一新范式,把翻译能力迁移到不同语言上,使不同语言之间的信息互相利用,完成学习迭代。
随着语种数量增加,翻译任务增多,对机器自然语言处理任务的能力水平也提出了新的要求。
早在2019年12月,火山翻译团队曾经开源过一款Transformer类模型推理加速引擎LightSeq。作为业界第一款支持多种模型和解码方法的推理加速引擎,LightSeq的推理速度快于其他同类软件,更是远远超过了TensorFlow和PyTorch。
最近,LightSeq发布了最新版本,引入了引擎方面的重大更新———支持了Transformer全流程训练加速,在不同的批处理大小下相比主流训练库最高可加速3倍多,是业界目前最快的推理和训练引擎,可以把推理速度提升10倍。
训练速度快,指的是模型更迭比较快;推理速度快,就是指用户体验到的翻译速度更快。至此,从训练到推理部署的整个过程都已被LightSeq2.0打通。
从用户端来看,LightSeq2.0可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多文本生成场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业运营服务成本。
“ 以翻译任务为例,LightSeq2.0相比于 TensorFlow最多可以达到14倍加速。同时领先目前其他开源序列推理引擎, 例如最多可比Faster Transformer快1.4倍。”王明轩介绍,训练英法翻译模型,PyTorch之类的框架需要一周,火山翻译只需要两天多;而翻译一句话,16层的神经网络业界普遍需要600ms,LightSeq2.0只需要80ms。
总结起来,在各类场景中至关重要的火山翻译产品,都离不开技术团队的精心打磨。核心是大规模多语言预训练新范式mRASP2与推理和训练引擎 LightSeq2.0的结合,保证了语种的多样性以及互译的精确度, 辅之以并行文本生成能力Glancing Transformer模型(GLAT)、端对端语音翻译工具包 NeurST等多项机器翻译前沿技术,使火山翻译多次得到市场及学术界的认可。
在国际机器翻译大赛WMT2020上,火山翻译团队一共获得七项冠军;今年的WMT2021大赛,火山翻译通过强大的并行文本生成能力GLAT,在受限资源赛道夺得德语到英语方向翻译比赛自动评价第一。
技术开源,推动行业发展
火山翻译团队由分布在全球各地的科学家和工程师组成,平均年龄不到30岁,均有各大科研机构和大型企业任职经历,但负责人表示,火山翻译的成就很大程度仍归功于字节跳动整个公司在技术端的开放。
“字节跳动是一个开放的架构,很多技术都会在内部共享,比如字节人工智能实验室(AILab)的前沿机器翻译技术。”王明轩介绍,AILab为公司今天现有的产品和业务提供核心技术支持和服务。
在WMT2021上大放异彩的并行文本生成能力 GLAT,就是火山翻译团队和AILab其他研究团队合作的技术产出。其实,AILab已将很多AI技术应用到实际产品中,用户相对比较熟悉的可能是在抖音、今日头条、西瓜等App中的应用,火山翻译也是字节跳动AI技术在产品研发层面的成功落地案例:通过内部技术研发、产品经理、产品运营等专业团队形成一条“前沿技术+产品研发+运营反馈”的闭环。
除了支持公司产品和内部办公以外,火山翻译将技术和服务能力集成于字节跳动旗下的ToB技术服务平台火山引擎中,将火山同传、火山翻译API、火山翻译Studio等在内的一系列矩阵产品开放给更多行业的企业用户们。
好的技术需要匹配好的工程能力来实现落地。有赖于火山引擎更加接近客户端的反馈,火山翻译的技术、工程团队也可以打磨出更符合市场需求的解决方案。比如在去年12月12日,日本艺术家村上隆首场中国直播,吸引了百万用户的关注,这场跨国直播的成功也离不开火山翻译提供的高质量实时智能同传字幕。
为了给用户更专注的体验,免受翻译字幕跳动带来的视觉干扰,火山同传根据应用场景做出定向技术优化,创新性地推出了“影院级字幕”方案。据介绍,在村上隆的直播中,火山翻译团队除了采用前沿的神经网络机器翻译技术进行模型训练外,还针对直播场景引入了领域适应技术,将村上隆以往的访谈和演讲数据用于优化算法,并对口语规范化、专业术语定制都进行了特殊优化处理,确保最终呈现的字幕能够简洁、精准。
玉成于开放的技术体系,火山翻译也选择用更开放的态度推动产业发展。
“开源是推动科技进步的重要力量,我们受益于开源,更需要为开源社区做出贡献。”王明轩表示,字节跳动已经把包括LightSeq系列项目在内的多种技术开源,与各界共享技术成果,希望能帮助广大科研人员节约时间成本,为学术界和产业界激发创造力提供有力支持。
构建B端增长曲线
在技术团队的研发和实际案例的锻炼后,火山翻译逐渐有了较为全面的覆盖能力和场景适应性,对于产品的市场化方向,团队也有了更清晰的认知。
“我们一直致力于更加行业化、个性化地解决用户的需求,为B端客户创造更大的价值。”王明轩表示,B端的营收更加稳定,市场更广阔,在未来2到3年内是火山翻译主要的覆盖目标。
面向普通用户,火山翻译也推出了AR智能翻译眼镜以及火山翻译浏览器版本,让用户体验最新技术成果。“但C端更多是辅助作用,主要目标市场还是 B端。”
选择B端市场也是字节跳动的下一增长曲线所在。火山引擎各类技术的开放,意味着字节构建B端业务的步伐正在加快,服务体系也愈加成熟。
近年来,互联网科技巨头们的商业化路径逐渐清晰,先是聚集规模流量变现(比如广告),接下来是挖掘技术的价值(大数据、云计算等更底层的基础设施)。这条路是亚马逊、阿里巴巴、腾讯等前辈们走过的,在这个马太效应依旧明显的ToB市场里,年轻的字节跳动必须锚定优势才能进行差异化竞争。
火山引擎定位自己为“企业智能增长服务”,而增长,正是商业世界所渴求的,也是字节跳动在短短几年内创造的神话。
在现代工业物流体系下,商业增长不可能离开信息的获取。在过去的几年中,机器翻译让国际贸易增加了10%,而现今世界仍有上千种语言未能实现本地化,被称为“长尾语言”,本地化意味着可以与说同一种语言的人群进行更广泛的交流。一个很好的例子是,在非洲,斯瓦希里语已成为一种普遍的交流用语,实现斯瓦希里语的本地化意味着1600万以其为母语的人和8200万以其为第二语言的非洲人建立起了沟通。
当然,获取新信息的需求对于每个地区的人们都存在,“全球现存有5000多种语言,400多种文字, AI加持下的机器翻译是打破这种信息障碍,使不同语言的人们可以进行交流,了解对方的理想方式。” 王明轩表示,除了商业意义之外,火山翻译更希望能够让大众体会到机器翻译给日常生活带来的便利,真正做到消除语言障碍,实现无国界沟通。
