人工智能解读唇语，不止能解码语音和语言翻译

来源:读者新周刊
关键字:人工智能,唇语
发布时间:2016-12-21 14:05

　　使用人工智能来解码语音和语言已有先例，而现在人们又能够根据人工智能来解读唇语。

　　【谷歌DeepMind的读唇术】

　　谷歌最近与英国牛津大学合作开发一套读唇软件，通过让DeepMind收看数千小时BBC的电视节目来开启这一技能点。可怕的是，DeepMind不仅学会了，还比读唇专家做得出色！

　　你或许认为，AI要进过几千小时的训练才能掌握这一技能，看来也不是很厉害嘛。但是要知道，在同样随机抽取的200个视频片段的测试中，AI读唇系统的准确率达到46.8%，而经过专业训练的人类读唇专家，准确率也仅为12.4%。DeepMind团队表示这套系统除了可以帮助听力损伤人群外，还能应用于其他方面，比如注释电影或者利用唇部动作与Siri这样的数字助理进行沟通等。

　　DeepMind的读唇软件并不会被用来做监听，毕竟与其如此大动干戈，不如直接用麦克风监听更为简单有效。

　　谷歌不久前推出了多语言之间机器翻译系统。该系统被成为“Zero-Shot翻译系统”，并具有自我学习能力。它能将未学习过的两种语言翻译成一种已经学习过的语言。换言之，通过人工智能训练学习了如何实现Ｘ语言对Ｙ语言的翻译后，系统就能立即自动掌握从Ｘ到Ｚ语言的翻译。Google Brain的博文把这项翻译技术称为神经机器翻译系统（简称GNMT）。

　　【法国国家科学研究中心的语音合成器】

　　据外媒报道，一种新型的语音合成器可以跳过语音记录，而直接将说话者嘴部动作转换为语句。研究人员表示，该设备将能帮助声带麻痹患者发声，向脑机接口又迈进一步。描述该装置的研究发表在《PLOS计算生物学》期刊上。

　　这项研究的作者来自法国国家科学研究中心。文章中提到，“这种语音合成器将人体主要语音发音器（舌、颚、口和嘴唇）的运动转换成智能语音。”说话者的发言，以及嘴部各个部位的位置会被同时记录，然后通过人工智能网络算法进行分析。

　　此处使用的人工智能算法是基于人类大脑建模的深层神经网络（DNN）。算法设计针对偏复杂的模式识别。该深层神经网络DNN通过测量舌头、下颚、软腭和嘴唇的协调动作（又称为“发音语音信号”）来识别嘴正在发音的某个词语。

　　作者解释道，DNN计算模型对这些测量的数据进行训练，将“发音语音信号”转换成“声学语音信号”，“这项研究中，我们让用于训练DNN模型的用户，以及陌生新用户都来测试语音合成器的实时控制性能，从而评估它在是否能很好地成为脑机接口的一部分。”语音脑机接口将能通过解码皮层的语言相关活动，实时控制语音合成器，从而帮助有严重发声障碍的人恢复交流。为帮助连声道都无法震动的患者“说话”，科学家将必须掌握如何解码大脑信号，并将其翻译成语音。（本文整理自爱活网、科技讯网）

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容