我永远不会忘记那天,我把Avid ProTools系统带进我们的演播室,我的搭档说“计算机绝不可能比老式的刀片编辑器更快。”演播室里有两台计算机:一台是会计用的,另一台是控制24轨磁带录音机上的主导轴电机,使其与一台录像机和时间码同步的粗糙的设备。
那时是20世纪80年代初:转播车里没有计算机,每一台设备都是模拟的。录像带编辑是机器对机器,需要一个操作员——视频通过一台切换台,而音频通过调音台。音乐通过 NAB Cart(一种磁带录音格式)播放。我记忆中在转播车里的第一台所谓的“计算机”其实是来自硬盘驱动器上的DigiCart即时回放系统。
经过几十年的计算机化和IP在整个广播生态系统的实现,创新已经把我们置于一切都是计算机化之地,并且我们已经看到计算机控制计算机的概念。计算机控制计算机不是什么新鲜事,但机器学习是。对我来说,这让我想起了库布里克的《2001年:太空漫游》。
声音作为一种指标
人工智能(AI)在体育领域的应用已经有一段时间了。例如,在温布尔登,计算机聆听和观看网球比赛,并通过应用各种度量标准识别令人兴奋的指标。这些指标引导计算机学习如何认出重要的兴趣点,以及什么可以造就好的集锦或回放。
有趣的是,声音是一个主要和可靠的指标。例如,在长时间的安静间歇后人群中出现的喧嚣是一个值得记住的精彩时刻的很好指示。我的逻辑指标之一还包括人群爆发音的持续时间,以及在关注时刻的声音振幅、阈值、力度和持续。
此外,与迅速消失的沮丧叹息相对的人群持续尖叫声音调变化,是另一个有价值和可识别的指标。通过这些简单的学习指标,计算机在十多次甚至100次的重复之内就能准确预测出一个好的精彩时刻。
我认为2018年我们已离AI很接近了。朗沃(Lawo)开发了一种混录系统,可以获取球的位置(或任何有兴趣的跟随目标)的数据,并将其转化为捕获来自最佳话筒或话筒组合的尽可能好的声音,并且决定将它们混合在一起的电平。跟踪球采用光学技术,在足球这样的运动中,比赛的焦点是球——基本上你告诉计算机跟随球。
不可否认,2018年世界杯是我听过的最好听的足球赛。主转播机构(HBS)的克里斯蒂安·戈贝尔、菲利克斯•克鲁克斯和朗沃团队在广播声音领域实现了一个真正的范式转变,但我认为朗沃 CEO 菲利普·劳还在做别的有重要意义的事情。
SALSA算法
另一种推进自动化的有意义方法是“空间自动化现场体育音频”,它使用球场四周现有的枪式话筒检测球场周围踢球声。该系统不仅寻找总声级强度,而且还寻找调音台可能想要捕捉的每种声音事件类型各个频带的声频谱包络。 SALSA算法能够检测到在话筒信号上几乎听不到的踢球声,而且在识别声音事件方面比人耳更可靠。
在现场制作过程中,SALSA使用两种方法中的一种:它可以自动化操作调音台的推子捕捉每一个场上声音事件,或者利用踢球声的频率/包络信息触发预制作的样本。这些声音可以添加到球场上的声音,或者如果你想让它听起来像EA体育游戏或天空电视台周六下午的比赛,也可以取代游戏的声音。这取决于作为声音设计师和消费者的你。
现在,让我们来看看AI在体育转播中的另一种可能性。在计算机分析一个导播风格样本的切换模式并将导播的命令与广播摄像机视场内的球位置进行比较时,AI开始发挥作用,计算机将导播的选择存档,供未来学习。
在很短的时间内,模式将被检测、检查并编入事件周期,以控制摄像机的方向。一个基本的“追球”模式被学习,不过,似乎可以通过混合和改变制作风格修改制作。我曾经与一名导播合作过,他的切换风格有规律和重复,在3个小时的比赛过程中重复了十几次以上的模式。
我可以清楚地想象终有一天,机器人和机器人计算机能够捕获、导播和制作直播体育赛事,几乎不需要人工干预。让我们遵循这个流程;摄像机器人支持系统已经存在一段时间了,没有理由摄像机和音频不能遵循跟随踢球动作的计算机的电子指令。
想象一下这样一种可能的场景:计算机在计算,在一次射门后,10个导播中有7个会切换到广角镜头,同时光学位置跟踪不断发送比赛场地的导播机器人映射数据。“导播机器人”引导摄像机X、Y和Z跟拍球,同时引导摄像机A和B跟拍教练。
此外,摄像机A和B捕获来自教练员的音频并将此信息发送给导播机器人,导播机器人学习教练的模式以及何时切到教练。导播机器人有一个每个球位置的可能性库,并进行比较。
实时比赛报道可能包括由一台摄取所有数据并人工创建解说音轨的计算机播出的语音解说。语音合成技术已经存在一段时间了,一旦你有了光学跟踪技术,就可以相信你能够创建解释比赛详情的机器人解说员和声音再合成,完成整个体验——替代现实。
我的未来愿景描绘了一幅与我/我们所知不同的音频科学、艺术和实践情景,但我相信我的猜测可能会成为现实。
……