广播的音频数字化采集压缩技术发展及实际应用趋势

  • 来源:传播与制作
  • 关键字:音频,数字音频,广播
  • 发布时间:2014-10-22 12:56

  【摘要】 本文从与广播相关的一些基本知识和概念谈起,介绍了当前广播电台音频数字化采集和压缩的相关技术和方法,说明了数字音频技术在电台广播中的应用情况。本文最后指出,互联网音频网络广播是电台广播发展的一种技术延伸,特别是发展高品质的网络数字音频广播将是广播电台一次新的发展机遇。

  【关键词】音频 数字音频 音频数字化采集 广播电台 PCM MPEG MP3 有损压缩 无损压缩 互联网声卡 采样 DRA

  一.引言

  人类每时每刻都在感受着来自外界的各种信息,这种感受的方式主要有视觉、听觉、触觉等。为了更便捷和更广泛地获取外部信息,人们发明了电视机、收音机、因特网(互联网)等,今天五光十色的多媒体世界成为人们获取外部信息的一个重要窗口。为了满足人们的听觉需要,电台广播早已经是无处不在。研发优质高效的音频数字化采集、压缩技术是做好电台广播的基础。

  二.基本概念

  谈到电台广播,首先需要了解一些与电台广播相关的基本知识和概念。比如:什么是音频?声波与光波有什么区别?什么是声音的速度?什么是无线电波?……

  我们说音频是针对人耳能听到的声音而言的,这种声音可以是人自己发出的,也可以是自然界发出的,比如说话声、唱歌声、鼓掌声、风声、雨声和水声等。而人耳能够听到的声音一般是指20Hz至20kHz范围内的声波(声音波)。

  当然,这并不排除有些人能够听到更高频率或更低频率的声波,自然界很多动物能够听到更宽频率范围的声波。更高频率的声波叫做超声波,更低频率的声波叫做次声波,超声波和次声波一般人都是听不见的。图1是声波电子化显示以后人们看到的图像。

  声波属于机械波范畴,波随时间作周期性的变化,在一个震荡(变化)周期中传播的距离叫做波长。震荡周期的倒数则是每秒钟震荡变化的次数,即:频率(单位:赫兹,Hz;1赫兹即一秒钟震荡变化1次)。波长与频率的乘积就是波每秒钟传播的距离,即:波速。

  声波的传播需要传播介质,并且声波在不同的介质中传播的速度是不一样的,在15℃的空气中的传播速度(声速、音速)是340米/秒(空气中音速的计算公式:在1个大气压、相对湿度为0的条件下,V=331+0.6T,V是声音的速度,单位是“米/秒”,T是摄氏温度),而在25℃蒸馏水中的速度则是1497m/s。

  那么无线电波又是什么呢?1888年,德国物理学家海因里希·鲁道夫·赫兹利用自己设计的“天线”验证了麦克斯韦的电磁理论,从而证实了电磁波的存在,即发现了无线电波,无线电波属于电磁波的一部分。电磁波的范围很广,甚至人的眼睛所能感受的光波也属于电磁波范畴。1895年意大利的马克尼和俄国的波波夫在不同的地方都成功发明了无线电,创造了无线电波的实际应用。电磁波按照频率从低到高,或按照波长从长到短,依次包括:无线电波、红外线、可见光、紫外线、x射线、伽玛射线和宇宙射线,等,此连续的顺序排列即构成电磁波谱。其中的无线电波又分为:长波、中波、中短波、短波、米波、微波等几种;可见光则分为:红、橙、黄、绿、青、蓝、紫,等几种可见光。电磁波的传播速度是:30万公里/秒(真空中)。

  也就是说,看不见摸不着听不见的无线电波的波长一般是指:100km~0.1mm之间,而频率则是在:3000Hz~3000GHz之间的电磁波。

  因此我们看到,同样都是50Hz的声波和电磁波,声波在空气中的传播速度可以是340米/秒,而电磁波却可以是30万公里/秒。二者是有本质区别的。换句话说,人能够直接听到15kHz的声波,却不可能听到15kHz的电磁波。电磁波(包括光波)的传播是不需要介质的,而声波却需要,因此声波无法在真空中传播,而电磁波却可以在真空中传播。

  随着无线电发明成功,利用无线电波,将声音传送到远方的收听人那里,就是电台广播所要完成的任务。没有无线电波的帮助,广播电台播音员的声音以及播放的音乐等都是不可能立即传到很远的地方让收听人听见的。

  那么电台广播是如何传播音频声音的呢?简单说来可以分为如下四个主要步骤:首先将声音信息转变为音频信号,然后将音频信号利用无线电波发射出去,第三是将无线电波接收下来,最后是把无线电波里携带的音频信号还原为声音播放出来。形象一些来说,就是用话筒采集声音,用电台发射带音频内容的无线电波,用收音机接收无线电波,用喇叭还原播放声音。

  三.音频的数字化采集

  广播电台最早的音频广播是模拟广播,也就是音频声音通过话筒(麦克风)转变成模拟音频信号,通过调制将音频信号加入无线电波当中,随后经过发射和接收过程,无线电波中的模拟音频信号被解调出来,最后经过信号放大之后将音频声音通过扬声器(喇叭)重新播放出来。

  电台模拟广播在传输过程中会受到外界的多种干扰因而产生质量损耗,从而使得最终播放出来的声音出现噪声和失真现象,没有原始的声音真实好听。

  那么有没有比模拟广播更有优势的广播方式呢?随着模拟信号数字采样理论和技术的建立与发展,随着计算机技术的突飞猛进,使得高质量的电台广播成为可能。

  美国物理学家奈奎斯特于1928年提出对连续信号(模拟信号)的采样定理,指出如果对某一带宽的连续信号进行采样,当采样率达到一定数值后,可以根据这些采样值完全恢复原始的连续信号,并且这个采样率至少应为原始连续信号最高频率的两倍。

  而针对模拟音频的数字编码采样则可以追溯到1937年,当时的法国工程师Alec Reeres提出“脉冲编码调制”即:PCM(Pulse Code Modulation)。1946年PCM技术开始被应用在数字电话的语音通讯上。

  电台广播的PCM应用则应该是从CD唱盘(即:CD-DA激光唱盘)的播放开始。CD唱盘系统首先把模拟的音频信号进行PCM(脉冲编码调制)数字化采样处理,再经过相应编码之后记录到唱盘上。由于CD唱盘音质高且使用方便,很快就在广播电台的音乐节目播出中开始逐步替代先前模拟的录音磁带播出方式,特别是在电台的调频立体声广播中CD唱盘的使用更是受到欢迎。

  利用PCM技术虽然能将模拟音频信号采样成数字音频编码,但是由于PCM是对采样数据的全部完整保留,因此数据量非常大。一分钟的模拟立体声广播音频,如果采用CD-DA的PCM采样指标要,则应该采用44.1kHz的16位(bit)的采样频率和采样位数进行采样,这样的采样结果数据量将达到10MB多。如此大的数据量在早期的计算机中进行存储和处理是非常困难和耗费时间的,所以早期的音频数字化采集并不现实。

  因此,广播电台音频数字化采集的实际应用应该说是从计算机音频工作站出现和普及后逐渐开始的。这个过程还要归功于上世纪八十年代初计算机声卡的发明。简单而言,声卡就是用于实现模拟音频与数字音频信号之间相互转换(即:AD-DA转换,模数-数模转换)的一种计算机硬件(起初多以计算机接口卡的形式出现,现在则多采用计算机主机板集成声卡的方式)。

  由于计算机数字音频技术的出现,使得广播电台发展数字音频广播成为新趋势。在实现音频数字化采集之后,广播电台可以充分利用计算机处理数据的高速度、高精度和高可靠等优势,对节目进行音频数字化采集,从而为方便的高质量的节目编辑制作奠定了技术基础。广播电台现今的节目制作已经基本都是在计算机音频工作站上进行。

  经过音频的数字化采集,就可以得到音频的数字信号,利用这种数字信号对无线电波进行载波调制然后发射出去,接收端接收后再解调出数字信号最终再还原成模拟音频播放出来,从而实现全过程的数字音频广播。与传统模拟音频广播相比,数字音频广播具有抗干扰、质量高、发射功率低、频谱利用率高、音频数据便于存储、处理、复制和共享,等等诸多优点。

  四.音频的有损压缩与无损压缩

  根据奈奎斯特采样定理,如果对20Hz的音频进行采样随后再根据采样数据重新还原回这个20Hz的音频,那么采样频率应至少为这个音频频率的2倍,即:40Hz,也就是每秒钟需要进行40次的数据采样。同样,20kHz的音频就需要至少40kHz的采样频率来采样。

  由于音频频率的变化多是复杂和无规律的,因此在实际采样时对于20Hz至20kHz的声音均采用40kHz以上的采样频率即可实现对原音频的完整还原。这样也就不存在因采样频率不够(采样数据不足)而造成音频还原不完整,产生音频还原的信息丢失或损失。

  然而有了最低采样频率并不能完全实现音频的无损采样。这是因为需要对每个采样点都赋予一个准确的采样数值。然而这个采样数值(量化值)往往只能是近似得到,并不能十分准确,于是音频的数字采样便产生了量化失真。为了减少这种量化失真,就需要更多的数据位(bit)用以对采样点进行数值量化。CD-DA的量化精度(采样位数)一般是16bit。

  由于CD-DA采用的PCM音频数据编码技术可以最为真实地描述原模拟音频信号,于是这种编码技术被认为是数字音频中保真度最佳的数字音频编码技术,进而PCM也就被普遍认为是数字音频的一种无损编码。当然,如前所述,这并不意味着PCM音频数据编码技术就能够确保信号绝对保真,PCM音频数据编码技术也只能是最大程度地无限接近原始模拟音频。

  针对PCM数字化采集产生的大量数据,人们提出许多不同的压缩算法和处理方法,用于对PCM音频数字编码的音频数据进行压缩,并转换成新的数据压缩格式,从而达到缩小数据存储文件体积、节省存储空间的效果。而这种音频数据压缩一般分为两类,即:有损压缩与无损压缩。所谓有损压缩是指经过压缩后产生的新数据文件所保留的声音信息相对于原来的PCM数据格式的音频信息而言有所损失(还原后音频质量一般会下降);而无损压缩则是指经过压缩后产生的新数据文件所保留的声音信息相对于原来的PCM数据格式的音频信息而言完全相同,还原后的音频质量也就没有任何变化(无损)。

  如此说来,要想保证数字音频的良好还原性,需要在模拟音频数字化采集的时候采用合适的采样频率与足够的采样位数,这样保证能够得到与原模拟音频更相近的数字音频信息(音频数据),在此基础上采用适当的无损压缩或有损压缩技术得到最终符合要求的音频数据文件。一般来说,同样条件下,无损压缩的声音质量优于有损压缩的声音质量,而有损压缩的音频数据量小于无损压缩的音频数据量,两者在实际应用上各有利弊。

  值得一提的,对数字音频数据的有损压缩一般是以人的心理声学模型为实现基础的。因为不同声音虽然能够同时到达人耳,但人却不一定都能“听”到这些声音,这就是人的一种心理感觉。利用这个特点,压缩音频数据时用特定的算法将“听”不到的音频信息去掉(忽略这部分数据),只压缩保留那些能听到的声音。这样虽然一些声音损失掉了,但整体上人却几乎感觉不出来。当然这只是一种模型,不同的人其实还是有差别的,毕竟有些声音还是损失掉了。要不然那些喜欢欣赏模拟音频的发烧友们也不会一直对数字音频抱怨至今了。

  五.几种常用的音频压缩数据格式

  对于音频压缩数据格式的研究主要是遵循数字音频的有损压缩和无损压缩两条路线。为了保证良好的音频还原性,音频无损压缩得到广泛重视;另一方面,为了在保证尽可能好的音频还原效果的同时,而尽可能地缩小音频压缩数据量,哪怕忽略还原音频的微小损伤,同样得到广泛研究。

  目前无损压缩格式有:APE、FLAC、Wav Pack、LPAC、WMA Lossless、Apple Lossless、La、Optim FROG、Shorten、AAL(ATRAC Advanced Lossless),等。而常用和比较流行的无损压缩格式目前一般是APE和FLAC。

  APE是由Monkey‘s Audio出品的一种得到公认的无损音频压缩格式,主要用于音频CD的音频数据提取压缩,其特点是还原后的音乐数据与压缩前完全相同,没有任何损失。APE的压缩比率一般为55.50%。

  FLAC(Free Lossless Audio Codec)是一套著名的自由音频压缩编码,可以实现数字音频的无损压缩。FLAC的压缩比率达到58.70%。

  需要指出的是,微软和IBM公司共同开发的WA VE音频格式(数据文件后缀是:WAV),它采用RIFF(Resource Interchange File Format)文件格式结构,这种格式较灵活,它对音频数据的编码没有硬性规定,除了支持PCM之外,几乎所有支持ACM(Audio Compression Manager)规范的编码都可以为WAV的音频数据进行编码,甚至是一些有损编码,如MP3。因此,当WAVE支持PCM时,即是无损编码格式,而支持有损编码时又成为有损编码格式。简单地将WAVE格式说成是无损压缩格式其实是不准确的。很多无损压缩格式之间数据的相互转换一般都是先转换为WAVE格式然后再转换为相应的无损压缩格式,其中的WAVE格式一般采用的是支持PCM数据格式。

  有损压缩格式比较常见的有:MP3(MP3 PRO、MP3 SURROUND)、AAC(*.3gp/*.mp4/*.m4v)和ATRAC3/ATRAC3 plus(*.aa3),等等。

  MP3应该算是目前应用最大众和最广泛的有损压缩数字音频格式了。1987年德国Fraunhofer研究院研制成功一种有损压缩数字音频格式,并于1989年获得专利。该格式起初并不完善,像是一个编码的标准框架留待人们去完善。1992年,这一技术并入MPEG规范后才有了正式名号:MP3,全称MPEG(Moving Picture Experts Group)Audio Layer-3。

  其实,在MPEG规范中还有其它的有损压缩格式。MPEG格式起初打算开发四个版本:MPEG-1至MPEG-4,以适用于不同传输带宽和播放质量要求。由于技术发展,MPEG-3最终被放弃。因此,后来只发布有三个版本的MPEG格式:MPEG-1(一般可以直接称作MPEG,国际标准ISO/IEC11172)、MPEG-2(国际标准IOS/IEC13818)和MPEG-4(国际标准ISO/IEC14496)。此外,MPEG规范还发布有:MPEG-7和MPEG-21等国际标准。

  在MPEG-1中包括有系统、视频、音频、测试和软件模拟等5个部分的技术规范描述。在其中第3部分的音频(Audio)技术规范部分,又包括有3层(Layer)不同的音频编码技术规范。即:MPEG-1 Audio Layer I、Layer II和Layer III,简称:MP1、MP2和MP3。

  大名鼎鼎的MP3的真正出处即源于此。MP3虽然压缩比率较高,压缩后的数据量较少,但它起初的音频压缩质量并不好,音频质量损失比较严重,经过不断改良,音频质量有了明显改善,目前发展有MP3 PRO和MP3 SURROUND等优秀压缩算法。特别是MP3 SURROUND使用binaural Cue Coding(BCC)技术心理声学编码,可以在实现多声道环绕的同时保证压缩数据文件的大小。MP3 SURROUND技术实现了5.1声道环绕的高品质音频。

  AAC(Advanced Audio Coding)即:高级音频编码。AAC可以同时最多容纳48个通道的声音,采样率可达96kHz,提供更高的采样率和解码效率。它可以在比MP3格式数据量还小30%的情况下提供更好的音质。在MPEG-2中以AAC作为音频编码规范。符合AAC音频数据格式的文件后缀一般是:3gp、MP4和m4v等。由于AAC属于有损压缩,相对于APE和FLAC等无损格式,声音的“饱满度”差距比较大。面对数据传输速度更快的USB3.0和16G以上大容量MP3播放机的加速普及,AAC“小巧”的优势在逐渐变弱。

  ATRAC3/ATRAC3 plus主要在SONY产品中广泛采用,后者是前者的升级(压缩率更高)。ATRAC3 plus由于算法先进,在音质上较MP3具有一定的优势。在此基础上发展的AAL(ATRAC Advanced Lossless)则可以同时支持无损压缩。

  此外,在互联网数字音频流数据压缩中比较流行的是WMA(Windows Media Audio)和RA(Real Audio)等音频压缩编码格式。当然,这些也属于有损压缩方式。

  上述各种数字音频压缩技术均属于国外的技术,深圳的数字音频编解码技术国家工程实验室(简称“NELA实验室”)进行的一系列以编解码为核心的数字音频技术研究工作也取得良好成绩。特别是2008年12月颁布的中国数字音频国家标准(GB/T22726-2008,同SJ/T11368-2006),即:DRA。DRA的主要技术指标是:8至192kHz采样频率范围、24bit采样位数(精度)、比特率范围是24k至6Mbps、支持最大64.3声道。DRA技术可以在每声道64kbps的码率时即达到EBU(欧洲广播联盟)定义的“不能识别损伤”的音频质量。该国家标准的制定对电台广播进一步的数字音频技术应用发展提供了新的技术尝试。

  六.数字音频技术在电台广播中的应用

  电台广播从无到有走到今天,创造着从调幅到调频,从单声道到立体声,从模拟到数字的广播发展变革。特别是今天,电台广播正处在无线、有线和网络共存共发展的时期。数字音频技术的广泛应用为广播电台的未来发展提供了新的舞台。

  数字音频工作站的普及使用是广播电台数字音频技术应用发展的一个重要标志。电台人员通过数字音频工作站可以对音频节目素材进行方便的采集、编辑甚至是节目播出。

  目前,国内广播电台主要采用的专业数字音频制作播出工作站主要有:杭州联汇公司的Audio Cut-Power制作站、Prolink专业频道广播自动播出站;北京英夫美迪公司的Power Editor多轨音频编辑制作站、Power Caster自动播出站;长沙瑞和大方公司的Sound Paint录制站、Sound Paint-E系列数字音频广播自动播出工作站。

  七.结束

  除了上述传统电台广播领域的数字音频技术应用之外,在互联网上进行音频网络广播也是今天电台广播发展的一种技术延伸。特别是近些年,许多广播电台都纷纷开办起自己的网络广播。甚至一些非广播电台也开办起自己的网络电台。网络广播则完全依靠的是互联网数字音频技术。这一领域的涉足,无疑为电台广播带来新的发展机遇。

  特别是现如今,个人多媒体电脑日渐普及,这些电脑一般都配备有高性能的数字音频声卡,并且已经发展到支持5.1/7.1声道的数字音频播放。广播电台如果能够抓住这一契机,大力发展高品质的网络数字音频广播,让人们能够真正利用这些高性能声卡欣赏到高品质的电台广播节目。那么,依托互联网技术和数字音频技术的不断发展、创新和应用,广播电台必将迎来自己的又一次全新发展。

  文/张智锐 中央人民广播电台

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: