|
A3D技术白皮书 |
一
3D音响简介
自七十年代以来,几种不同音效技术的发展,促进了比立体声更优越的音频再现水平的不断提高。传统的音效设备依靠一对分为左右声道的音箱来产生单层面的立体声音场。而最新音效技术已把重点放在使放音系统更具有立体感和空间感上。另外,数字音频信号的出现与发展使交互式音响效果成为可能。这有些类似于现场演奏音乐。即时产生的声音更依赖于输入设备(例如在游戏中你的控制),而不是预先录制好的音轨这一类放音设备(例如在电影中)。
3D音效这个专用词,在本文中广范涉及到任何以人类两耳听觉为基础的技术。我们用双耳来聆听,并从它们分别接收到的两个信号中获得足够的信息,来判断一个声音究竟位于我们周围三维空间中的哪一处。在过去的二十多年中,世界各地的心理学及声学研究者,已经对人类听觉系统的功能进行了卓有成效的探索.他们提供的研究成果,正是现代3D音效系统所必需的基础。让我们来做一个简单的设想:既然我们在现实世界中可以仅凭双耳收听到三维音效,那么仅凭一对音箱或一副耳机也有可能达到同样的效果。正是以这一基本设想为出发点,3D音效产品被成功的开发出来了。一个听者不必再用大大小小的音箱将自己周围的空间填满,也同样可以得到多维的音响效果。
二
什么是3D音效
一个3D音效系统有两个关键组成部份:三维定位和交互。即在一个听者周围的三维空间中为复杂的音源定位的能力,和即时做到这一点的能力。某些技术,也就是立体声扩展和环绕声,涉及到3D定位或交互的某些方面。我们将在下面介绍关于这些技术的一般概念,并解释为什么它们不能等同于A3D这种完美地将三维定位和交互结合起来并以此提供了一种崭新的听觉效果的新技术。
1 扩展立体声 (Extended Stereo)
一般的立体声系统由于其音箱摆放间隔所受的限制,影响到立体声效果的发挥。因此扩展立体声技术及其产品,通过电路对声音信号进行附加处理,使听者感到声像的方位不是只在两只音箱之间,而是在音箱的外侧.这样就达到了声像扩展的目的。使人感觉声源具有空间感和立体感,从而人为的产生出更为宽阔的立体声效果。虽然有时在市场销售中扩展立体声技术被冠以“3D音响”或“3D立体声”的名称,但它并不等同于3D音效技术,因为它只是被动地播放现有的音轨而已。
2 环绕立体声 (Surround Sound)
环绕声技术及其产品通过在多音箱系统上播放多通道Dolby或Mpeg环绕声音轨,使不同区域的听众都能感受到良好的立体声效果。此技术运用音频压缩技术(例如Dolby
Prologic Digital AC-3)为多通道音轨编码并进行传送,再用音频解压缩技术为音轨解码并提供给环绕声五音箱系统。另外,虚拟环绕声系统运用3D音频技术可以通过一组普通音箱营造出五个音箱的幻像。因此不需要一组五个音箱也可得到环绕声听觉效果。Aureal's
A3D Surround 即为一种虚拟环绕效果。
环绕声音轨对电影极为适用。因其为非交互式的,所以除了用于背境音乐或非交互式场景外,并不适合于交互式软件(游戏,网站,等等)。
3 交互式 3D音频 (3 Interactive 3D Audio)
交互式3D音效(A3D),可在听者四周三维空间中的任何一处即时产生。这种技术与支持它的软件结合起来可以创造出一个极为自然,具有强烈吸引力的交互式的音效环境,非常接近实际生活中的听觉效果。这种技术可以说是音效方面的“三维图像”。3D音效技术通过复制人耳在真实世界中所听到的三维效应,创造了一种更真实的听觉效果。接下来的“声学原理”和“人类听觉原理”这两节将解释什么是听觉效应及怎样复制它们。3D音效算法具有极强的灵活性和适用性,可支持所有可能的音频播放设备,如耳机,立体声音箱,和多音箱(环绕或矩型)阵列,就立体声音箱或耳机来说,它们非常普通并容易设置,所以对硬件方面的要求不高,但对算法则有更多要求。多音箱阵列不需要很复杂的3D音效翻译算法,但是对硬件播放设备有更多要求(昂贵并且设置起来很复杂的多个功放和音箱)。在上述任何一种情况中都是通过应用软件的控制来达到所需要的3D效果。这些应用软件通过一个应用程序设计接口(例如Microsoft's DirectSound3D API或者VRML2.0标准)来为3D声源和听者定位。
三
人类听觉原理
如上所述,可以把一个人看作环境中的声音接收物体。大脑和双耳组成了一个可靠的感觉系统。另外,极低频率的声音通过身体感觉到。下一节将要叙述的听觉效应对我们了解周围环境有很大影响。
1 基本定位效应-IID和ITD
IID(interaural intensity
difference)涉及这样一个现象,离声音较近的耳朵听到的声音较高,因为它收到的声音强度比另一只耳朵收到的高。
ITD(interauraltime difference)的意思是声音会较早到达一只耳朵(除非声音是在一个人的正前方或正后方)。假如声音先到达左耳,则大脑会知道声音在左侧的某一处。
图注:由于音源位置的不同,靠近的一边会感到声音更强。
图注:由于方位的不同,声音到达两耳有时间上的差别。
这两种效应的混合使大脑可以把一个单独的音源方位缩小到一个以听者两耳之间连线为轴线的锥体的范围之内。
图注:IID--ITD锥型区
2 外耳结构--耳廓
声波到达耳鼓之前,要穿过外耳结构,也就是耳廓。耳廓就像是滤波器,根据声波到达外耳的不同角度,来加强或减弱其中频和高频能量。通过这些被过滤的信号,大脑可以判断出声源的位置。
图注:耳廓可以对不同频率的声音进行加强和减弱。
耳廓对于准确判定声源位置非常重要。耳廓的大小是以厘米计算的,所以只有一定范围内的声波可被收到。这个范围一般为20Hz到20kHz(波长16米到1.6厘米),低于这个频率的称作次声波,高于这个频率的称作超声波。另外,两耳间距离约为15厘米,所以波长大于15厘米时IID和ITD效应会大大减弱。例如,一个3.3kHz声音信号每秒振荡3300次,而声音每秒运行约330米。所以这个声音的波长为330/3300=0.1米,即10厘米。这时IID和ITD效应已开始减弱。通常频率高的声音波长短,更容易被确定位置。这种现象可以这样证明——在一间房屋内摆放一个次低音音箱和一个高频音箱并播放音乐。闭上眼睛你可以立即说出高频音箱在哪,而次低音音箱听起来则象是无处不在。
3 传播效果,范围和反射
声音穿越环境到达听者之前会发生许多变化,这些变化所带来的效果可以使我们更好的了解周围环境。
一定的距离会产生一定的消音作用,使声音变轻。如果是在封闭环境中,或是隔着玻璃,墙壁等物体,消作用会很明显。
图注:声音传播到人耳时声强明显减弱
声音的反射现象非常重要,因为我们可以及时听出直接收到的声音与经过反射的声音在到达时间和方位上有什么不同。并以此判断出声源的位置和周围环境的类型,大小,型状(耳朵尖的人可以仅靠声音反射来判断墙的位置或分辨门是开着或关着)。声音的各种反射现象混合起来产生的效果被称作交互混响。
图注:声音是由不同路径传播至人耳的,直接,反射,多次反射。
4 3D音效再现
A3D音效系统力求创造一个逼真的数字化音场。要想达到理想的效果,这个系统需要能再创造部份或全部听觉效应,如IID效应,ITD效应,外耳效应等等。建立这种系统的第一步是分析一个声音从不同角度到达听者之前会有什么变化,并以此得到听觉效应的特征。接着就可运用计算机模拟合成来进行检验。
四
什么是HRTF
HRTF的意思是头部关联传送功能(Head-Related
Transfer Function)。可以把HRTF理解成通过听到的声音来辨别声音发出的位置。
1 HRTF分析
最简单的检测HRTF的方法是将两个微小的针状麦克风分别置于听者的耳道内。并在一个确定的位置放置一个音箱,播放确定的信号,同时记录麦克风里的信号。通过比较源信号和麦克风产生的脉冲特性曲线就可得到HRTF装置中一个个别的滤波效果。把音箱移到新的位置上后重复上述过程,直到得出滤波装置完整的球形图。
图注:通过放置在人耳中的麦克风,探听声音传播至人耳后的频率特性。
每个人都有其独特的HRTF,也就是每个人都有一套不同的听音辨位的能力。然而,HRTF具有互换性。如果一个人的HRTF可以在现实世界中很好的确定声音的位置,那么它也可以让大多数人在虚拟世界中做到这一点。普通的可互换的HRTF适用于视频会议或游戏等普通应用,特殊的HRTF在要求非常严格的音频应用方面也很有用,例如战斗机座舱警报系统,或空中交通管制系统。
2 HRTF合成
一但HRTF的特性为人们所掌握,相应的即时数字信号处理(DSP)软件和算法也被设计出来了。这种软件必须能够辨别出滤波效果的关键(与心理学及声学有关的)特征,并把它们即时地运用于即将出现的音频信号,以使这些信号立体化。这种系统用一台电脑播放声音,并经HRTF脉冲曲线过滤,可以产生在某个确定的位置用音箱播放此声音的效果。
图注: 运用合成脉冲曲线合成出虚拟音箱的幻像
3 视听协同作用
耳和眼经常同时察觉一件事。看到门关上或听到关门声,如果这两件事同时发生,它们会被理解为同一件事,假如我们看到一扇门猛地关上而没有任何声音,或者门在正前方关上而关门声在正后方发出,那么我们可能会被吓一跳并感到困惑。
在另一种情况下,我们或许会听到正前方有一个嗓音,并同时看到一条空无一人的带拐角的走廊,听觉和视觉的合成使我们猜出可能有人站在拐角处。3D音效系统和3D图像系统通过同步器可以产生出类似真实生活的极有吸引力的效果。
4 头部运动与音效
当听者转头或歪头时,音效会产生戏剧性的变化。一个声音从听者的左侧或右侧传播到听者的正前方所用的时间与我们将脑袋快速转动九十度所用的时间差不多。我们经常用头部动作来寻找并判断声音的位置。耳朵可以提醒大脑视觉范围以外发生了什么事,因此我们可以自动的转移注意方向。另外,我们还用头部动作来解觉不明确的问题。一个很微弱的,很小的声音不知是在我们的前方还是后方,这时我们可能会下意识地很快将脑袋向左转一点,如果此时声音是在右耳方向,那么这个声音实际上处于我们的前方,反之则在后方。交互式系统可以完全模拟听者的头部动作(通过运用摇杆,鼠标,或头部追踪系统的输入),这是交互式音效比预先录制的音效更加真实的原因之一。
五 概括
在十多年中,即时3D音效技术成为心理学及声学研究者们认真研究与发展的主题。大量的研究成果表明,交互式3D音效是一项重要的技术,可以带来崭新的高水平的听觉效果,使听者处于即时产生的三维音场之中。这种系统直接与使用者交流,并且能即时反馈,从而创造出以前只能在现实生活中才能体验到的极为真实与吸引人的三维效果。
3D音效应用于3D网站或视频游戏,可以让怪物在你背后大喊大叫,可以使直升机在你头顶盘旋,应用于电视或电话会议,可以使多方参与者置身于3D音效空间中。应用于要求非常严格的任务,可以使空中交通管制员得到一架在雷达上确定了其3D位置的飞机的讯息,或者使战斗机飞行员在接到威胁警报的同时得到正在逼近的导弹的3D位置。
交互式音效系统及其软件已在1997年引入PC销售市场。早期现象表明其具有更高的品质及消费者可承担的价位。交互式3D音效技术给我们带来深刻的印象,并将会迅速被软件开发商与用户们所接受。其未来的市场增长与技术进步将是持久的。 |