×
声学学报

听觉的声学现象和原理

4.2双耳效应和立体声 人有双耳绝对不仅是为了对称和美观,双耳接收声音后可以定出声源的方向和距离。声源在正前方时双耳定向精度高,声源在侧向时定向精度低;无论声源在那个方向,双耳定距离都比较差,要靠眼睛帮助。

表1临界带带宽划分表Bark下截频上截频中心频率带宽 0801 2701 2701 4801 4801 7201 7202 2 0002 3202 3202 72 7003 1502 1503 73 7004 44 4005 35 3006 4005 8001 4007 7007 0001 7009 5008 5001 00010 5 00015 5 500

双耳定向的解释是到达两耳的强度差、时间差和相位差,低频(小于800 Hz)和高频(大于2 000 Hz)时强度差起主要作用;中频时时间差(即相位差)起主要作用;因为它们的关系很复杂,实验也不好做,所以不易得出确切的理论[1]。

早期剧场实现立体声使用的方法较笨拙,在舞台上排列一排传声器,在剧场后面安放相反次序的扬声器来达到立体声的效果。现在用耳机接收时,只要调节达到双耳的声强和相位,就可以得到惟妙惟肖的立体声效果,因为声音最终是进入人耳的两个耳道,对双耳的有关实验,都是用一个假人头,在耳道位置放置传声器。

对家庭影院的立体声,国际电信联盟(international telecommunication union,ITU)有一个推荐标准:ITU-R标准BS.775-1,简称5.1标准。它由5个全频带(达到20 kHz)的音箱按图20方式排放,另有一个低频音箱(俗称低音炮)放送低频,由于低频方向性不强,放置位置关系不大,通常放于中央方向[3]。

图20 5.1国际推荐标准家庭影院立体声音箱摆放示意图

4.3鸡尾酒会效应(cocktail party effect) 人耳在嘈杂的环境里可以专注于和自己朋友的谈话,而不太受周围其他无关声音的干扰;同时,突然听到与自己有关的声音时可以立即反应,如:有人在呼叫他的名字等,此时和朋友谈话的音量不是很高,呼叫的声音也不大,但人耳加上大脑的作用,可以排除干扰,直奔自己的听觉主题,这是任何仪器设备都达不到的特殊功能。1953年科学家将这效应命名为鸡尾酒会效应,因为鸡尾酒会的环境是此效应的典型例子,对鸡尾酒会效应心里学家提出了一些模型来加以解释,如:过滤器模型、衰减模型、信息分配模型等,这里不详细讨论了[7]。

4.4虚拟低频(virtual bass) 在电声设备日渐小型化的情况下,例如:平板电视、手机、小型游戏机等都希望有丰富低频的效果,遗憾的是尺度的限制,小的扬声器不可能发出低频声;弥补的方法是利用心理声学的现象,使听者感觉到原来扬声器发出的没有低频的声信号有低频的存在,该技术称为虚拟低频(virtual bass)。许多音频工程专家研究了虚拟低频的实现方法,其中一种方法称为相位声码器(phase-vocoder),其基本原理是将没有低频的信号从时间域变换到频率域,然后增强扬声器可以发出的中频,此时就能感觉到有低频存在。图21是虚拟低频处理示例,上图是无低频的原始信号频谱,下图是增强中频的频谱,将增强中频的频谱逆变换为时间信号,此时就可以感觉到缺失低频的存在,这是心理声学又一个奇妙的现象[9]。

图21 虚拟低频处理示例 a.无低频的原始信号频谱;b.增强中频的频谱

5人耳感知语音的声学原理

人耳对语音和音乐的感知机理有所不同,音乐感知和语音感知都和大脑理解有关,和人过去听觉经历而训练形成的脑部兴奋区位有关。实验证明,音乐和语音在大脑的兴奋部位是不同的,但此类人体实验不多,笔者对这些没有研究,不能有所介绍,现仅就人耳对语音感知的某些问题作简单叙述。因为对语言有记忆的能力,因此从理解语义来说,有些音听不清并不影响对语义的理解,而对听外语训练少的人,听不清就理解不好。

基于上述人耳对声音分析的机理,可以看出人耳是一个进行频率分析的器官。实验证明,对较长时间的纯音信号,只要有1 Hz的频率变化,人耳就可以辨别出来。语音分析、合成的研究证明,人耳对不同参数语音敏感程度是不同的,其对语音信号的强度不敏感,因为人耳感知声音的动态范围达到120分贝,耳部的机械结构很难使其精细分辨强度的动态变化。反之,人耳对语音信号的共振峰位置极为敏感,共振峰位置的细微变化都会影响语音的清晰度和和可懂度。图22是典型的元音/a/、/i/、/u/的口腔剖面和相应频谱图。

图22 元音/a/、/i/、/u/的口腔剖面和相应频谱图

语音生成的原理告诉我们,喉部发出的气流是语音产生的动力源,其气流的频谱近似平直;人们发不同元音或辅音时口腔的形状不同(图22)。喉到唇部构成一个多种形状的共振腔,对气流进行调制,产生不同的元音或辅音。共振峰特性是识别不同语音的主要依据,也是识别不同话音个性特征的主要依据,是语音识别、合成和编码中最重要的参数;其频谱包络的峰(图22)近似对应语音信号的共振峰。语言研究证明共振峰是人耳感知不同语音最重要参数,共振峰位置在语音感知中起主要作用[11]。语音合成研究也证明了共振峰位置的重要性,共振峰位置越精确,合成语音质量越高,合成语音就越逼真;而共振峰的宽度、幅度对语音感知不重要,也不敏感。早期共振峰语音合成算法,只考虑语音信号共振峰位置,而和共振峰的幅度大小及共振峰的宽度关系不大,共振峰宽度和幅度仅作为一个和共振峰频率有固定关系的经验参数,不必给出具体大小。从语音编码角度看,线性预测声码器(linear prediction vocoder)比通道声码器(channel vocoder)语音质量高,就是因为前者对共振峰的描述要精确,现在通道声码器已为线性预测声码器所淘汰和取代。这些例子充分说明人耳基底膜分析声音的“部位理论”,也是处理语音信号的科学依据。

上一篇:载硫化铋叶酸靶向相变型超声光声双模态对比剂
下一篇:没有了

Top