听觉的声学现象和原理

来源：声学学报 【在线投稿】栏目：期刊导读时间：2021-03-09

4.2双耳效应和立体声人有双耳绝对不仅是为了对称和美观，双耳接收声音后可以定出声源的方向和距离。声源在正前方时双耳定向精度高，声源在侧向时定向精度低；无论声源在那个方向，双耳定距离都比较差，要靠眼睛帮助。

表1临界带带宽划分表Bark下截频上截频中心频率带宽 0801 2701 2701 4801 4801 7201 7202 2 0002 3202 3202 72 7003 1502 1503 73 7004 44 4005 35 3006 4005 8001 4007 7007 0001 7009 5008 5001 00010 5 00015 5 500

双耳定向的解释是到达两耳的强度差、时间差和相位差，低频(小于800 Hz)和高频(大于2 000 Hz)时强度差起主要作用；中频时时间差(即相位差)起主要作用；因为它们的关系很复杂，实验也不好做，所以不易得出确切的理论[1]。

早期剧场实现立体声使用的方法较笨拙，在舞台上排列一排传声器，在剧场后面安放相反次序的扬声器来达到立体声的效果。现在用耳机接收时，只要调节达到双耳的声强和相位，就可以得到惟妙惟肖的立体声效果，因为声音最终是进入人耳的两个耳道，对双耳的有关实验，都是用一个假人头，在耳道位置放置传声器。

对家庭影院的立体声，国际电信联盟(international telecommunication union，ITU)有一个推荐标准：ITU-R标准BS.775-1，简称5.1标准。它由5个全频带(达到20 kHz)的音箱按图20方式排放，另有一个低频音箱(俗称低音炮)放送低频，由于低频方向性不强，放置位置关系不大，通常放于中央方向[3]。

图20 5.1国际推荐标准家庭影院立体声音箱摆放示意图

4.3鸡尾酒会效应(cocktail party effect) 人耳在嘈杂的环境里可以专注于和自己朋友的谈话，而不太受周围其他无关声音的干扰；同时，突然听到与自己有关的声音时可以立即反应，如：有人在呼叫他的名字等，此时和朋友谈话的音量不是很高，呼叫的声音也不大，但人耳加上大脑的作用，可以排除干扰，直奔自己的听觉主题，这是任何仪器设备都达不到的特殊功能。1953年科学家将这效应命名为鸡尾酒会效应，因为鸡尾酒会的环境是此效应的典型例子，对鸡尾酒会效应心里学家提出了一些模型来加以解释，如：过滤器模型、衰减模型、信息分配模型等，这里不详细讨论了[7]。

4.4虚拟低频(virtual bass) 在电声设备日渐小型化的情况下，例如：平板电视、手机、小型游戏机等都希望有丰富低频的效果，遗憾的是尺度的限制，小的扬声器不可能发出低频声；弥补的方法是利用心理声学的现象，使听者感觉到原来扬声器发出的没有低频的声信号有低频的存在，该技术称为虚拟低频(virtual bass)。许多音频工程专家研究了虚拟低频的实现方法，其中一种方法称为相位声码器(phase-vocoder)，其基本原理是将没有低频的信号从时间域变换到频率域，然后增强扬声器可以发出的中频，此时就能感觉到有低频存在。图21是虚拟低频处理示例，上图是无低频的原始信号频谱，下图是增强中频的频谱，将增强中频的频谱逆变换为时间信号，此时就可以感觉到缺失低频的存在，这是心理声学又一个奇妙的现象[9]。

图21 虚拟低频处理示例 a.无低频的原始信号频谱;b.增强中频的频谱

5人耳感知语音的声学原理

人耳对语音和音乐的感知机理有所不同，音乐感知和语音感知都和大脑理解有关，和人过去听觉经历而训练形成的脑部兴奋区位有关。实验证明，音乐和语音在大脑的兴奋部位是不同的，但此类人体实验不多，笔者对这些没有研究，不能有所介绍，现仅就人耳对语音感知的某些问题作简单叙述。因为对语言有记忆的能力，因此从理解语义来说，有些音听不清并不影响对语义的理解，而对听外语训练少的人，听不清就理解不好。

基于上述人耳对声音分析的机理，可以看出人耳是一个进行频率分析的器官。实验证明，对较长时间的纯音信号，只要有1 Hz的频率变化，人耳就可以辨别出来。语音分析、合成的研究证明，人耳对不同参数语音敏感程度是不同的，其对语音信号的强度不敏感，因为人耳感知声音的动态范围达到120分贝，耳部的机械结构很难使其精细分辨强度的动态变化。反之，人耳对语音信号的共振峰位置极为敏感，共振峰位置的细微变化都会影响语音的清晰度和和可懂度。图22是典型的元音/a/、/i/、/u/的口腔剖面和相应频谱图。

图22 元音/a/、/i/、/u/的口腔剖面和相应频谱图

语音生成的原理告诉我们，喉部发出的气流是语音产生的动力源，其气流的频谱近似平直；人们发不同元音或辅音时口腔的形状不同(图22)。喉到唇部构成一个多种形状的共振腔，对气流进行调制，产生不同的元音或辅音。共振峰特性是识别不同语音的主要依据，也是识别不同话音个性特征的主要依据，是语音识别、合成和编码中最重要的参数；其频谱包络的峰(图22)近似对应语音信号的共振峰。语言研究证明共振峰是人耳感知不同语音最重要参数，共振峰位置在语音感知中起主要作用[11]。语音合成研究也证明了共振峰位置的重要性，共振峰位置越精确，合成语音质量越高，合成语音就越逼真；而共振峰的宽度、幅度对语音感知不重要，也不敏感。早期共振峰语音合成算法，只考虑语音信号共振峰位置，而和共振峰的幅度大小及共振峰的宽度关系不大，共振峰宽度和幅度仅作为一个和共振峰频率有固定关系的经验参数，不必给出具体大小。从语音编码角度看，线性预测声码器(linear prediction vocoder)比通道声码器(channel vocoder)语音质量高，就是因为前者对共振峰的描述要精确，现在通道声码器已为线性预测声码器所淘汰和取代。这些例子充分说明人耳基底膜分析声音的“部位理论”，也是处理语音信号的科学依据。

上一篇：载硫化铋叶酸靶向相变型超声光声双模态对比剂
下一篇：没有了

Top

首页

期刊导读

在线投稿

联系我们