语音的最基本组成单位是音素,语音就是由一连串的音素所组成的。这些音素及其相互间的过渡就是代表信息的符号。音素的排列是由语音的规则所控制的,对这些规则及其在人类通信中的含义的研究属于语言学的范畴,而对语音中的音素的分类和研究称为语音学。对语音学和语言学的论述有专门的著作,这里不做详细讨论。在这一节里主要介绍语音的产生过程。
语音的产生依赖于人类的发声器官。人类的发声器官主要由喉、声道和嘴等组成,如图2-3所示。声道起始于声带的开口(即声门处)而终止于嘴唇。对男性来说,声道的平均长度约为17cm,声道的截面积取决于舌、唇、颌和小舌的位置,它可以从零(完全闭合)变化到约20cm 2 ,鼻道则从小舌开始到鼻孔为止。当小舌下垂时,鼻道与声道发生声耦合而产生语音中的鼻音。
图2-3 发声器官示意图
完整的发声器官还应包括由肺、支气管、气管组成的次声门系统,次声门系统是产生语音能量的源泉。当空气从肺里呼出来时,呼出来的气流由于声道某一地方的收缩而受到扰动,语音就是这一系统在这时辐射出来的声波。
语音按其激励形式的不同可以分为清音、浊音和爆破音三类。
(1)清音(Unvoiced speech)。当气流通过声门时,如果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩部分而产生湍流,就得到清音。
(2)浊音(Voiced speech)。当气流通过声门时,如果声带的张力刚好使声带发生张弛振荡式的振荡,产生一股准周期的气流,这一气流激励声道就产生浊音。
(3)爆破音(Plosive speech)。如果使声道完全闭合,在闭合后建立起气压,然后突然释放,就得到爆破音。
图2-4(a)、(b)、(c)分别给出了一帧清音、浊音和爆破音语音的波形图。
图2-4 三种语音的典型波形图
1.基音频率
当发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,其典型波形如图2-5所示。这个脉冲串的周期就称为“基音周期(pitch)”,其倒数称为“基音频率”。
图2-5 典型的声门脉冲串波形
基音频率与个人声带的长短、厚薄、韧性、劲度和发音习惯等有关,在很大程度上反映了个人的特征。一般来说,男性说话者的基音频率大致分布在50~200Hz的范围内,而女性说话者和小孩的基音频率在200~450Hz之间。
2.共振峰
人类的声道和鼻道都可以看成非均匀截面的声道管,声道管的谐振频率称为共振峰频率,简称共振峰。共振峰与发声器官的确切位置有很大的关系,即共振峰与声道的形状和大小有关,每种形状都有一套共振峰作为其特征。改变声道的形状就产生不同的声音,因此,当声道形状改变时,语音信号的频谱特性也随之改变。共振峰由低到高排列依次为第一共振峰、第二共振峰、第三共振峰……,相应的频率用F 1 、F 2 、F 3 、…表示。一般的浊音中可以辨别的共振峰有5个,其中前面3个对于区别不同语音来说至关重要。如图2-6所示为一段浊音的时域波形及其短时频谱图,从频谱中可清楚地看出共振峰。
图2-6 一段浊音的时域波形及其短时频谱图
语音信号随时间而变化的频谱特性可以用语谱图直观地来表示。语谱图的纵轴对应于频率,横轴对应于时间,而图像的黑白度对应于信号的能量。因此,声道的谐振频率在图上就表示成黑带,其中浊音部分以出现条纹图形为特征,这是因为此时的时域波形有周期性;而在清音的时间间隔内,图形显得很致密。如图2-7所示为一段语音的时域波形及其语谱图。
图2-7 一段语音的时域波形及其语谱图