购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 语音的产生

语音的最基本组成单位是音素,语音就是由一连串的音素所组成的。这些音素及其相互间的过渡就是代表信息的符号。音素的排列是由语音的规则所控制的,对这些规则及其在人类通信中的含义的研究属于语言学的范畴,而对语音中的音素的分类和研究称为语音学。对语音学和语言学的论述有专门的著作,这里不做详细讨论。在这一节里主要介绍语音的产生过程。

2.3.1 发声器官

语音的产生依赖于人类的发声器官。人类的发声器官主要由喉、声道和嘴等组成,如图2-3所示。声道起始于声带的开口(即声门处)而终止于嘴唇。对男性来说,声道的平均长度约为17cm,声道的截面积取决于舌、唇、颌和小舌的位置,它可以从零(完全闭合)变化到约20cm 2 ,鼻道则从小舌开始到鼻孔为止。当小舌下垂时,鼻道与声道发生声耦合而产生语音中的鼻音。

图2-3 发声器官示意图

完整的发声器官还应包括由肺、支气管、气管组成的次声门系统,次声门系统是产生语音能量的源泉。当空气从肺里呼出来时,呼出来的气流由于声道某一地方的收缩而受到扰动,语音就是这一系统在这时辐射出来的声波。

2.3.2 语音的分类

语音按其激励形式的不同可以分为清音、浊音和爆破音三类。

(1)清音(Unvoiced speech)。当气流通过声门时,如果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩部分而产生湍流,就得到清音。

(2)浊音(Voiced speech)。当气流通过声门时,如果声带的张力刚好使声带发生张弛振荡式的振荡,产生一股准周期的气流,这一气流激励声道就产生浊音。

(3)爆破音(Plosive speech)。如果使声道完全闭合,在闭合后建立起气压,然后突然释放,就得到爆破音。

图2-4(a)、(b)、(c)分别给出了一帧清音、浊音和爆破音语音的波形图。

图2-4 三种语音的典型波形图

2.3.3 基音频率与共振峰

1.基音频率

当发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,其典型波形如图2-5所示。这个脉冲串的周期就称为“基音周期(pitch)”,其倒数称为“基音频率”。

图2-5 典型的声门脉冲串波形

基音频率与个人声带的长短、厚薄、韧性、劲度和发音习惯等有关,在很大程度上反映了个人的特征。一般来说,男性说话者的基音频率大致分布在50~200Hz的范围内,而女性说话者和小孩的基音频率在200~450Hz之间。

2.共振峰

人类的声道和鼻道都可以看成非均匀截面的声道管,声道管的谐振频率称为共振峰频率,简称共振峰。共振峰与发声器官的确切位置有很大的关系,即共振峰与声道的形状和大小有关,每种形状都有一套共振峰作为其特征。改变声道的形状就产生不同的声音,因此,当声道形状改变时,语音信号的频谱特性也随之改变。共振峰由低到高排列依次为第一共振峰、第二共振峰、第三共振峰……,相应的频率用F 1 、F 2 、F 3 、…表示。一般的浊音中可以辨别的共振峰有5个,其中前面3个对于区别不同语音来说至关重要。如图2-6所示为一段浊音的时域波形及其短时频谱图,从频谱中可清楚地看出共振峰。

图2-6 一段浊音的时域波形及其短时频谱图

2.3.4 语谱图

语音信号随时间而变化的频谱特性可以用语谱图直观地来表示。语谱图的纵轴对应于频率,横轴对应于时间,而图像的黑白度对应于信号的能量。因此,声道的谐振频率在图上就表示成黑带,其中浊音部分以出现条纹图形为特征,这是因为此时的时域波形有周期性;而在清音的时间间隔内,图形显得很致密。如图2-7所示为一段语音的时域波形及其语谱图。

图2-7 一段语音的时域波形及其语谱图 a1TSRLQJypb1Ps8DIOeM9jfCuVzdfrSzOT3pqhg8zI5Bys0pV6mPOYCe8RNpplm2



2.4 汉语语音的基本特性

汉语语音的基础是汉语拼音,由10个元音和22个辅音组成,共计21个声母和38个韵母。

2.4.1 声母和韵母

1.声母

汉语拼音中有21个声母,如表2-1所示。表中的声母一般根据其发音部位和发音方法来命名。例如,“b”为双唇不送气清塞音,“z”为不送气舌尖前清塞音等。

表2-1 汉语声母表

2.韵母

汉语拼音中的韵母包括8个单韵母、14个复韵母和16个鼻韵母,共38个。汉语韵母如表 2-2所示。

表2-2 汉语韵母表

3.音节

汉语具有单音节的特点,一个汉字对应一个音节。汉语的音节由声母、韵母和声调组成。一个音节起头的辅音是声母,声母后的部分是韵母。全音节的音调变化是声调。

汉语的21个声母和38个韵母配合组成400个左右的音节,再加上四声组成1600个左右的有调音节,但有的音节没有对应的汉字。据统计,汉语中有基本无调音节字412个,有调音节字1282个。由此可见,用11个二进制位就足以表示汉语中的所有音节,如果音节的速度是4~5个音节/秒,则平均的信息速率仅为50bit/s左右。也就是说,在正常讲话速度下,与语音等效的书面文字含有50bit/s的信息。当然,语音实际信息的最低限要高于这一速率,这是因为上面的估计中没有考虑说话人的个性、情绪及语音强弱等。

2.4.2 元音和辅音

元音是指发音时气流不受阻碍,发音器官均衡地紧张,气流较弱的音。所有的元音都是浊音。

不同的元音是由不同的口腔形状形成的,口腔形状实际上是指唇舌状态,可从三方面来分析:口腔的开闭和舌头的高低;舌头部位的前后;唇的状态。

由于口腔的开闭、舌头的高低前后、唇的平展圆敛等不同程度的变化,形成了不同式样的共鸣器,于是形成了各种元音特有的音色。

辅音是指发音时气流要经过不同的阻碍,且在发音器官中阻碍部分较紧张,气流较强的音。

元音、辅音与声母、韵母是两个不同的概念,声母、韵母是以音节中的位置而论的,元音、辅音是以发音方式而定的。但两者又是相互联系的,汉语中的声母都是辅音,大部分韵母是元音,少部分韵母由元音加辅音构成,如[an]、[ang]、[en]、[eng]、[ong]等用鼻辅音作韵尾。

2.4.3 汉语的声调

如前所述,浊音的声带振动基频称为基音频率。无论是单音节语音还是连续语音,其中浊音段的基音频率是随时间而变化的,基音频率的不同轨迹称为声调。汉语普通话中除了轻音之外,还有四种声调,即阴平、阳平、上声、去声,也称第一声、第二声、第三声、第四声。在汉语普通话中,由相同声母和韵母所构成的音节随声调的不同而具有完全不同的意义,对应不同的汉字。例如,音节“da”的四种声调可能对应的汉字为搭、达、打、大。由此可见,声调在汉语普通话中承担着非常重要的构字辨意作用。

声调的曲线或轨迹开始于韵母的起始端,结束于韵母的终止端。阴平曲线的特点是几乎与时间横轴线平行,而且平均值很高。阳平曲线的特点是从较低的频率一直上升到较高的频率,或者起始处稍稍下降后一直上升。上声曲线的特点是先降后升。去声曲线的特点是从较高的频率出发一直下降到极低的频率。如图2-8所示是汉语普通话四种声调的典型曲线示意图。应该注意的是,连续语音中的声调曲线与单独说一个音节的声调曲线不完全相同。

图2-8 汉语普通话四种声调的典型曲线示意图 a1TSRLQJypb1Ps8DIOeM9jfCuVzdfrSzOT3pqhg8zI5Bys0pV6mPOYCe8RNpplm2

点击中间区域
呼出菜单
上一章
目录
下一章
×