语音信号的数字处理基于语音信号的数字化表示,模拟语音信号经过A/D转换后就可以得到语音信号的数字化采样值。语音信号的数字化采样值以文件形式存储到计算机中后就可以用有关工具程序读出并显示在计算机屏幕上,从而得到便于观察分析的语音时域波形图。
如图2-1所示是女声“他去无锡市”的时域波形图,该段语音的频带宽度为300~3400Hz,采样频率为8kHz,持续时间约为4s。图中,横轴为时间,纵轴为语音的幅度。图2-1的时间轴压缩很短,只能看清该段语音的轮廓,无法辨别语音波形的具体细节。图2-2是该段语音的时域波形展开图。从图中可以看出,语音信号具有很强的“时变特性”,有些波形段具有很强的周期性,有些波形段具有很强的噪声特性,且周期性语音和噪声性语音的特征也在不断变化之中。但在较短的时间内(如5~50ms),语音信号的特征可以认为基本保持不变,这就是语音信号的“短时平稳性”。语音信号的短时平稳性是语音信号数字处理的基础,我们通常截取具有短时平稳性的一段语音进行分析处理,这一段语音通常称为一“帧”(frame)语音,语音段的长度称为帧长,语音的帧长一般取10~30ms。在一帧语音中,为了精细地分析提取出语音的某些特征,有时还进一步将一帧划分为若干“子帧”。例如,20ms的语音帧如果均匀划分成四个子帧,则每个子帧的长度为5ms。
图2-1 女声“他去无锡市”的时域波形图
图2-2 女声“他去无锡市”的时域波形展开图
图2-2 女声“他去无锡市”的时域波形展开图(续)
从语音的时域波形图及其展开图中可以看出,语音信号具有很强的时变特性,而且有些语音帧具有明显的周期性,有些语音帧具有明显的噪声特性,此外还有一些语音帧既具有周期性又具有噪声特性。只有在较短的时间间隔内才可以认为语音信号的特征基本保持不变,这是按“帧”进行语音处理的基础。