语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在高度信息化的今天,语音处理的一系列技术及其应用已经成为信息社会不可或缺的重要组成部分。
语音的产生是一个复杂的过程,包括心理和生理等方面的一系列动作。当人需要通过语音表达某种信息时,这种信息首先以某种抽象的形式表现在说话人的大脑里,然后转换为一组神经信号,这些神经信号作用于发声器官进而产生携带信息的语音信号。
语音信号处理的研究起源于对发声器官的模拟。1939年,美国人H.Dudley展出了一个简单的发声过程模拟系统,以后发展为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,同时也可根据分析获得的频谱特征或参数变化规律,合成语音信号,实现机器的语音合成。
目前,对语音信号进行研究一般都基于语音信号的数字表示,因此,语音信号的数字表示是进行语音信号数字处理的基础。语音信号数字化的理论依据是我们熟知的采样定理,即只要采样频率足够高,就可以用时域上周期抽取的样点来表示一个带限信号。语音信号的离散表示基本上可以分为两大类:波形表示和参数表示,如图1-1所示。波形表示仅仅是通过采样和量化的过程保存模拟语音信号的“波形”,而参数表示则是把语音信号表示成某种语音产生模型的输出。为了得到参数表示,首先必须对语音进行采样和量化,然后再进一步处理以得到语音产生模型的参数。语音产生模型的参数一般可分为两大类:一类是激励参数;另一类是声道参数。
人们历来重视对语音信号和语音通信的研究。社会的进步对语音通信提出了更高的要求,需要更高的语音质量和更低的数码率,从而推动了语音编码技术的发展。而自动控制和计算机科学的发展又要求用语音沟通人与机器的信息交流,要求机器能听懂人说话和对人说话,甚至还要能辨别出是谁在说话,这又推动了语音识别、说话人识别和语音合成技术的研究,从而使语音处理技术得到迅速的发展。语音编码、语音识别、说话人识别、语音合成等技术的基础都是对语音信号特征的认识,都要利用数字信号处理的一些基本技术来分析和处理语音信号,而更深层次的发展涉及人的发音和听觉机理,与生理学、语言学甚至心理学有关。
图1-1 语音信号的表示方法
语音信号数字处理是一门涉及诸多学科的交叉学科,它以生理学、心理学、语言学及声学等学科为基础,以信息论、控制论、系统论的理论为指导,是通过应用信号处理、统计分析、模式识别等现代技术手段发展形成的一门综合性学科。20世纪80年代以前,线性预测编码技术(LPC)是语音信号数字处理研究领域最重要的研究成果。20世纪80年代以后,分析合成技术、矢量量化技术、隐马尔可夫模型(HMM)等极大地推动了语音编码、语音识别技术的发展。20世纪90年代以后,神经网络、小波分析、分形及混沌等新技术在语音处理领域的应用将语音处理研究提高到了一个新的水平。