语音是指人类通过发音器官发出、含有一定目的和意义、用于交流的声音,是语言的一种外部形式,人类的语言首先以语音的形式出现。在语言的三个基本属性(音、形和义)中,音即语音排在首位。每一种语言都有其独特的语音系统,音节的划分、音调的使用、音位系统、重音和节奏等各有异同。例如,在英语中,成对的清辅音和浊辅音在区分词义中有很大作用,然而在汉语中浊辅音很少,而清辅音很多且起到区分词义的重要作用。
不同语言之间语音特点的差异,导致了其语音数据识别原理和处理技术上的差异。语音数据指将人类发出的语音通过技术设备和其他手段收集、数字化并储存为包含语音本身及其内含信息的电子数据。在实际使用中,语音数据可以储存为各种格式的声音文件,包括动态影像专家压缩标准音频层面(moving picture experts group audio layer Ⅲ,MP3)格式、波形格式数据(waveform,WAV)格式、乐器数字接口(musical instrument digital interface,MIDI)格式等。
语音数据与其他一般声音数据相同,可以来源和收集于麦克风、录音笔、手机等设备,具有简易储存、不易损失、传播简单等特点。同时,由于语音是一种特殊的声音,具有社会属性,包含其意义和目的,服务于社会生活。例如,同样发音为“gōng shì”的词语,其可能包含的意义可以为“公式”“公示”或“攻势”等。在没有书面符号辅助的情况下,准确提取语音数据中所包含的信息,除了需要解读声音本身的物理性质,还需要对说话人所在的社会环境、语言系统等进行综合考虑。
医学语音数据产生或收集于医疗过程中,来源于患者、医师或其他相关人员。医学语音内容纷杂不一,在医患交谈中,专业词汇和日常用语相互混杂,关键信息和干扰内容难以分辨。因此,医学语音具有与医学文本相似的特点,如本章第一节提到数据多源复杂、专业词汇繁多等。同时,医学语音也具有不同于文本的特征,例如,精神障碍患者的录音病历,来自录音笔等设备记录的精神检查和医患交谈过程,对话中的各种生僻词、文言词、行话、方言等内容难以用文本形式书面表达。虽然录音可以使精神相关检查更深入和全面,但同时,精神障碍患者的状态和情绪起伏过大,抑郁时的频频叹息、喃喃低语,兴奋时的滔滔不绝甚至放声高歌,更有精神分裂患者的黑白颠倒、词不达意等,使得录音内容复杂难辨。除了精神障碍,其他疾病的问诊录音也会出现患者对医生答非所问、逻辑混乱等问题,使得医学语音的录音质量参差不齐。
因此,充分利用好医学语音数据,关键在于如何从纷杂混乱的数据中提取关键信息。在复杂的语音环境中提取有效语音信息的过程称为语音信号处理。
语音信号采集到储存为语音数据的过程如图4-4所示。说话人在头脑中产生想要表达的信息,将信息所包含的音素序列、韵律、响度等表示出来,神经肌肉控制完成相应声带的震动、形成声道的形状。然后人发出的声波被麦克风等设备接收,再被转成模拟的语音信号。这些信号经过采样、量化等过程,进行适当放大和增益控制,被保存为数字信号即波形文件,便得到了语音数据。
图4-4 语音信号产生与采集的过程
在日常工作中,现有的麦克风和计算机软件已可以方便地完成语音信号的前期处理并得到语音数据。以下将根据图4-4的构架图,简单介绍语音的采集装置、采样和量化的原理、语音数据(即声音文件)的格式等内容。
各类语音采集装置,按照原理可分为动圈式和电容式两种。动圈式麦克风输出阻抗小,可接较长的电缆,但精度、灵敏度较低,体积较大。电容式麦克风音质好,灵敏度高,其中的驻极体麦克风无需外加电源,体积小而应用广泛。在医护日常工作和研究中常用的录音笔和手机等便携设备,其采用的麦克风类型多为驻极体麦克风。评价设备的性能,主要有以下指标:
设备对来自不同方向声音的灵敏度称为指向性。其大小用麦克风设备正面0°方向和背面180°方向的灵敏度差值表示。
当声音从某个方向传入时,灵敏度会随频率而变化这一特性,被称为传声器的频率响应。一般来说,频率范围越宽、频响曲线越平直越好。
灵敏度指当向传声器施加一个标准音信号时,传声器能产生的输出电压。即在单位声压激励下输出电压与输入声压的比值,单位常用分贝(dB)表示,并规定0dB等于1V/Pa。
输出阻抗低(一般为1kΩ以下)的设备可连接较长数据线缆,也较少受到外界信号干扰,适合长距离传输。而输出阻抗高的麦克风则灵敏度高,适合音质要求较高的场合。
等效噪声可以看作设备自身的电路噪声,当麦克风未受到任何声波作用时,其也会有一定的电平输出,即传声器的等效噪声。
采样的过程是把模拟信号转化为离散信号的过程,如图4-5所示,按一定的频率每隔一小段时间,测得模拟信号的模拟量值,原始的声音信号经过采样后变为离散的数字信号。每秒采样的点数称为采样率,单位用赫兹(Hz)表示。
图4-5 采样的过程
采样率越高,采样间隔越短,则音频损失越小,音质也就越高。电脑与手机等主流设备的采样率多采用16kHz,音质要求较高的CD等设备为了达到无损目的,常采用的采样率为44.1Hz。
声音被采样后得到离散的采样值还需要再进行离散化处理,变成整数数值,这个过程称为量化。如图4-6所示,不同电压范围在量化后转为整数量化值。
图4-6 量化后的波形
量化位数可以是8位、16位、32位等,位数越多,损失越少,但占据储存空间也越大,一般情况下采用16位量化。将采样率和量化位数相乘即可得到比特率(bps)。例如,采样率16kHz和量化位数16位的情况下比特率为256kb/s。
语音信号储存为语音数据的过程中需要编码,常用的编码格式包括PCM、MP3、AAC等。
脉冲编码调制(pulse code modulation,PCM)是约定俗成的无损编码。其最大的优点是音质良好,但所占储存空间较大。PCM常见的文件格式有WAV和无损音频压缩编码(free lossless audio codec,FLAC),均为无损声音文件格式。
MP3和高级音频编码(advanced audio coding,AAC)是常见的有损压缩编码。MP3文件能够提供不同比特率以适应各种网络传播条件和音频质量的需求,同时能在占较小空间的情况下提供较为接近原始数据的声音效果。AAC编码与MP3相比能够提供更高的音质。