当我们对着手机、智能音箱呼唤“嗨,Siri”“小爱同学”“小度小度”时,它们会对我们做出回应。相信有些人每天早晨都会问问它们当天的天气。那么,它们为什么能够理解我们的语言呢?
这些被称为 唤醒词 ,作用是将系统唤醒。要做到这一点,就要求系统能够正确识别人类的语言,也就是需要有 语音识别 功能。这一功能会将人们所说的话转化为系统可以识别的 声音信号 。
被提取出的声音信号,通过电脑被转换为(电子)数据。其中有意义的文字便会被识别为有关联的语言。
对于声音识别功能来说, 深度学习 是十分重要的。下面,就来介绍一下这些系统是怎样进行深度学习的。深度学习,就是 将人类大脑的构造在电脑上通过数据的方式表现出来 。这里所说的大脑的构造是指神经元(构成大脑的神经细胞)与突触(与其他神经元的连接部分)。人类的大脑中各个神经元通过突触相连接,并通过它们实现记忆、判断等功能。电脑则以此为模型,建立起多层神经网络(模拟大脑的构造),并通过对各个神经元之间的关联、关系的计算,来为最终的判断提供相关的数据。
例如,我说出“Gao Ji De”这一词。AI系统首先会从“Gao Jie De”“Chao Ji De”“Kao Ji De”等发音相近的词语中,将我所说的“Gao Ji De”挑选出来。
图1 检测唤醒词
搭载声音识别功能的手机、智能音箱,能够检测到人们所说的“嗨Siri”“小爱同学”“小度小度”等唤醒词。
图2 声音识别示意图
将模拟信号转化为数字信号,使电脑可以对其正确识别。图中,系统从“Gao Ji De”“Hao Qi De”“Chao Ji De”等音节中,选出了最适合的选项。但有时系统也会出错。
这一过程,系统所利用的就是深度学习这一功能。若系统曾经听到过“Gao Ji De”一词,那么它选择该词的概率就会提高。若系统同样听过“Chao Ji De”,那么这个词语就会是它的第二选择。像这样,系统将学习过的词语列为候选的过程就是深度学习。
其次,将声音识别功能所接收到的信息,按照正确的意思识别出来,利用的则是 自然语言处理技术 (Natural Language Processing)。例如,在说出“Gao Ji De”之后,我继续说“Wei Dao”。那么AI系统会与识别“Gao Ji De”一样,识别出我所说的“Wei Dao”,并将“Gao Ji De”“Wei Dao”理解为一个词组,在系统中找出与其发音相同且具有实际意义的词组。即先从“Gao Ji De”这一发音中,找出“高级的”“高几的”“告急的”等词语。其次,从“Wei Dao”的发音中找出“味道”“未到”“喂到”等。再从这些词语中,选出能够组合成有实际意义的词组,或是过去曾经使用过的词语。最后从中正确选出“高级的味道”。
系统的深度学习会将以往所接收到的语音进行记录并设置权重。在每次接收到语音信号后,它都会根据我们的说话习惯,选择出最常用的词语,再将其组合成句子并作出判断。所以, 我们对AI所说的每一句话,对它都有着非常大的影响。 它就是在这样反复的学习中,变得越来越“懂”我们了。
图3 自然语言处理示意图
从“Gao Ji De”中选出“高级的”“高几的”“告急的”……再从“Wei Dao”中选出合适的词语,最终判断出所听到的为“高级的味道”。在这里,权重的设置是相当重要的。
图4 在与人对话中进行学习
Siri、小爱同学这类智能系统,都可以通过与人的对话来收集数据,并自行学习。对话的内容会以历史数据的形式被记录下来,为权重的设置提供重要参考。