深度学习之模型设计：核心算法与案例实践最新章节_言有三著

2.2.4 语音识别的重大突破

虽然深度学习在图像领域取得的突破远大于其他领域，广大受众所感受到的深度学习带来的技术变革如人脸检测与识别、智能驾驶等也聚焦在图像领域，但深度学习却不是率先在图像领域取得突破的。

深度学习率先取得突破的领域是语音识别，以微软亚洲研究院俞栋和邓力等人的研究为代表。

在传统的研究方法中，语音识别经历了从20世纪70年代的隐马尔可夫模型声学建模、20世纪80年代的 N 元组语言模型、20世纪90年代的隐马尔可夫模型状态绑定和自适应技术，到21世纪第一个十年的GMM-HMM模型几次重要的技术发展。

尽管这些技术取得了不错的成果，但仍然无法让语音识别达到可商用的地步，直到深度学习的出现，其一举让语音识别错误率相比以往最好的结果下降了30%以上，突破了语音识别技术可以商用的临界点。

在2009年Neural Information Processing Systems（NIPS）会议上，邓力和Geoffrey Hinton联合组织了Deep Learning for Speech Recognition and Related Applications Workshop。他们首次证明使用新方法训练的深层神经网络在大量语音识别基准上优于之前的方法，并联合发表了论文 Deep Neural Networks for Acoustic Modeling in Speech Recognition ^[3] 。

之后俞栋、邓力及Geoffrey Hinton等人致力于将深度学习技术广泛引入语音识别中，并撰写了 Deep Learning：Methods and Applications 一书 ^[4] 。

2013年，用CTC训练的Bi-directional LSTM RNNs在TIMIT上以17.7%的错误率取得了当时最好的结果。

2013年，CTC-LSTM在NIST举办的OpenHaRT2013中取得第一。

2014年，在Medium-Vocabulary和Large-Vocabulary Speech Recognition上，LSTM RNN/HMM方法一枝独秀。

2016年，微软率先实现了语音识别系统5.9%的低错误率，该系统在Switchboard对话语音识别任务中已经达到了与人类对等的水平。