语音识别这半个多世纪的产业历程中共有三个关键节点,两个和技术有关,一个和应用有关。
(1)第一个关键节点是1988年的一篇博士论文,开发了第一个GMM-HMM的语音识别系统——Sphinx。从1986~2010年,虽然混合高斯模型的效果得到持续改善,而被应用到语音识别中,并且确实提升了语音识别的效果,但实际上语音识别已经遭遇了技术天花板,识别的准确率很难超过90%。很多人可能还记得,在1998年前后,IBM、微软都曾推出过和语音识别相关的软件,但最终并未取得成功。
(2)第二个关键节点是2015年深度学习被系统应用到语音识别领域中。这导致识别的精度再次大幅提升,最终突破90%,并且在标准环境下逼近98%。有意思的是,尽管技术取得了突破,也涌现出了一些与此相关的产品,比如Siri、Google Assistant等,但与其引起的关注度相比,这些产品实际取得的成绩则要逊色得多。Siri刚一面世的时候,时任Google CEO的施密特就高呼,这会对Google的搜索业务产生根本性威胁,但事实上直到Amazon Echo面世,这种根本性威胁才真正地有了具体的载体。
(3)第三个关键点正是Amazon Echo的出现,纯粹从语音识别和自然语言理解的技术乃至功能的视角看这款产品,相对于Siri等并未有什么本质性改变,核心变化只是把近场语音交互变成了远场语音交互。Echo正式面世于2015年6月,到2017年销量已经超过千万,同时在Echo上扮演类似Siri角色的Alexa逐渐成熟,其后台的第三方技能已经突破10000项。借助落地时从近场到远场的突破,亚马逊一举从这个赛道的落后者变为行业领导者。
但自从远场语音技术规模落地以后,语音识别领域的产业竞争已经开始从研发转为应用。研发比的是标准环境下纯粹的算法谁更有优势,而应用比的是在真实场景下谁的技术更能产生优异的用户体验,一旦比拼真实场景下的体验,语音识别便失去独立存在的价值,更多作为产品体验的一个环节而存在。
所以到2019年,语音识别似乎进入了相对平静期,全球产业界的主要参与者们,包括亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司,在一路狂奔过后纷纷开始反思自己的定位和下一步的打法。各公司的占有率如图1.5所示。
图1.5 智能语音市场的占有率
语音赛道里的标志产品——智能音箱以一种大跃进的姿态出现在大众面前。2017年以前,智能音箱玩家对这款产品的认识还都停留在:亚马逊出了一款叫Echo的产品,功能和Siri类似。先行者科大讯飞叮咚音箱的出师不利更是加重了其他人的观望心态。真正让众多玩家从观望转为积极参与的转折点是逐步曝光的Echo销量。2017年年底,Echo在美国近千万的销量让整个世界震惊。这是智能设备从未达到过的高点,在Echo以前,除了Apple Watch与手环,像恒温器、摄像头这样的产品突破百万销量已是惊人表现。2017年下半年,这种销量以及智能音箱的AI属性促使国内各大巨头几乎是同时转变态度,积极打造自己的智能音箱。
回顾整个发展历程,2019年是一个明确的分界点。在此之前,全行业突飞猛进,但2019年之后则开始进入对细节领域渗透和打磨的阶段,人们关注的焦点也不再是单纯的技术指标,而是回归到体验,回归到一种“新的交互方式到底能给我们带来什么价值”这样更为一般的、纯粹的商业视角。技术到产品,再到是否需要与具体的形象进行交互结合,比如人物形象,流程自动化是否要与语音结合,酒店场景应该如何使用这种技术来提升体验,诸如此类最终都会一一呈现在从业者面前。而此时行业的主角也会从原来的产品方过渡到平台提供方,AIoT纵深过大,没有任何一个公司可以全线打造所有的产品。