当语音产业需求四处开花的同时,行业的发展速度反过来会受限于平台服务商的供给能力。跳出具体案例来看,行业下一步发展的本质逻辑是:具体每个点的投入产出是否达到一个普遍接受的界限。
离这个界限越近,行业就越会接近滚雪球式发展的临界点,否则整体增速就会相对平缓。无论是家居、酒店、金融、教育或者其他场景,如果解决问题都是非常高投入并且长周期的事情,那对此承担成本的一方就会犹豫,这相当于试错成本过高。如果投入后,没有可感知的新体验或者销量促进,那对此承担成本的一方也会犹豫,显然这会影响值不值得上的判断。而这两件事情归根结底都必须由平台方解决,产品方或者解决方案方对此无能为力,这是由智能语音交互的基础技术特征所决定的。
从核心技术来看,整个语音交互链条有5项单点技术:唤醒、麦克风阵列、语音识别、自然语言处理和语音合成,其他技术点,比如声纹识别、哭声检测等数十项技术通用性略弱,但分别出现在不同的场景下,并会在特定场景下成为关键。看起来关联的技术已经相对庞杂,但切换到商业视角就会发现,距离使用这些技术打造一款体验上佳的产品仍然有很长一段路要走。
所有语音交互产品都是端到端打通的产品,如果每家厂商都从这些基础技术来打造产品,那就每家都要建立云服务稳定、确保响应速度、适配自己所选择的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这从产品方或者解决方案商的视角来看是不可接受的。这时候就会催生相应的平台服务商,它要同时解决技术、内容接入和工程细节等问题,最终达成试错成本低、体验却足够好的目标。
平台服务不需要闭门造车,平台服务的前提是要有能屏蔽产品差异的操作系统,这是AI+IoT的特征,也是有所参照的,亚马逊过去近10年同步着手做两件事:一件是持续推出面向终端用户的产品,比如Echo、Echo Show等;另一件是把所有产品所内置的系统Alexa进行平台化,面向设备端和技能端同步开放SDK和调试发布平台。虽然Google Assistant号称单点技术更为领先,但从各方面的结果来看,Alexa是当之无愧的最领先的系统平台,可惜的是Alexa并不支持中文以及相应的后台服务。
国内则缺乏具有亚马逊这种统治力的系统平台提供商,当前的平台提供商分为两个阵营:
· 以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或者上市公司。
· 以声智等为代表的新兴人工智能公司。
新兴的人工智能公司相比传统公司产品和服务上的历史包袱更轻,因此在平台服务上反倒是可以主推一些更为面向未来、有特色的基础服务,比如兼容性方面,新兴公司做得更加彻底,这种兼容性对于一套产品同时覆盖国内、国外市场是相当有利的。
类比过去的Android,语音交互的平台提供商其实面临更大的挑战,发展过程可能会更加曲折。过去经常被提到的操作系统的概念,在智能语音交互背景下事实上正被赋予新的内涵,它日益被分成两个不同但必须紧密结合的部分。
过去的Linux以及各种变种承担的是功能型操作系统的角色,而以Alexa为代表的新型系统则承担的是智能型系统的角色。前者完成完整的硬件和资源的抽象和管理,后者则让这些硬件以及资源得到具体的应用,两者相结合才能输出最终用户可感知的体验。功能型操作系统和智能型操作系统注定是一种一对多的关系,不同的AIoT硬件产品在传感器(深度摄像头、雷达等)、显示器(有屏、无屏、小屏、大屏等)上具有巨大差异,这会导致功能型系统的持续分化(可以和Linux的分化相对应)。这反过来也就意味着一套智能型系统必须同时解决与功能型系统的适配,以及对不同后端内容、场景进行支撑的双重责任。
这个双重责任在操作上具有巨大差异。解决前者需要参与到传统的产品生产制造链条中,而解决后者则更像应用商店的开发者。这里面蕴含着巨大的挑战和机遇。在过去功能型操作系统的打造过程中,国内的程序员更多的是使用者的角色,智能型操作系统虽然也可以参照其他,但这次必须自己从头打造完整的系统(国外巨头无论在中文相关的技术上,还是内容整合上事实上都非常薄弱,不存在侵略国内市场的可能性)。
随着平台服务商两边的问题解决得越来越好,基础的计算模式会逐渐发生改变,人们的数据消费模式会与今天不同。个人的计算设备(当前主要是手机、笔记本、平板电脑)会根据不同场景进一步分化。比如在车上、家里、酒店、工作场景、路上以及业务办理等会根据地点和业务进行分化。但分化的同时背后的服务是统一的,每个人可以自由地根据场景进行设备的迁移,背后的服务虽然会针对不同的场景进行优化,但在个人偏好这一点上则是统一的。