



人工智能(artificial intelligence,AI)已经变得比过去更具移动性,因为现在即使很小的设备也拥有很强的计算能力。随着人工智能的引入,原本只是用来打电话和发短信的移动设备现在已经变成人们生活中不可或缺的智能手机。这些设备现在能够利用AI不断增强的能力学习用户行为和偏好、增强照片效果或进行全面的人机对话等。
为了满足人工智能所需的高计算能力,手机的硬件支持一直在变化和增强,从而为人工智能提供思考和行动的能力。移动设备生产企业一直在不断升级对移动设备的硬件支持,以提供无缝和个性化的用户体验。
华为推出了麒麟980和990等高端芯片,它使用专门的神经网络处理单元实现终端AI体验。Apple配备了称为神经引擎(neural engine)的AI芯片,这是A14仿生芯片的一部分。它可用于机器学习和深度学习任务,例如面部和语音识别、录制动话表情以及在捕获图片时进行对象(目标)检测。高通和联发科也已经发布了自己的芯片,支持终端上的人工智能解决方案。三星发布的Exynos 9810也是一款基于神经网络的芯片,支持设备上的人工智能运算。
Google推出了Word Lens镜头即时翻译,只要你拿出手机打开应用里的摄像头,对着身边任何一处外文拍照,即可看到相应的翻译。该技术最多可以翻译54种语言。
手机摄像头现在也足够智能,可以在f/2.4和f/1.5传感器之间做出选择,非常适合在低光照条件下拍摄照片。Google Pixel 2甚至还通过其协处理器Pixel Visual Core集成了8个图像处理单元,以充分利用机器学习的强大功能。
人工智能芯片的加入不仅有助于实现更高的效率和计算能力,而且还保护了用户的数据和隐私。在移动设备上加入AI芯片的优势如下。
性能:当前移动设备的CPU不适应机器学习的需求。尝试在这些设备上部署机器学习模型通常会导致服务缓慢和电池消耗更快,从而导致糟糕的用户体验。这是因为CPU缺乏执行AI计算所需的海量小型计算的效率。AI芯片有点类似于负责处理设备上图形的图形处理单元(graphical processing unit,GPU)芯片,它提供了一个单独的空间来执行专门与机器学习和深度学习过程相关的计算。这允许CPU将时间集中在其他重要任务上。随着专门的人工智能硬件的加入,移动设备的性能和电池寿命都得到了改善。
用户隐私:硬件也保证了用户隐私安全性的增加。在传统的移动设备中,数据分析和机器学习过程需要将用户的大量数据发送到云端,从而对用户的数据隐私和移动设备的安全性构成威胁。随着移动设备上AI芯片的运行,所有必需的分析和计算都可以在设备上离线执行。这种在移动设备中集成的专用硬件极大地降低了用户数据被黑客入侵或泄露的风险。
效率:在现实世界中,通过结合人工智能芯片,图像识别和处理等任务可能会更快。华为的神经网络处理单元就是一个很好的例子。它可以按每秒2000张图片的效率识别图像。该公司声称这比标准CPU所花费的时间快20倍。在处理16位浮点数时,它可以执行1.92teraflop(teraflop表示每秒1万亿次浮点运算)。Apple的神经引擎每秒可以处理大约6000亿次操作。
经济:移动设备上的AI芯片减少了将数据发送到云端的需要。此功能使用户能够离线访问服务并保存数据。因此,使用该应用程序的人不必为服务器付费。这对用户和开发人员都是有利的。
接下来,我们将解释移动设备上的AI如何影响用户与智能手机的交互方式。
人工智能的使用极大地增强了移动设备上的用户体验,这可以大致分为以下几类。
个性化。
虚拟助手。
面部识别。
AI驱动的摄像头。
预测文本。
现在就让我们逐项分析一下这些类型。
个性化(personalization)主要意味着修改服务或产品以适应特定个人的偏好,这有时与个人的聚类有关。在移动设备上,人工智能的使用有助于改善用户体验,让设备和应用程序适应用户的习惯及其独特的个人喜好,而不是面向通用的个人配置的应用程序。
移动设备上的AI算法可利用已经收集到的用户特定数据(如设备当前所在的位置、用户购买历史和行为模式)来预测当前和未来的个性化交互,例如某个用户喜欢在上午8点左右晨练,在午餐时习惯听音乐。
人工智能可收集与用户的购买历史相关的数据,并将其与从在线流量、移动设备、嵌入电子设备中的传感器和车辆中获得的其他数据整合在一起,然后使用这些整合编译之后的数据来分析用户的行为,并允许商家采取必要的措施来提高用户的参与率。因此,用户可以利用人工智能应用的优势来获得个性化的结果,这将减少他们花费在滚动页面上的时间,使他们可以探索更多的产品和服务。
这方面最好的例子是在淘宝和京东等购物平台或YouTube和百度等媒体平台上运行的推荐系统,它们能够把你想看的内容精准推送给你。
注意:
2011年,亚马逊宣布销售额增长了29%,从99亿美元增至128.3亿美元。凭借其最成功的推荐率,亚马逊35%的销售额来自其产品推荐引擎引导的客户。
虚拟助手(virtual assistant)是一种理解语音命令并为用户完成任务的应用程序。它们能够使用自然语言理解(natural language understanding,NLU)来解释人类语音,并且常通过合成语音进行响应。你可以使用虚拟助理来完成真正的私人助理会为你完成的几乎所有任务,例如,代表你打电话、记下你口述的笔记、打开或关闭家中的灯、在家庭自动化的帮助下办公、为你播放音乐,甚至可以简单地与你谈论任何你想谈论的话题。
虚拟助手能够以文本、音频或视觉手势的形式接收命令。随着时间的推移,虚拟助手会适应用户习惯并变得更聪明。
利用自然语言处理(natural language processing,NLP)的强大功能,虚拟助手可以从用户的口语中识别命令,并从上传到助手的图像中识别人和宠物。虚拟助手甚至还可以从任何它们能够访问的在线相册中找到目标。
目前市场上最受欢迎的虚拟助手是亚马逊的Alexa、Google的Assistant(助理)、iPhone的Siri、微软的Cortana(小娜)和运行在三星设备上的Bixby。
一些虚拟助手是被动的听众,只有在收到特定的唤醒命令时才会响应。例如,可以使用“Hey Google”或“OK Google”命令来激活Google Assistant,然后使用“关闭卧室灯”命令使它关灯,或者使用“给<联系人姓名>打电话”让它从你的联系人列表中搜索并呼叫某人。在Google IO '18中,Google推出了Duplex电话预订AI,表明Google Assistant不仅可以拨打电话,还可以进行对话,甚至可以自己预订美发沙龙。
虚拟助手的用户呈指数级增长,54%的用户认为虚拟助手有助于简化日常任务,31%的用户已经在日常生活中使用助手。此外,64%的用户使用虚拟助手的目的不止一个。
面部识别(facial recognition)技术可以从数字图像和视频中识别或验证面部或理解面部表情。该系统通常可以将给定图像中最常见和最突出的面部特征与存储在数据库中的面部进行比较。面部识别还能够根据个人的面部纹理和形状来理解模式和变化,以识别个人。在此基础上,还可以有基于生物识别AI的应用。
最初,面部识别是计算机应用程序的一种形式。但是,最近它也被广泛用于移动平台。面部识别与指纹和虹膜识别(iris recognition)等生物识别技术相结合,在移动设备的安全系统中得到了普遍应用。
一般来说,人脸识别的过程分两个步骤进行——首先是特征提取和选择,然后是对象的分类。后来的开发引入了其他几种方法,例如使用面部识别算法、三维识别、皮肤纹理分析和热像仪等。
在Android智能手机中,已经出现了基于指纹的身份验证系统,而Face ID则是其后继者,并且已经引入了Apple iPhone X。
Face ID的人脸识别传感器由两部分组成:Romeo(罗密欧)模块和Juliet(朱丽叶)模块。Romeo模块负责将30000多个红外点投射到用户的脸上。该模块的对应部分——Juliet模块,则读取由用户脸上的点形成的图案,然后将模式发送到设备CPU的安全飞地(secure enclave)模块,以确认面部是否与所有者匹配。Apple无法直接访问这些面部图案。这是额外的安全层。
该技术可从用户外貌的变化中学习,并且可以在化妆、胡须生长、戴眼镜、太阳镜和帽子等情况下正常工作。它还可以在黑暗中工作。Flood Illuminator(泛光照明器)是一种专用的红外闪光灯,可将不可见的红外光投射到用户的脸上,以正确读取面部点,并帮助系统在弱光条件下甚至在黑暗中运行。
与iPhone不同的是,三星等设备主要依赖二维面部识别以及虹膜扫描仪。
注意:
受益于面部识别的全球软件市场预计将从2017年的38.5亿美元增长到2023年的97.8亿美元。亚太地区占其市场份额的16%左右,是增长最快的地区。
人工智能在相机中的集成使它们能够识别、理解、增强场景和照片。人工智能相机能够理解和控制相机的各种参数。这些相机基于称为计算摄影(computational photography)的数字图像处理技术的原理,使用算法而不是光学过程来寻求使用机器视觉识别和改进图片的内容。这些相机可使用在包含数百万个样本的庞大图像数据集上训练的深度学习模型来自动识别场景、光线的可用性以及被捕获场景的角度。
当相机指向正确的方向时,相机的人工智能算法便会接管并更改相机的设置,以产生最佳质量的图像。就底层而言,支持人工智能摄影的系统并不简单。它所使用的模型经过高度优化,几乎可在实时检测到要捕获的场景特征时生成正确的相机设置。它们还可以为图像添加动态曝光、颜色调整和最佳效果。有时,图像可能会由人工智能模型自动进行后处理,而不是在点击照片期间进行处理,以减少设备的计算开销。
如今,移动设备普遍配备双镜头相机。这些相机使用两个镜头在照片上添加散景效果(bokeh effect)。散景效果也称为模糊(blur),可为主要拍摄对象周围的背景增添一种模糊感,使其在美学上令人愉悦。基于人工智能的算法有助于识别主体并模糊剩余的部分,从而产生肖像效果。
Google Pixel 3相机在两种拍摄模式下工作,称为Top Shot和Photobooth。Top Shot拍摄模式的原理是在启用动态拍摄时,可以利用AI运算“最佳时刻”的拍摄图片,例如,找出最好的客观因素(如环境、拍摄亮度)与主观因素(如被拍的人是否闭眼、脸部情绪等),并在1.5 s内拍摄多张照片,再从中挑选两张AI判定的最佳照片来存储。这是通过提供给相机的图像识别系统的大量训练实现的。经过训练之后,AI能够选择最好看的图片,就像人类在挑选照片一样。
Photobooth模式允许用户简单地将手持设备对准动作场景,并且在相机预测图像完美的时刻自动拍摄图像。
预测文本(predictive text)是一种输入技术,常用于消息应用。当你输入消息内容时,它会根据输入的单词和短语向用户建议单词。这就好比你在百度搜索框中输入“机器学习”时,会自动出现“机器学习算法”“机器学习Python”“机器学习实战”等建议一样。每次按键后的预测都是唯一的,而不是以相同的顺序生成字母的重复序列。
预测文本可以允许通过单个按键输入整个单词,这可以显著加快输入过程,使输入任务(例如输入文本消息、编写电子邮件或输入地址簿中的地址)变得非常高效,并且几乎不需要使用设备密钥。
预测文本系统将用户的首选界面风格与其操作预测文本软件的学习能力水平联系起来,通过分析和适应用户的语言,系统最终会变得更加智能。
T9词典是此类文本预测器的一个很好的例子。它可以分析已使用词的频率并产生多个最可能的词。它还能考虑单词的组合。
注意:
Quick Type(快速输入)是Apple在其iOS 8版本中宣布的预测文本功能。它使用机器学习和自然语言处理(NLP)技术,允许软件根据用户的打字习惯构建自定义词典。
这些字典可用于预测。这些预测系统还取决于对话的上下文,并且它们能够区分正式语言和非正式语言。此外,它还支持世界各地的多种语言,包括美国英语、英国英语、加拿大英语、澳大利亚英语、法语、德语、意大利语、巴西葡萄牙语、西班牙语和泰语等。
Google还推出了一项新功能,可帮助用户比以前更快地撰写和发送电子邮件。这项名为Smart Compose的功能可以理解输入的文本,以便人工智能可以建议单词和短语从而完成整个句子。Smart Compose还可以纠正拼写错误和语法错误,并为用户推荐最常输入的单词,帮助用户在编写电子邮件时节省时间。
Google还有一个值得称道的功能是Smart Reply,它类似于LinkedIn(领英)消息中的回复建议,可根据用户收到的电子邮件上下文提供回复建议,用户只需要单击按钮即可。例如,如果用户收到一封祝贺他们已接受应用程序的电子邮件,则Smart Reply功能很可能会提供回复选项——“谢谢!”“谢谢你让我知道”“谢谢你接受我的申请”等。然后,用户可以单击首选项并发送快速回复。
注意:
1940年代,林语堂发明了“明快中文打字机”,操作员可以根据汉字的字形来输入第一部分的字根,然后打字机会根据选择的字根来旋转大滚筒,将拥有同一类字形汉字的那一条滚筒转到工作区域。然后输入第二部分的字根,最后找到正确的汉字。这种选字机制和预测文本的原理有异曲同工之妙。
最近,我们看到将人工智能纳入其功能,以提高用户参与度和定制服务交付的应用程序数量在激增。本节将简要讨论一些移动应用领域的最大参与者,看看它们如何利用人工智能的优势来促进其业务发展。具体内容如下。
Netflix。
Seeing AI。
Allo。
English Language Speech Assistant。
Socratic。
在移动应用中,机器学习的最佳和最受欢迎的例子是Netflix。该应用采用线性回归、逻辑回归等机器学习算法,可为用户提供完美的个性化推荐体验。
按演员、流派、长度、评论和年份等分类的内容非常适用于训练机器学习算法。所有这些机器学习算法都可学习并适应用户的行为、选择和偏好。例如,约翰看了一部新电视连续剧的第一集,但不是很喜欢,所以他不会看后续的剧集。Netflix的推荐系统知道他不喜欢这种类型的电视节目,因此会将它们从约翰的推荐中删除。同样,如果约翰从推荐列表中选择了第8条推荐,或者在看完电影预告片后写了一篇差评,则算法会尝试适应他的行为和偏好,以提供完全个性化的内容。
Seeing AI由Microsoft开发,是一款智能相机应用程序,它使用计算机视觉来帮助盲人和视觉障碍人士了解周围环境。它具有多种功能,例如为用户朗读短文本和文档,提供关于某个人的描述,识别货币、颜色、笔迹、光线,甚至可识别其他应用程序中的图像。为了使应用程序更加超前并且可实时响应,开发人员采用了使服务器与Microsoft认知服务(Microsoft Cognitive Service)通信的思路。该应用程序汇集了光学字符识别(optical character recognition,OCR)、条码扫描器、人脸识别和场景识别等技术,可为用户提供一系列强大的功能。
Allo是由Google开发的以人工智能为中心的消息通信应用程序。截至2019年3月,Allo已停止运行。但是,这是Google人工智能应用程序旅程中的一个重要里程碑。该应用程序允许用户通过语音在他们的Android手机上执行操作。它使用了Smart Reply,这是一项通过分析对话上下文来建议单词和短语的功能。该应用程序不仅限于文本。事实上,它同样能够分析对话期间共享的图像并建议回复。这是通过强大的图像识别算法实现的。
后来,这个Smart Reply功能也在Google收件箱中实现,现在它也出现在Gmail应用程序中。
English Language Speech Assistant(ELSA)被评为基于人工智能的前五名应用程序之一,是世界上最聪明的人工智能语音导师。
English Language Speech Assistant移动应用可帮助人们改善发音。它被设计为冒险游戏,按级别区分。每个级别提供一组单词供用户发音,作为输入。程序可仔细检查用户的反应以指出他们的错误并帮助他们改进。当应用程序检测到错误的发音时,它会通过指导用户正确的嘴唇和舌头动作来教用户正确发音,以便正确说出单词。
Socratic是一款教学辅导应用程序,其名称源于古希腊著名哲学家Socrates(苏格拉底)。它允许用户对数学问题进行拍照,并给出解释其背后理论的答案,以及如何求解问题的详细信息。
该应用不仅限于数学。目前,它可以帮助用户学习23个不同学科,包括英语、物理、化学、历史、心理学和微积分。该应用程序可利用人工智能的强大功能来分析所需的信息,并返回带有分步解决方案的视频。
该应用程序的算法与计算机视觉技术相结合,能够从图像中读取问题。此外,它还使用了针对数百万个示例问题进行训练的机器学习分类器,这也有助于准确预测要解决的问题所涉及的概念。
接下来,让我们更深入地了解一下机器学习和深度学习。