



边缘计算本身并不是一项单一的技术,而是一项综合利用各种技术的系统方法。许多最近非常热门的技术在边缘计算领域中都有极为广泛的应用,这些在本书后面的章节中还会进行详述,本节主要是围绕5G技术、云计算、IoT、机器学习及移动通信等技术领域的应用和发展进行简要介绍,并结合边缘计算技术进行讨论。
在通信领域中,5G技术无疑是最近几年最火的概念之一。笔者2017年在华为工作时,5G技术的各个主要领域就已经成为当时公司的战略研究和突破方向了,并且预测2020年左右,全球主要电信运营商会开始进行大规模的商业化部署。作为未来整个通信服务的基础设施架构,5G网络的开发和部署无疑会对云计算和边缘计算技术的发展和应用产生举足轻重的作用。
5G标准是面向未来10年的信息技术对数据传输和处理的要求而设计的,主要有以下几个性能和功能方面的要求。
1.连续的广域覆盖
对于移动通信网络来说,做到高覆盖是最基本的要求。为了实现这一点,4G网络在城市中心地带的基站部署密度会达到每间隔200~300米安装一个,而且为了提高覆盖强度,天线大多是10度倾角安装。5G的频率范围比4G的要宽很多,分为FR1和FR2两个频率范围,FR1通常指的是Sub-6GHz,频率范围从450MHz到6000MHz;FR2的频率范围为24250MHz到52600MHz,主要涉及毫米波通信。由于5G可以采用的频段较丰富,国内运营商可以重耕2G/3G使用的800MHz、900MHz等低频段用于NB-IoT等物联网服务,使得5G覆盖能力强于4G。不过,由于5G提供的服务类型更加丰富,且设备数量也会成倍增长,所以最终5G基站的密度肯定会达到甚至超过4G的水平。
2.高容量基站
对于居民、商业服务、写字楼这样的场景,5G网络需要能够提供高带宽和高容量。要求能够达到1Gb/s的用户体验速率、10Gb/s以上的峰值速率和每平方千米10Tb/s以上的流量密度。在恶劣环境下(小区网络边缘、高速行驶的交通工具上等)能够提供100Mb/s的用户体验速率和每平方千米1Tb/s的流量密度。
3.低功耗和大连接
由于需要处理大量远程连入的物联网和边缘设备的请求,要求能够提供海量的连接数量(每平方千米数万或数十万的连接数量)。同时,还要满足低功耗要求,以确保电池能够长时间使用而不更换(5年以上)。
4.低时延和高可靠性
国际电信联盟(ITU)、IMT-2020推进组等国内外5G研究组织机构均对5G提出了毫秒级的端到端时延要求,理想情况下端到端时延为1ms,典型端到端时延为5~10ms。我们目前使用的4G网络,端到端理想时延为10ms左右,长期演进(LTE)的端到端典型时延为50~100ms,这意味着5G将端到端时延缩短为4G的十分之一。而3G的端到端时延为几百毫秒量级。
如图1-10所示,对于5G网络,主要分成了三种业务场景,或者说三种切片,分别提供不同的网络服务质量(QoS)。其中最基础的是eMBB(增强移动宽带)场景,即现在通用的移动通信设备和宽带服务,比如网页、互联网游戏、视频服务等应用。对应的是要求高速、大带宽的应用服务领域,最重要的指标是网络传输速度,对时延的要求不高。标准是在理想条件下连接带宽达到10~20Gb/s。从如今已经完成并冻结的R15标准来看,其主要的应用领域还集中在eMBB的场景。其实eMBB场景下的时延要求不高也只是相对的,由于AR/VR技术的应用也是放在eMBB这个场景切片的,所以其时延要求其实必须小于人的感知能力范围(20ms以内)。这个要求还是高出4G标准的水平的。
图1-10 5G网络应用场景切片
mMTC(大规模机器类型通信)与eMBB场景面向“人”的服务不同,主要是处理机器或终端设备的大规模连接。实现的是与物的连接,处理的应用主要是面向智能水电表、智能路灯、农业管理、环境预警、安防等应用领域。主要面向的是低速率、低成本、低功耗、广覆盖、大连接的应用场景。这个场景将主要用到5G网络的低频段资源600MHz、700MHz和850/900MHz,例如,爱立信给AT&T建设的蜂窝基站就拥有每个基站接入数百万个连接的大规模IoT的能力。
uRLLC(超高可靠与低时延通信)对应的应用场景是物与物及人与物相连,这些应用包括自动驾驶、高速和高精度工业控制、交通安全控制、远程医疗和手术等。这些应用对带宽、可用性和时延的要求都非常高。时延要求能够达到1ms以内,同时可用性要达到极高的要求。
现阶段从国内外的主要电信运营商升级到5G的计划和时间表来看,还是以非独立组网(NSA)方式为主。这种方式其实就是部分使用4G现有的基础设施(主要是EPC核心网),结合5G的部分功能或模块进行组网的方案。NSA组网方式分成很多种,但是目前来看,最流行的方式应该是R15标准中确定的选项3方式。即继续使用现有4G网络的核心网EPC,改造或跳过4G基站,以便能够和5G NR接入层连接,提供10Gb/s的连接速度(由于4G基站只能提供最多1Gb/s的连接速度,所以需要改造升级4G基站或直接连入5G基站)。在选项3中,根据改造4G基站还是直接使用5G基站,又分成3x(4G LTE和5G NR共用5G基站接入)、3a(4G基站和5G基站相互独立)和3(改造升级4G基站,同时给4G LTE和5G NR服务)三种方案。
目前通过NSA组网模式,能够在一定程度上实现eMBB场景的应用。但是,对于mMTC和uRLLC这两个场景还是无法满足的。主要原因是,现有4G核心网的承载能力和响应速度还无法匹配后两种场景的要求,而mMTC和uRLLC恰恰是对物联网和边缘计算来说最为重要的。现阶段已经完成并冻结的5G-R15标准其实主要是定义了eMBB相关的应用和组网标准。R16标准对于mMTC和uRLLC的内容和组网要求进行了比较详细的定义,在2020年7月正式完成并冻结。R16版本标准更加关注各垂直行业的需求和实现技术,以及5G整体的性能增强。发布了面向智能交通、智能驾驶领域的5G V2X;面向工业物联网领域的uRLLC增强和时间敏感网络(TSN)的支持,以及对于5G非授权频谱(NR-U)的使用等功能。R16版本要求在5G网络中能够达到1ms空口时延、5ms以内端到端时延;并且将可靠性要求从99.9%提升到99.999%;授时精度达到微秒(µs)级。可以看到,实现R16版本标准,才真正意味着5G技术能够用于对通信要求非常严苛的工业边缘领域,并真正支持高质量的万物互联。
2022年6月9日,5G的R17版本标准冻结。这标志着5G标准的第一个阶段完成,进入了成熟期和稳定期。R17版本标准对于原来的R16进一步进行了服务水平协议(SLA)的补充。另外,在R16的基础上,进一步提高了网络性能要求。室内工厂理想环境下的定位精度由R16的<3m提升到<0.5m,终端在空闲态和非激活态下的能耗比R16节省20%~30%,工业物联网TSN的空口授时精度从R16的±540ns提升到±145~±275ns,并支持多向授时。最重要的是R17引入了新的技术和功能,以加强物联网和边缘连接能力。例如,轻量级新型终端(RedCap)通过降低终端带宽和天线数目、简化双工传输、裁剪协议流程功能、减少功耗开销等技术手段,满足低成本、低功耗、中等数据速率的物联需求,能够与窄带物联网(NB-IoT)形成互补,适配工业传感器、视频监控及可穿戴设备等各种边缘应用场景。天地一体新网络(NTN)技术可以通过卫星链中继实现上千千米的超广域覆盖。新设计的多播广播功能(MBS)通过灵活的传输模式及反馈模式,实现多播广播业务的高效可靠传输,可以在实况转播、公共安全等领域中发挥重要的作用。尤其增强了对边缘计算服务的支持,可以自动发现边缘服务器。增加了边缘应用服务发现功能(EASDF),相当于用户设备(UE)选择边缘服务器的DNS服务,通过UE的位置信息路由到最近的边缘应用服务器上。
5G网络最终要完成独立组网(SA),并将目前的R15/16/17在设备和部署上充分落实,才能够真正获得完整的5G通信能力。电信运营商和设备供应商可能要花数年的时间才能完成所有的网络建设。同时,5G标准不是一个固定的形式,而是不断演进和发展的动态过程。如今,面向未来万物互联的R18标准已经提上第三代合作伙伴计划(3GPP)的议事日程。总之,物联网和边缘计算技术一定会被5G技术深刻影响,但这肯定也会是一个长期的过程。图1-11展示了5G标准路线图,可以看到5G标准和技术的演进不会停止。随着5G技术的不断发展、成熟和应用,未来在边缘端和IoT领域中一定会产生大量颠覆性的创新和应用,会像移动互联网一样改变我们的生活和工作方式。
图1-11 3GPP的5G标准版本发布时间线
来源:爱立信官方网站文章5G evolution toward 5G advanced: An overview of 3GPP releases 17 and 18.
云计算、边缘计算和IoT这个三元组,通常可以简称为云边端,这三个部分是相互补充和相互依赖的关系。在最近的十年间,企业IT基础设施已经从电信公司的托管机房或企业自建的机房转换到了云计算平台。
下面讲一个笔者当年亲历的小故事,以便让大家更深切地体会到云计算所带来的便利。记得2008年时,我帮客户建立了一个面向中国客户的网站,客户是一家规模很大的外资广告公司。为了网站的性能、稳定性和安全性,该公司需要部署独立的主机。我背着十几公斤的服务器来到上海某郊区的电信托管机房,机房管理员在机房旁边的办公室问了我是哪家代理商,托管多长时间,记录了我的身份证号。然后管理员带我进入了那个两层楼的机房。如果要用一个字来形容当时的电信托管机房的话,那“乱”字是最贴切的了。机房的机架上胡乱堆放着来自不同客户、不同品牌及自装的服务器,后面插着混乱的网线和电线。一进门就感受到巨大的轰鸣声和一股股热浪扑面而来,就像是好多老式飞机引擎同时发动的感觉。墙角的空调被开到最大风量,不过声音早已被几千台各色服务器的轰鸣声盖住了。那个管理员找到了一个空位,把我的服务器用力地塞了进去,又从后面摸索出一根网线插在网卡端口上,然后接上电源。我打开机器,调通服务。管理员给了我外网IP地址和一个电话,说道,“有问题打这个电话,24小时有人值班。”而实际上他们能做的通常就是有问题时帮你重启机器。当时服务器加上1U服务器一年的托管费差不多上万元,而得到的服务却极为有限。
后来有了各种云计算平台,我当年的这种经历估计现在很少会有朋友再去体验了。云计算通过虚拟化技术,把专业互联网公司的大规模集群的计算和存储能力提供给用户使用。有了云计算以后,就可以实现按需购买服务器运算资源,节约了企业IT成本。而且虚拟化技术使云服务能够有极强的伸缩性、弹性和可靠性。系统的开发和维护团队不再需要关心底层的网络和服务器的问题,提高了应用开发和运维效率。这给整个IT行业的发展带来了巨大的促进作用,甚至很多重量级的互联网公司也开始逐渐把IT基础设施迁移到公有云上,比如美国的在线流媒体服务商Netflix就已经将主要的IT基础架构迁移到了AWS云服务上。一些最近十年发展起来的互联网公司,如Airbnb、Uber等都是AWS等公有云服务的重度用户。而国内的大量新的创业公司也都采用了阿里云、腾讯云等国内的云平台服务。
尽管云计算拥有这么多的优点,但是当IT发展到物和物、人和物的全连接时代时,公有云计算本身的一些缺陷也暴露出来了。
(1)公有云的物理服务器也是集中在几个到数十个大型数据中心的,所以云服务,尤其是公有云服务本身是中心化的。面对迅速增长的终端设备,云数据中心的运算和存储能力跟不上终端设备增长的需求。如果所有终端设备产生的数据都要进入云平台并进行处理,将会产生极为高昂的成本。持续增长的海量数据处理,要求有几何级增长的云计算能力。这将给云计算数据中心造成非常沉重的压力。
(2)大量的终端设备需要高可用性和极低时延的服务。通常,云数据中心和实际的设备之间的物理距离都比较远,当前网络基础设施(4G及早期5G)还达不到10ms以下的时延要求。
(3)终端设备的运行环境和运行状态是无法确保持续稳定的,边缘端连接核心网的持续可用性无法保证。大量设备工作在恶劣或极端环境中,很难保证和数据中心网络连接的可靠性。
(4)某些传感器和设备产生的数据是比较敏感的,可能涉及个人信息、商业机密或知识产权,最终用户不希望把所有的数据都上传到云。而在信息传输、处理和保存的过程中有可能会导致信息安全问题。
Intel公司的Mark Sharpness在2017年Linux基金会组织的开源峰会上列出了在全连接时代的数据量。2021年互联网用户人均产生数据大约为146GB,如果所有的设备都直接传输数据到云数据中心,这在现有技术和基础设施的条件下,将是不可能完成的任务。云计算平台的存储、计算和分析功能势必需要分流到边缘设备和终端设备上。
随着各种终端设备接入网络,同时对于处理海量连接和数据的要求,很多应用对实时性和可用性的要求越来越高。引入边缘设备已经是非常迫切的需求了。在大多数的物联网应用中,我们其实都有必要开始考虑边缘计算服务的部署和使用。如何在云—边—端这三个维度上设计物联网应用?如何分配数据和处理能力?如何做到快速响应,同时还能保证系统的安全可靠?如何将原来的直接的云+终端的模式迁移到边缘计算模式?这些问题都是需要去解决的,本书的目的其实也是提出一些技术和方法,去帮助大家解决边缘计算设计和落地到实际项目中的问题。
机器学习,尤其是深度学习已经成为如今最热门的技术领域之一。不过,相比于火热的人工智能媒体报道和各种概念,真正落地和实际产生的成功案例还是相对比较少的。尤其对于传统企业来说,各种AI概念的应用和落地缺乏真正的应用载体和能够熟练应用AI技术的人才。在边缘计算领域中,人工智能的应用也是非常重要的一个方向。边缘计算在基于地理位置及需要低延迟和快速响应的应用领域中有着天然的优势,其与人工智能的结合是一个非常重要的发展方向。
最近十年中,深度学习、神经网络算法的成熟和计算机本身处理能力的增强,使很多以前非常困难的人工智能问题取得重大突破。比如机器图像识别和自然语言处理,原先研究人员使用过非常复杂的处理方法,如自然语言处理的主流技术是隐马尔科夫模型和其他模糊匹配的算法。而图像识别,尤其是人脸识别方面,曾经占据主导地位的是局部二值模式(LBP)特征方法。
但是,这些方法使用起来非常复杂,而且一直无法进一步提高准确度。当卷积神经网络(CNN)和循环神经网络(RNN)被分别用于图像识别和自然语言处理时,奇迹似乎发生了,长期停滞的机器学习领域出现了重大突破。例如,人脸识别的识别精确度从90%提高到了99%。神经网络技术似乎一夜之间成为沉寂已久的人工智能研究领域的一剂兴奋剂,各种优化算法如雨后春笋般出现,大量的科研人员和资金投入了这个领域。紧接着,阿尔法围棋(AlphaGo)使用深度学习算法和强化学习算法,在2016年以4∶1的成绩战胜了人类顶尖围棋棋手李世石。这些成绩的取得确实令人振奋。通过这些新的机器学习技术,我们能够通过训练神经网络模型去完成许多不同的任务。
尽管机器学习已经能够很好地完成许多原先需要借助人的干预才能够完成的任务,但还是有一些制约因素。对于比较复杂的内容识别,或者需要获得更好的准确度时,我们往往需要搭建更深、更大的神经网络,而神经网络的学习对数据的数量和质量也是高度依赖的。大型的神经网络和大量的样本数据,需要密集和强大的计算能力和存储能力,这些都只能够在数据中心提供的运算平台上实现。训练出来的大型神经网络的执行也需要一定的运算能力。由于在很多场景中,没有办法在现场部署复杂的高性能边缘设备,因此对模型的轻量化及设备的小型化提出了更高的要求。
如今,越来越多的工业和物联网应用需要依靠机器学习的算法和模型来自动化流程,并实现很多重要的功能。对于边缘低功耗设备有软硬件两个方面的改进,第一个是在不会严重影响模型预测精度的情况下,让人工智能识别模型更加简单,运行起来更快。现在有不少算法可以简化模型,如YOLO、Mobile、Solid-State Drive(SSD)和SqueezeNet。第二个是采用模型压缩技术,压缩模型会损失一定的精度,但是能够大大提高模型的执行速度。
在很多应用场景中,往往可以牺牲微小的精度来换取更高的执行效率。此外,硬件本身的运算能力也在不断提高。由于半导体技术的发展,在功耗不明显增加的情况下,通过新的工艺生产出来的芯片运算能力已经越来越强大了;同时,Intel、Google推出了可以即时插拔的图像处理器(GPU),可以方便而快捷地提升边缘设备的AI运算性能。在很多地方,还可以直接使用现场可编程门阵列(FPGA)进行机器学习模型的执行。
对于深度神经网络来说,要想获得精确的预测结果,大量的数据样本是必不可少的。事实上,数据的质量和数量在机器学习应用上的重要性是远远大于算法的改进的,这一点我们会在后面涉及机器学习的部分详细讨论。人工智能应用中的边缘设备需要承担一项重要任务,就是数据样本的收集和上传。为神经网络学习积累样本,确保有足够多且高质量的样本数据,用这些样本数据不断训练模型并保持模型的判断精度。我们并不需要收集在边缘端产生的所有数据,在边缘设备上的数据上传云端之前,边缘服务器可以先进行一些过滤和预处理。这些过滤和预处理功能包括去除噪声数据、质量不佳的原始样本;整理、压缩和标准化采集到的数据等。
最近几年,由于受到数据隐私保护、网络带宽限制及数据中心计算能力的制约,分布式机器学习,尤其是联邦学习,成为人工智能领域一个非常热门的研究方向。联邦学习的一个重要理念就是要把数据样本的存储和模型训练的计算分流到大量的边缘设备中。由于边缘设备的不稳定性、通信延迟和设备异构性,产生了很多实际问题,这些问题和挑战也同时给物联网和边缘计算领域带来了很多重大突破的机会。
如表1-4所示,移动边缘计算(Mobile Edge Computing,MEC)和移动云计算(Cloud Edge Computing,MCC)有非常显著的要求差异,下面我们就来详细地介绍MEC相比MCC的独特优势。MEC在最近的文献中也被称为Multi-access Edge Computing,即多接入边缘计算。目前被广泛接受和使用的MEC定义是由欧洲电信标准化协会(ETSI)给出的,这个定义主要是为移动通信服务提供的参考,允许应用程序开发者利用通信服务运营商的无线接入网(RAN)设备作为边缘服务器。无线接入设备通常部署在蜂窝网络基站中,也就是允许通过基站的服务器为应用程序提供MEC功能的支持。
表1-4 移动边缘计算(MEC)和移动云计算(MCC)的区别