边缘计算方法与工程实践最新章节_张骏著

2.2.3 边缘计算基础资源架构准则

1.边缘时延要求

为了应对市场压力，企业变得越来越敏捷。在这样的趋势下，信息技术领域面临着越来越大的压力，因为它需要确保企业能对越来越快的业务速度做出响应。云计算彻底提升了企业可用的后端敏捷性，能够非常快速地为任何企业提供海量的计算和存储能力。敏捷性的下一阶段是前端敏捷，需要重点减少由网络和距离导致的时延。不同业务对时延的要求差异巨大。在工厂自动化中，微秒之差也是至关重要的。例如，运动控制应用需要几十微秒的周期时间，而在10μs内，光在一根典型的光纤中能够传输约3000ft（1ft=0.3048m）。在这种情况下，即便是缩短几英尺的距离也可能极为重要。

边缘计算的整体架构设计和部署与实际应用场景是分不开的。如图2-7所示，不同的应用对于最大允许时延的要求也有很大不同。例如，对于智能电网控制、无人驾驶、AR或VR应用等，时延需要控制在几十毫秒以内；一些工业控制、高频交易等应用甚至需要控制在1ms以内。这些应用场合一般都需要边缘计算来提高响应速度，在确定的时间内完成任务。对于4K高清视频流媒体、网页加载、网络聊天等应用，虽然它们对时延敏感度没有那么高，可允许的最高时延一般在1～4s左右，但过高的时延也会影响用户体验和服务质量。因此，也需要CDN来进行边缘侧的内容缓存和分发，从而降低由于网络和距离导致的时延。

为了达到边缘应用所需要的高性能和低时延要求，可以从多个方面进行优化：

1）对于虚拟化场景下的网络功能，可以借助SR-IOV、直通访问、DPDK、高速网卡（50G/100G）和NUMA等来提升性能。

2）对于存储功能，可以借助分层的存储结构，包括Memory、SATA、NVMe等，以及选择合适的内存数据库和数据处理框架来实现。

图2-7 实际应用场景的最大允许时延要求

3）对于计算功能，特别是在处理深度学习的推理算法、对称加密或非对称加解密等计算密集型业务时，标准的CPU平台是没有太大优势的。因此需要异构的计算平台，例如基于FPGA、GPU或者NPU的加速卡来卸载这些操作，以缩短计算时间，提升响应速度。

2.异构计算

随着AI技术的快速发展，基于机器学习或深度学习的AI技术越来越多地被引入到边缘计算节点甚至边缘设备中。如图2-8所示，同样是数字安防的例子，在智能摄像头中可以集成人脸识别或跟踪的算法，而在分布式的边缘计算节点中，可以进行人脸对齐或特征提取；同时，在带有本地存储的边缘计算节点中进行人脸匹配或特征存储，并周期性地将聚合的数据同步到云端服务器，进行更大范围的人脸匹配或特征存储。在这个过程中，边缘计算节点除了运行本身的业务和应用外，还需要能够执行边缘的模型推理，或根据收集的带标签的数据进行模型的更新和优化。这就需要在边缘计算节点中增加更多算力来更有效率地执行这些算法，例如，基于FPGA、GPU、ASIC等的加速器来卸载这部分业务负载。

图2-8 AI在人脸识别边缘服务器的应用

3.负载整合和业务编排

在对边缘计算提出更多功能需求的同时，用户往往需要简化系统结构，以降低成本。这就需要将单一功能的设备用多功能的设备来取代。随着处理器计算能力的提高，以及虚拟化技术的成熟，基于虚拟化和容器实现多负载整合成为业界发展的趋势。

由于边缘计算节点的分布式特征，既有南北向，也有东西向的节点，并且不同应用对于硬件配置、实时性、网络带宽等需求不尽相同，所以如何在边缘计算节点间进行合理的业务编排是关键。目前，流行的如Kubernetes或Apache Mesos等容器管理和业务编排器，也正通过用户定制调度器来应对边缘场景下复杂调度的问题。同时，通过业务编排器在分布的边缘节点间实现容灾备份，可提高系统可靠性。

4.本地互动性

互动性是指系统协作的速率——本地人与物的“健谈程度”，即确定行动所需的传感器和顺序交互数量。例如，一个人购物的过程包括以下步骤：定位感兴趣的商品，试用这些商品，更换商品，最终做出决定。这是一系列为最终做决策而连续进行的交互。与实时交互的、移动中的人和物组成的复杂多变的系统相比，传感器和制动器对计算能力和时延的要求截然不同。例如，对于自动驾驶车辆在自身系统内、其他车辆以及和周边环境之间进行的交互而言，迅速且果断的决策可以拯救生命。即使往复一次的时延很低，但一个协作的系统会将时延放大多倍，从而需要更短的时延才能满足要求。高水平的本地互动性除了要求解决方案的物理部署位置更接近于边缘，还需要更强大的信息处理能力、多输入关联能力和数据分析能力，而且可能还需要机器学习功能。

5.数据和带宽

可以说，今天的互联网是围绕涌向边缘的数据而设计的。而物联网的发展趋势正在打开边缘数据爆炸性增长的大门，这和早期云计算的数据流向是相反的。边缘数据的价值特点是：只在边缘对本地决策有价值，对中心总量分析有价值，时间敏感程度高、半衰期短且很快失去价值。

某一些数据可能比另一些数据更有价值，例如捕捉到物体移动的一帧镜头比空帧或仅记录风吹草动的一帧更有价值。有些数据可能需要归档，有些则不用。一些传感器会产生大量复杂数据，而其他传感器只会产生极少量的数据流。带宽的可用性和成本需要与数据价值、生命周期以及是否需要存储和归档相平衡，排列本地优先级、实行数据过滤和智能化有助于减少数据流量。

当数据仅在本地有价值时，边缘计算能够更近距离地处理甚至储存和归档原始数据，从而节约成本。数据存储和远程数据管理将至关重要。当需要处理海量数据时，本地分析和过滤能够减少需要进行维护或送往云端或企业数据中心的数据量。这降低了组网成本，并为更重要的流量处理保留了有限的网络带宽。

因此，应用在云端服务中心的大数据分析技术在边缘计算节点上应用得也越来越多。而随着边缘侧大数据的4V特性的显著增长，数据更快、更大、更多样，不可能像传统的MapReduce那样将数据先存储下来，然后进行处理和分析；另一方面，企业对于边缘侧的大数据处理也提出了更高的诉求，要求更快、更精准地捕获数据价值，高性能的流处理将是解决这些问题的关键之一，在大数据处理中也扮演越来越重要的角色。例如，通过Spark Streaming、Flink流处理框架提供内存计算，并在此之上发展出数据处理、高级分析和关系查询等能力。

6.隐私和安全

隐私、安全和监管要求可能需要边缘计算解决方案来满足。对于运营商的网络，一般认为核心网机房处于相对封闭的环境，受运营商控制，安全性有一定保证。而接入网相对更容易被用户接触，处于不安全的环境。由于边缘计算的本地业务处理特性，使得大多数数据在核心网之外得到终结，运营商的控制力减弱，攻击者可以通过边缘计算平台或应用攻击核心网，造成敏感数据泄露、DDoS攻击等。

边缘计算中的一些数据是公共的，但很多数据是企业保密信息、个人隐私或受到监管的信息。一些边缘计算架构和拓扑将根据数据需要在何地进行安全合法的存储和分析来决定。边缘的场景可能是工作场所、工厂或家庭，边缘计算可以与人和物在一起“就地部署”。或者边缘本身可能并不安全，例如位于公共空间。在这种情况下，边缘计算需要远离人和物部署才能保障安全。监管要求可能因地理位置而异，因此，不同位置应用有着不同的网络拓扑和数据归档要求。

隐私和安全问题将推动边缘计算拓扑、数据管理、归档策略和位置以及数据分析方案的形成。为满足不同边缘位置的地理和监管要求，不同的边缘计算解决方案之间可能大不相同。

7.有限的自主性

虽然边缘计算是中央数据中心或云服务的一部分或与之相连，位于边缘的用例可能需要一定程度的独立性和自主性，这包括自组织和自发现（处理新连接的人和物），或当一条连接断开时能够继续操作。例如，军用微云计算在中央云服务可用时能够利用其能力，但当连接断开时仍可以独立“正常运行”。边缘计算解决方案还可能依赖于云端或中央数据中心的某些功能或协调能力，而后续这种依赖将减弱。自主性要求还与用例如何确保自我恢复能力、如何处理后端的不一致和不确定的时延有关，也可能与用例如何包含边缘机器学习有关。

不依赖于连接后端的边缘计算解决方案需要更广泛的处理能力和数据缓存能力，也就是自我恢复能力。一旦重新建立连接，这些边缘计算解决方案将需要与它的云端或企业数据中心核心重新同步。它们需要足够灵活，以根据连接是否可用来动态变更计算能力。它们可能需要更丰富的机器学习能力来自我组织和自我发现，而非依赖核心系统的协调。

8.边缘部署环境

对于靠近现场设备端部署的边缘计算节点，一般需要考虑环境的要求。例如，在智能工厂应用中，边缘计算节点可能直接部署在车间的设备旁。因此，为了保证节点长时间稳定运行，需要支持宽温设计、防尘、无风扇运行，具备加固耐用的外壳或者机箱。

边缘计算服务器通常部署在靠近设备端的办公室内或网络边缘等，边缘计算服务器与BBU部署在同一个站址，因此其运行环境必须符合NEBS要求。NEBS要求包括：服务器的工作温度通常为-40～50℃，工作湿度为5%～100%，并需要具有良好的防水、防腐、防火性能，以及设备操作性，抗震性等特性；同时，边缘服务器可能会在机架外进行操作和使用，因此外壳尺寸相对于数据中心要小些，并能够灵活地支持各种固定方式，例如固定在墙上、桌子或者柜子内。