边缘计算方法与工程实践最新章节_张骏著

1.1.2 边缘计算发展历史

20世纪90年代，Akamai公司首次定义了内容分发网络（Content Delivery Network，CDN）。这一事件被视为边缘计算的最早起源。在CDN的概念中，提出在终端用户附近设立传输节点，这些节点被用于存储缓存的静态数据，如图像和视频等。边缘计算通过允许节点参与并执行基本的计算任务，进一步提升了这一概念。1997年，计算机科学家Brian Noble成功地将边缘计算应用于移动技术的语音识别，两年后边缘计算又被成功应用于延长手机电池的使用寿命。这一过程在当时被称为“Cyber foraging”，也就是当前苹果Siri和谷歌语音识别的工作原理。1999年，点对点计算（Peer to Peer Computing）出现。2006年，亚马逊公司发布了EC2服务，从此云计算正式问世，并开始被各大企业纷纷采用。在2009年发布的“移动计算汇总的基于虚拟机的Cloudlets案例”中，时延与云计算之间的端到端关系被详细介绍和分析。该文章提出了两级架构的概念：第一级是云计算基础设施，第二级是由分布式云元素构成的Cloudlet。这一概念在很多方面成为现代边缘计算的理论基础。2013年，“雾计算”由思科（Cisco）带头成立的OpenFog组织正式提出，其中心思想是提升互联网可扩展性的分布式云计算基础设施。2014年，欧洲电信标准协会（ETSI）成立移动边缘计算规范工作组，推动边缘计算标准化。旨在为实现计算及存储资源的弹性利用，将云计算平台从移动核心网络内部迁移到移动接入边缘。ETSI在2016年提出把移动边缘计算的概念扩展为多接入边缘计算（Multi-Access Edge Computing，MEC），将边缘计算从电信蜂窝网络进一步延伸至其他无线接入网络，如Wi-Fi。自此，MEC成为一个可以运行在移动网络边缘的执行特定任务计算的云服务器。

在计算模型的演进过程中，边缘计算紧随面向数据的计算模型的发展。数据规模的不断扩大与人们对数据处理性能、能耗等方面的高要求正成为日益突出的难题。为了解决这一问题，在边缘计算产生之前，研究学者们在解决面向数据传输、计算和存储过程的计算负载和数据传输带宽的问题中，已经开始探索如何在靠近数据的边缘端增加数据处理功能，即开展由计算中心处理的计算任务向网络边缘迁移的相关研究，其中典型的模型包括：分布式数据库模型、P2P（Peer to Peer）模型、CDN模型、移动边缘计算模型、雾计算模型及海云计算模型。

1.分布式数据库模型

分布式数据库系统通常由许多较小的计算机组成，这些计算机可以被单独放置在不同的地点。每台计算机不仅可以存储数据库管理系统的完整拷贝副本或部分拷贝副本，还可以具有自己的局部数据库。通过网络将位于不同地点的多台计算机互相连接，共同组成一个具有完整且全局的、逻辑上集中、物理上分布的大型数据库系统。分布式数据库由一组数据构成，这组数据分布在不同的计算机上，计算机可以成为具有独立处理数据管理能力的网络节点，这些节点执行局部应用，称为场地自治。同时，通过网络通信子系统，每个节点也能执行全局应用。

在集中式数据库系统计算基础上发展起来的分布式数据库系统有如下特性：数据独立性、数据共享性、适当增加数据冗余度，以及数据全局一致性、可串行性和可恢复性等。

（1）数据独立性。集中式数据库系统中的数据独立性包括数据逻辑独立性和数据物理独立性两个方面，即用户程序与数据全局逻辑结构和数据存储结构无关。在分布式数据库系统中，还包括数据分布独立性，即数据分布透明性。数据分布透明性是指用户不必关心以下数据问题：数据的逻辑分片、数据物理位置分布的细节、数据重复副本（冗余数据）一致性问题以及局部场地上数据库支持哪种数据模型。

（2）数据共享性。数据库是多个用户的共享资源，为了保证数据库的安全性和完整性，在集中式数据库系统中，对共享数据库采取集中控制，同时配有数据库管理员负责监督，维护系统正常运行。在分布式数据库系统中，数据的共享有局部共享和全局共享两个层次。局部共享是指在局部数据库中存储局部场地各用户常用的共享数据。全局共享是指在分布式数据库系统的各个场地也同时存储其他场地的用户常用共享数据，用以支持系统全局应用。因此，对应的控制机构也具有集中和自治两个层次。

（3）适当增加数据冗余度。尽量减少数据冗余度是集中式数据库系统的目标之一，这是因为冗余数据不仅浪费存储空间，而且容易造成各数据副本之间的不一致性。集中式数据库系统不得不付出一定的维护代价来减少数据冗余度，以保证数据一致性和实现数据共享。相反，在分布式数据系统中却希望适当增加数据冗余度，即将同一数据的多个副本存储在不同的场地。适当增加数据冗余度不仅可以提升分布式数据系统的可靠性、可用性，即当某一场地出现故障时，系统可以对另一场地上的相同副本进行操作，以避免因为一处发生故障而造成整个系统的瘫痪。必要的冗余数据还可以提高分布式数据系统的性能，即系统通过选择离用户最近的数据副本进行操作，降低通信代价，提升系统整体性能。但冗余副本之间数据不一致的问题仍然是分布式数据库系统必须要着力解决的问题。

（4）数据全局一致性、可串行性和可恢复性。在分布式数据库系统中，各局部数据库不仅要达到集中式数据库的一致性、并发事务的可串行性和可恢复性要求，还要保证达到数据库的全局一致性、全局并发事务的可串行性和系统的全局可恢复性要求。

2.P2P模型

对等网络（P2P）是一种新兴的通信模式，也称为对等连接或工作组。对等网络定义每个参与者都可以发起一个通信对话，所有参与者具有同等的能力。在对等网络上的每台计算机具有相同的功能，没有主从之分，没有专用服务器，也没有专用工作站，任何一台计算机既可以作为服务器，又可以作为工作站，如图1-1所示为对等网络拓扑。

图1-1 对等网络拓扑

当前的通信模式还有Client/Server、Browse/Server和Slave/Master等。例如，企业局域网都是Client/Server、Browse/Server模式，而早期的主机系统则采用Slave/Master模式。这些模式的共同特点是在网络中必须有应用服务器，通过应用服务器处理用户请求，完成用户之间的通信，以应用为核心。而在对等网络中，用户之间则可以进行直接通信，实现共享资源，完成协同工作。对等网络可以在现有的网络基础上通过软件实现，目前它正在Internet上得到推广。一组用户可以通过相同的互联软件进行联系，也可以直接访问其他同组成员硬件设备上的文件。

P2P的特点包括非中心化、可扩展性、健壮性、高性价比及隐私保护。

（1）非中心化。在所有节点上分散网络资源和网络服务，以实现在节点之间进行信息传输和服务实现，不需要中间服务器的介入，可成功避免可能的数据处理瓶颈。

（2）可扩展性。在P2P中，随着用户的不断加入、服务需求的不断增加，系统的整体资源和服务能力得以同步扩充和提高。新用户的加入可以提供服务和资源，更好地满足了网络中用户的需求，促进分布式体系的实现。

（3）健壮性。耐攻击和高容错是P2P架构的两大优点。在通常以自组织方式建立起来的P2P中，结点被允许自由地加入和离开。不同的P2P可以采用不同的拓扑构造方式，并且拓扑结构可根据网络带宽、节点数、负载等变化不断地进行自适应调整和优化。分散在各个节点间完成服务可以大大降低部分节点或网络破坏的影响程度，即便部分节点或网络遭到破坏，对其他部分的影响也很小。

（4）高性价比。由于互联网中散布大量普通节点，P2P可以有效地利用这些节点完成计算任务或资料存储。通过利用互联网中闲置的计算能力、存储空间，得以实现高性能计算和海量存储的目的。

（5）隐私保护。在P2P中，信息的传输并不需要经过某个集中环节而是在各个节点之间进行的，这样大大降低了用户隐私信息被窃听和泄露的可能性。目前，主要采用中继转发的技术方法来解决Internet隐私问题，即将通信的参与者隐藏在众多的网络实体之中。在传统的匿名通信系统中，必须通过某些中继服务器节点来实现这一机制。而在P2P中，网络上的所有参与节点都可以提供中继转发功能，从而使得匿名通信的灵活性大大提高，能够为用户提供更好的隐私保护。

3.CDN模型

CDN提出在现有的Internet中添加一层新的网络架构，更接近用户，被称为网络边缘。网站的内容被发布到最接近用户的网络“边缘”，用户可以就近取得所需的内容，从而缓解Internet网络拥塞状况，提高用户访问网站的响应速度，从技术上全面解决由于网络带宽小、用户访问量大、网点分布不均等原因造成的网站的响应速度慢的问题。CDN拓扑和集中单点服务器拓扑对比如图1-2所示。

图1-2 CDN拓扑和集中单点服务器拓扑对比

从狭义角度讲，CDN以一种新型的网络构建方式，在传统的IP网中作为特别优化的网络覆盖层用于大宽带需求的内容分发和储存。从广义角度讲，CDN是基于质量与秩序的网络服务模式的代表。简单地说，CDN成为一个策略性部署的整体系统需要具备4个要件：分布式存储、负载均衡、网络请求重定向和内容管理。而内容管理和全局网络流量管理构成CDN的两大核心。CDN基于用户就近原则和服务器负载管理，为用户的请求提供极为高效的服务。概括地说，CDN的内容服务是基于位于网络边缘的缓冲服务器，即代理缓存。同时，代理缓存又是内容提供商源服务器的一个透明镜像。通常来讲，内容提供商源服务器位于CDN服务提供商的数据中心。这样的架构成功地帮助CDN服务提供商代表他们的客户，即内容提供商，向那些不能容忍有任何时延响应的最终用户提供尽可能好的用户体验。

目前，亚马逊和Akamai等公司都拥有比较成熟的CDN技术。国内的CDN技术发展很快，不仅成功交付了期望的性能和用户体验，而且大大降低了提供商的组织运营压力。近年来，主动内容分发网络（Active Content Distribution Networks，ACDN）以一种新的体系结构模型被研究人员提出。ACDN改进了传统的CDN，根据需要将应用在各服务器之间进行复制和迁移，成功地帮助内容提供商避免了一些新算法的研究设计。

清华大学团队设计和实现的边缘视频CDN是中国学术界研究CDN优化技术的一个经典案例，其提出通过数据驱动的方法组织边缘内容热点，基于请求预测服务器峰值转移的复制策略，实现把内容从服务器复制到边缘计算热点上，为用户提供服务。

和早期提出的边缘计算不同，早期的“边缘”仅限于分布在世界各地的CDN缓存服务器，现在的边缘计算早已超出了CDN的范畴，边缘计算模型的“边缘”已经从边缘节点进化到了从数据源到云计算中心路径之间的任意计算、存储和网络资源。边缘计算也从早期CDN中的静态内容分发到更加强调计算功能。目前，随着各大公司研究资源的不断投入，相关的技术研究和研究人员的培养越来越受到重视，不再是以前的单纯“开发”。

4.移动边缘计算模型

移动边缘计算（Mobile Edge Computing，MEC）通过将传统电信蜂窝网络和互联网业务深度融合，大大降低了移动业务交付的端到端时延，进而提升用户体验，无线网络的内在能力被成功发掘。这一概念不仅给电信运营商的运作模式带来全新变革，而且促进新型的产业链及网络生态圈的建立。

经评估，通过将应用服务器部署到无线网络边缘，可节省现有的应用服务器和无线接入网络间的回程线路上高达35%的带宽。越来越多的IP流量正在被游戏、视频和基于数据流的网页内容占据，这对移动网络提供好的用户体验提出了更高的要求。边缘云架构的使用可以成功地使用户端体验的网络时延降低50%。据Gartner公司报告，到2020年，全球联网的物联网设备将高达208亿台。以图像识别为例，若增加服务器处理时间50～100ms，可将识别准确率提高10%～20%。这等同于即使不改进现有的识别算法，仅应用移动边缘计算技术，即可通过降低服务器同移动终端之间的传输时延达到提升图像识别效果的目的。

同时，依靠低时延、可编程性以及可扩展性等方面的优势，边缘计算正日益成为满足5G高标准要求的关键技术。移动边缘计算将服务和缓存从中心网络迁移到网络边缘，不仅成功缓解了中心网络的拥塞，还因为边缘网络的就近性为用户请求提供更高效的响应。

在众所周知的移动技术难点中，任务迁移是其中之一。LODCO算法、分布式计算迁移、EPCO算法和LPCO算法，以及Actor模型等优化算法的运用，使得任务迁移得以成功实现。今天，在多种场景中可以见到移动边缘计算的应用，如车联网、物联网网关、辅助计算、智能视频加速、移动大数据分析等。

通常的移动边缘终端设备被认为不具备计算能力，于是人们提出在移动边缘终端设备和云计算中心之间建立边缘服务器，将终端数据的计算任务放在边缘服务器上完成。而在移动边缘计算模型中，终端设备是具有较强的计算能力的。由此可见，移动边缘计算模型是边缘计算模型的一种，非常类似边缘计算服务器的架构和层次。

5.雾计算模型

雾计算（Fog Computing）是在2011年年初由哥伦比亚大学的斯特尔佛教授（Prof.Stolfo）首次提出的，旨在利用“雾”阻挡黑客入侵。2012年，雾计算被思科公司定义为一种高度虚拟化的计算平台，中心思想是将云计算中心任务迁移到网络边缘设备上。

雾计算作为对云计算的补充，提供在终端设备和传统云计算中心之间的计算、存储、网络服务。L M Vaquero对雾计算进行了较为全面的定义：为了扩展基于云的网络结构，雾计算在云和移动设备之间引入中间层，而中间层则是由部署在网络边缘的雾服务器组成的“雾层”。云计算中心和移动用户之间的多次通信可以通过雾计算被成功避免。通过雾计算服务器，主干链路的带宽负载和耗能可以显著减少。当移动用户量巨大时，一些特定的服务的请求可以通过访问雾计算服务器中的缓存内容来完成。此外，因为雾计算服务器和云计算中心可以互联，所以云计算中心强大的计算能力和丰富的应用及服务可以被雾计算服务器使用。

由于概念上的相似性，雾计算和边缘计算在很多场合被用来表示相同或相似的一个意思。两者的主要区分是雾计算关注后端分布式共享资源的管理，而边缘计算在强调边缘基础设施和边缘设备的同时，更关心边缘智能的设计和实现。

6.海云计算模型

在万物互联的背景下，待处理数据量将升至ZB级。这对信息系统的感知、传输、存储和处理的能力提出了更高的要求。针对这一挑战，2012年，中国科学院启动了10年战略优先研究倡议，被称为下一代信息与通信技术倡议（Next Generation Information and Communication Technology initiative，NICT）。倡议的主旨是要开展“海云计算系统项目”的研究，其核心是通过“云计算”系统和“海计算”系统的协同和集成，增强传统的云计算能力。其中，“海”端指由人类本身、物理世界的设备和子系统组成的终端（客户端）。

“海云计算系统项目”的研究内容主要包括从整体系统结构层、数据中心级服务器及存储系统层、处理器芯片级等角度提出系统级解决方案，以实现面向ZB级数据处理的能效比现有技术提高1000倍的中心目标。

由此可见，边缘计算的关注点包括从“海”到“云”数据路径之间的任意计算存储和网络资源。与边缘计算相比，海云计算关注的是“海”的终端设备，海云计算是边缘计算的一个子集实例。