购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

关于互联网基础技术演进的思考

李晓东 李 颖 魏久麒 郑 浩 符玉梵
中国科学院计算技术研究所、清华大学互联网治理研究中心、伏羲智库

近年来,数字经济蓬勃发展,已成为继农业经济和工业经济之后的新经济形态,是当今经济增长的主要引擎之一。2016年,二十国集团峰会发布的《G20数字经济发展与合作倡议》明确指出,数字化的知识和信息是数字经济的关键生产要素,现代化信息网络是数字经济的重要载体。互联网作为计算机网络与网络间连接形成的全球化网络,构建了全球范围计算机之间的“信息桥梁”,是数字化数据传输和交换的基础。而数字化数据的传输和交换,即数据经济关键要素的流通,是数字经济发展的必要条件。互联网在数字经济发展中的作用至关重要。互联网基础技术,作为构建在互联网物理设施之上、支撑互联网业务应用、实现互联互通的关键技术,面临着新的挑战。

一、互联网基础技术的演进:数据互操作技术

(一)互联网新阶段发展趋势分析

1.数据与应用解耦需要数据互操作

互联网产生于信息化进程,伴随信息化不同阶段的推进而发展并得以应用。数据与应用之间关系的演变是信息化发展的主要特征之一,其对互联网技术的发展产生了重要影响。

在数字化阶段,互联网技术还没有出现和普及,数据和应用只能存储在用户本地,用户对数据具有完全的控制权。1946年,世界上第一台通用计算机在美国宾夕法尼亚大学诞生,标志着数字化阶段的开端。数字技术的不断创新加速了数字化的发展,孕育了第一批信息技术企业,其中不乏微软和苹果这样逐渐成长为科技巨头的公司。数字化阶段前期发展的特点是“本地化”,数据和应用存储在用户本地,用户对数据具有完全的控制权。然而,随着数据产生速率的持续提升和应用模式的不断创新,数据交换成为基本需求,直接推动了互联网的诞生。

在网络化阶段,互联网服务的发展催生了数据和应用均在网络云端的新模式。网络化阶段始于20世纪90年代,以互联网和信息通信为代表的网络技术作为该阶段的发展基石,逐渐形成了开放共享与互联互通的发展理念。互联网的发展满足了数字化阶段对数据交换的需求,催生了基于信息交换的新型商业模式。谷歌、网景、雅虎等信息服务公司应运而生,研发出以搜索引擎、浏览器和门户网站为代表的信息服务应用。随着互联网接入的普及和信息交换需求的演化,互联网进入了快速发展期。Meta、阿里巴巴、优步等平台型互联网公司抓住时代红利快速崛起,积累了海量用户和数据。互联网服务为人们的生活带来了极大的便利,同时产生了数据和应用均在网络云端的新服务模式,该模式导致用户数据完全由互联网服务提供者掌握,用户失去了对数据的控制权,数据安全和隐私问题逐渐凸显。

在智能化阶段,对挖掘数据价值的需求和对数据隐私与权属问题的担忧,推动“数据与应用解耦”的新模式出现。网络化阶段已经积累和正在加速产生的海量数据作为新型生产资料,面向交叉融合领域的智能技术作为新型生产力,在数据跨域共享与交换的新型生产关系的推动下,将推动对数据价值的深度挖掘。然而,平台型公司对数据的控制引发了用户对自身隐私和数据权属的担忧,用户无法通过自身产生的数据获得合法收益也引起了人们对数据价值分配的考虑。因此,智能化阶段的数据和应用的关系需要被重新定义,“数据与应用解耦”的模式成为未来信息化进程的必然趋势,也将对未来互联网技术发展和应用生态产生重要影响。在“数据与应用解耦”的模式中,隐私数据和重要数据应以相关方可选择、可信任、可控制的方式存储于相关方自定义或应用服务提供方的物理存储介质中。应用服务提供方不可再任意使用全量隐私数据和重要数据,而是在经过相关方许可的前提下,“按需使用”数据来提供应用服务。同时,通过建立数据价值分配机制,使相关方可以依靠数据获取收益。“数据与应用解耦”模式迫使互联网应用和数据之间交叉访问,传统模式下应用与数据的一对一关系将演变为多对多关系,大幅提升互操作的复杂度,数据之间的互操作将成为互联网未来发展关切的重点。

2.价值互联网支撑数据跨域互操作

互联网作为现代化信息网络,是解决数字化数据交换需求的产物,互操作是其重要课题。随着网络化规模的增大和互联网数据的累积,其核心需求从早期的数据交换、信息共享逐步演变为促成社会经济发展的知识构建,推动互联网从数据互联网、信息互联网发展至如今的价值互联网,推动TCP/IP、BGP、DNS等用于构建支撑跨域互联互通的互联网基础设施的关键技术——互联网基础技术的形成,逐步解决从网络粒度、网站粒度到如今的数据粒度的互操作问题。

在数据互联网阶段,罗伯特·卡恩(Robert E.Kahn)和温顿·瑟夫(Vinton G.Cerf)于1973年提出TCP/IP协议,解决了在不可靠网络上的可靠数据包传输的关键问题,实现了主机间的互操作。1969年,阿帕网已实现同构网络内主机互联和通信,但随着越来越多的主机加入,出现了难以定位目标主机、传输错误率高、网络运行效率低等问题。因此,如何规范数据包格式、统一通信协议的规范,实现机器粒度的互操作,满足全球范围内、异构网络间的可靠数据传输的迫切需求,成为互联网早期需要解决的关键问题。TCP/IP是解决在不可靠的异构网络上实现可靠数据传输的关键技术和协议,该协议套件可实现在不可靠的网络中将数据包从一台机器可靠地传输到另一台机器。TCP/IP有效地减少了网络连接和传输过程中的错误,提升了网络运行效率,逐渐发展成为不同网络中主机可靠互联的通用规范,奠定了其作为数据互联网阶段基础技术的地位。

在信息互联网阶段,蒂姆·伯纳斯·李(Tim Berners Lee)发明的HTML解决了在非结构化网络上结构化描述数据的关键问题,结合域名技术,实现了网站间的互操作。随着互联网接入规模的扩大,利用互联网完成信息交互的需求逐渐凸显。然而,缺乏信息获取入口和信息共享途径,导致难以实现多方的高效信息交互。因此,探索新的协议和规范,促进互联网中广泛的信息交互,成为互联网的新发展方向。HTML是解决信息交互问题的关键技术和标准。HTML实现了以结构化的信息描述方式来表述非结构化的网络数据,实现了跨平台的信息组织、展示与检索。在信息互联网阶段,域名系统逐步发展成为服务于互联网信息交换的关键基础设施,域名技术成为互联网基础技术之一。域名作为可映射到主机地址的具有语义性的全球唯一标识,被广泛用在统一资源标识符中,从而实现对互联网资源的定位。

在价值互联网阶段,区块链技术是解决在不可信的网络上可信交换数据问题的关键技术,是实现数岛间互操作的技术底座。不可信的网络中的数据交换因对数据的保护不当导致数据侵权、数据安全等问题频发,引发数据所有者对数据交换的担忧和对数据的过度保护需求,加剧了数据孤岛现象。尽管国内外已通过颁布法律法规为数据保护提供基础制度保障,如欧盟颁布的《通用数据保护条例》和国内的《数据安全法》《个人信息保护法》等,但技术保障仍然缺失,如何设计新的技术协议,连通数据孤岛,以实现互联网中跨域数据的互操作,有效保护数据所有权及安全、隐私,以实现不可信的网络中的可信数据交换,成为价值互联网阶段需要解决的关键问题。中本聪于2008年提出的区块链技术是满足可信数据交换需求的一种技术实现。区块链由去中心化的网络节点共同维护,不同节点对区块链中的数据和事务形成共识,记录在不可篡改的区块链账本中。为支撑去中心化的应用实现,2014年启动的以太坊项目提出了智能合约,以支持用图灵完备的编程语言将不同应用编写成智能合约,区块链节点独立运行智能合约并对结果形成共识,保障过程可信。该特性促使大量基于区块链的应用涌现,最典型的包括基于区块链的电子存证系统、物流溯源系统等应用。区块链为建立信任,在分布式账本中记录上层应用中的数据交换过程,并通过共识技术保证分布式账本的一致性、正确性和不可篡改,构成支撑价值互联网中的可信化要求的基础技术。在数据与应用解耦的发展趋势下,可信数据互操作的需求进一步增加,这要求当前的互联网基础技术进行迭代式创新,融合区块链技术构建P2P可信平台,构建支撑应用与数据跨域互联交换的新型基础设施和关键资源服务体系。

(二)数据互操作技术需要解决的问题

互联网数据互操作贯穿从采集、传输、存储到计算、应用、消亡的数据全生命周期。目前在数据跨域互操作过程中存在三方面需求:如何在保障数据安全可信的前提下实现数据的可发现、可访问、可交换。其中,可发现是指数据使用者如何能在互联网上发现满足自己需求的目标数据,并且能够获取到目标数据的确切数据地址;可访问是指如何让数据使用者在经过允许后访问目标数据,确保被授权后的合法访问;可交换是指如何让各方数据操作主体安全地进行数据交换,避免数据泄露、数据篡改、数据违规等安全问题。为满足上述需求,数据互操作技术需要构建统一的数据标识体系、数据确权体系、身份认证体系、访问授权体系、分类分级体系和算法管理体系,解决与标识确权、认证授权、安全交换相关的六个方面的问题。

● 针对数据孤岛问题,构建统一标准的数据标识体系,为全球数据建立唯一标识索引,形成数据所有者和使用者之间共享和交换数据信息的纽带,使产生的数据能被发现、需要的数据能被找到。

● 针对数据共享激励不足问题,构建统一标准的数据确权体系,明确数据权属,进而保护数据所有者的获益权,使之有充足的动力去分享数据来获取应得的利益。

● 针对数据使用壁垒严重问题,构建统一标准的身份认证体系,确保身份的唯一性和不可伪造性,保证数据互操作各方身份的真实可信,为数据的跨域使用提供分布式身份认证能力,打破因无法认证操作者而拒绝数据跨域使用的现状。

● 针对数据滥用问题,构建统一标准的访问授权体系,保障数据相关者对数据访问的可控,确保只有经过授权的数据使用者才可以访问和使用数据,避免数据侵权进一步引发数据泄露。

● 针对数据安全违规严重问题,构建统一标准的分类分级体系,以依据核心数据、重要数据、一般数据构成的分级框架和公共个人维度、公共管理维度、信息传播维度、行业领域维度的分类规则,形成具体可操作、可执行的数据分类分级标准,保障数据跨域互操作过程的合规性。

● 针对数据隐私泄露严重问题,构建统一标准的算法管理体系,对可信算法进行统一管理和认证,以结合现有的隐私保护技术,在不离域的前提下实现数据的价值释放。

未来,支撑全生命周期数据跨域的互操作技术需要提供标识确权、认证授权、安全交换三个方面的功能,这样才能有效解决可发现、可访问、可交换这三个在数据跨域互联互通过程中存在的关键问题,贯彻数据治理“共权、共享、共赢”的基本原则,形成构建数字经济发展和数字文明建设的关键基础设施的技术底座。

二、数据互操作技术的实现:从DNS到DIS

(一)从名字标识到数据标识

互联网基础技术的发展历史,是以标识为基础的服务体系的演进历史。互联网的关键标识资源是满足不同历史阶段互操作需求的产物。从最初以地址标识为基础的路由系统到以名字标识为基础的域名系统,满足了互联网对于主机互操作和网站互操作的需求,完成了支撑数据交换、信息交换的历史要求。而随着信息化进程的发展,数据跨域互联互通成为当今互联网的核心需求。在数据与应用解耦的新型模式下,如何充分尊重数据权属,实现在不可信的网络中的可信数据交换,是当今互联网所面临的巨大挑战。而传统的互联网基础技术已难以满足当前的价值交换的要求,一种以泛在标识为基础的数据标识体系的产生成为必然。

数据互操作的基础是数据标识体系,需要提供一种统一开放的分布式标识体系来为互联网级别的数据交换提供标识注册和解析服务。统一资源定位符(URL)作为当前访问互联网数据资源的标准方式,可以定位跨域数据资源,但其分配与使用受域名所有者的严格控制。在当前互联网的服务模式下,域名所有者通常为服务提供商,这使得URL所标识数据的控制权实际掌握在服务提供商而非用户手中。目前应用比较广泛的标识系统有DNS、Handle、OID等,如表1所示。其中,DNS作为当前应用和部署范围最广的标识系统,不局限于提供域名和IP地址的映射服务,已逐步扩展为通用的标识服务,具备支持服务发现、主机地理位置获取、支撑邮件安全保障等多样化互联网服务的能力。Handle基于扁平化的管理结构和权限控制来提供安全的标识管理体系,目前已在数字出版、知识产权、工业互联网等领域被广泛应用。除Handle外,OID、Ecode等标识系统在工业互联网领域也得到了广泛应用。然而,已有标识系统无法完全满足数据互操作的功能需求,而重新构建一套标识系统又存在部署和应用的难题。因此,如何基于已有标识系统进行功能创新,从而构建一个服务于数据交换的基础设施级的分布式标识系统是数据互操作技术需要解决的问题。

表1 常见标识系统

img

基于已有互联网基础技术,并遵循一套通用开放的架构及协议规范演进,是数据互操作技术的关键实现路径。DNS作为目前互联网的核心标识系统,在全球广泛部署且具备通用标识的服务能力。域名是目前互联网关键资源的核心连接点,如图1所示,它基于对IP地址、PKI身份证书、邮箱地址等资源的关联和映射,将全球的网站连接在一起,成为全球互联网的中枢神经系统。DNS不局限于提供域名和IP地址的映射服务,已逐步扩展为通用的标识服务,具备支持如服务发现、主机地理位置获取、支撑邮件安全保障等多样化的互联网服务的能力。为实现向后兼容的互联网基础技术发展,实现全球数据连接,构建数字经济的中枢神经系统,从DNS到DIS(Data Identifier System/Data Interoperating System,数据标识系统/数据互操作系统)的演进成为必然趋势。数据互操作系统基于DNS构建的底层标识体系,既可以解决其对于标识系统的需求,又能实现从DNS到DIS的兼容演进,这既是互联网基础技术创新的趋势,也是数据治理落地实施的保障,更是数字经济发展对底层逻辑数字基础设施的要求。

(二)从数据中台到数据中枢

跨域数据互联互通的传统模式是数据中台模式,其特点是存在一个中心平台来收集原始数据以满足数据流通的需求。然而,数据的离域收集会使数据面临不可控的安全风险,引发数据所有者对自身数据安全与权益的担忧,不利于安全可信的数据交换生态的构建。数据互操作系统作为连接应用与数据的枢纽,需要支撑跨域数据互联互通的模式从“数据中台”发展为“数据中枢”,以保障数据交换过程的安全可信。如图2所示,数据互操作系统需要通过跨域数据标识索引、确权授权的方式来实现跨域数据的互联互通,革新传统的数据中心集中收集、存储数据的互联互通方式,将数据的管理支配权归还给数据所有者,进而为数据与应用解耦后的数据高效利用夯实基础。

img

图1 域名在互联网关键资源中的核心作用

img

图2 从“数据中台”到“数据中枢”

(三)从域内互通到跨域互通

随着互联网数据的不断累积和应用规模的壮大,隶属于同一个主体的控制域内的数据互操作已经得到了积极探索。然而,这些技术各不相同,无法互通,难以满足当前跨域数据互操作的需求。因此,未来仍需要探索形成新的数据互操作技术体系。

从满足可发现需求的相关技术来看,传统存在于系统内部的基于数据库实现的检索技术,难以在不收集原始数据的前提下实现数据发现,无法满足数据互操作中的跨域互通要求,数据互操作系统需要一种分布式可信数据发现体系。数据发现的核心是建立描述资源的元数据与数据标识的关联关系,并通过分布式节点提供可靠可信的服务。RDF(Resource Description Framework)作为一种用于描述资源的标记语言,是探索跨域数据互通中的数据发现的先进技术。RDF是构建语义网的关键技术,通常使用<主体,属性,属性值>三元组结构表示资源,对数据的结构化组织有利于数据的使用和重用。SPARQL是为RDF开发的一种查询语言和数据获取协议,提供数据发现的功能。互联开放数据(Linked Open Data,LOD)项目基于语义网的RDF标准,提供了一个开放的环境,用户可以在其中创建、连接和使用互联网海量数据,并通过已知的链接数据知识库如Wikidata、DBpedia等,找到链接这些数据的数据集以实现数据发现,旨在推动在互联网数据之间建立连接并可访问的愿景。然而,语义网所支持的数据发现仅局限于Web生态,缺乏更广泛领域的数据发现能力。为满足数据互操作的功能需求,仍需要进一步研究和探索一种分布式可信数据发现体系。

从满足可访问需求的相关技术来看,传统认证和授权技术已经呈现出从单域可用到域内互通再到跨域互通的发展趋势,但仍需要进一步完善。传统用户名和密码的身份管理方式通常用于中心化的身份体系中,由中央集权化的权威机构掌握身份信息,身份不互通;当其应用于跨域数据互联互通时,因集中存储的局限性将造成身份数据管理困难,难以使用。而用于解决跨域身份互通问题的联邦身份体系,如单点登录技术,尽管连通了多个系统的用户身份,但用户的身份信息仍不是由自己所控制的,而是被身份信息寡头所垄断。此外,联邦身份体系下身份信息的跨域流通被限制在联邦内部,不同联邦之间仍不具备身份互联互通的能力。因此,出现了以OpenID为代表的以用户为中心的身份体系,为不同的系统提供统一的身份管理服务,从而实现多个系统的身份互通,但身份仍依赖单一的身份服务提供商,身份认证结果不公开透明,面临伪造身份的风险。为实现用户拥有自主身份和任意第三方可认证的身份的目标,去中心化的身份体系通过基于公私钥的密码学算法和分布式账本创建分散信任的环境,可以提供可信身份及认证方法,让用户真正拥有身份主权,可以管理自己的身份,具有单独控制和完全可移植身份的能力。因此,相较于传统的基于用户名和密码的集中式身份管理及联邦身份体系,一种基于公私钥和分布式账本的通用去中心化身份体系,具备提供全球唯一且不可伪造的身份标识,确保身份标识及相关身份数据信息为用户可控,以及身份认证过程透明可信的能力,是满足数据互操作的功能需求的基本选择。在授权技术方面,OAuth协议是一个用于解决第三方授权问题的开放授权协议,其授权服务与资源服务紧耦合,由同一个服务提供商管理,用户难以对分散在不同服务商的资源进行统一的授权管理。UMA(User-Managed Access)致力于解决该问题,旨在基于OAuth协议为用户提供一个统一的授权管理服务,使用户可以通过一个统一入口对分散的数据资源进行授权管理。但UMA仍属于中心化的授权服务,存在单点失效和信任问题。SPKI(Simple Public Key Infrastructure)是一种应用于授权的分布式公钥证书标准,用户可以通过颁发授权证书来进行授权。但SPKI存在证书管理等效率问题。WAC(Web Access Control)是另一种去中心化的授权服务。WAC为分散的资源设置访问控制列表,并与数据资源共同存储在用户可控的本地,可供外部获取。WAC支持跨域的资源授权和访问,但授权过程完全由数据所有者控制,缺乏可信记录。因此,如何以统一的身份标识和数据标识为基础,提供数据的统一授权信息管理,确保授权信息为用户自主可控且可查证,以控制对数据的授权后访问并记录,仍是数据互操作技术需要解决的问题。同时,数据、身份和使用需求的多样性增加了资源描述的难度,导致授权策略制定复杂化,如何实现合理高效的授权也成为下一步数据互操作中授权体系需要完成的挑战。

从满足可交换需求的相关技术来看,数据互操作系统需要一个规范化的安全交换机制来保障数据传输环节的数据安全与合规,但该领域尚处于初步探索阶段。现有互联网数据安全交换平台主要基于网闸等物理隔离设备,通过添加上层数据安全检测、访问控制等功能而构建。然而,数据互操作系统不触碰原始数据,因此安全交换机制的核心是基于数据分类分级标准和算法合法合规标准,确保数据交换使用过程中数据和算法的安全。目前,数据分类分级标准仍不清晰。尽管《网络安全标准实践指南——网络数据分类分级指引》提出了分级框架及分类规则,但仍缺少明确的、具体可操作、可执行的分类分级标准,致使仍未有通用、获得广泛认可和实施的数据分类分级技术方案。近年来,已有许多企业在隐私计算方面进行探索,特别是在以数据驱动为核心的金融、互联网、医疗、政务等具有强烈的跨机构、跨行业应用需求的领域,目前已产生如微众银行开源的联邦学习平台FATE、华控清交研发的联邦学习平台PrivPy、蚂蚁集团的MORSE链等众多的隐私计算平台。然而,各个隐私计算平台的算法相互独立,由平台独立管理,因采用的技术原理和实现方案不同,缺少规范化的接口和协议用于算法的统一管理。部分国内隐私计算平台已经开启互联互通的尝试,行业标准化工作也在推进过程中。总体来说,目前数据分类分级标准和隐私算法管理规范仍处于探索的初级阶段。完善数据互操作系统安全交换机制仍需要业内共同努力,以更好地利用隐私计算、安全加密等技术保障数据合法合规地跨域流通。

三、数据互操作技术的未来:数据基础设施

数据互操作技术充分保护数据权属、安全和隐私,是推动跨域数据互联互通的新型互联网基础技术,也是盘活数据要素、释放数据价值的综合解决方案,在数字经济发展范式的构建中发挥着至关重要的作用。数字经济的发展具有层次性结构,数字经济建立在传统经济形态和基础设施之上,并向上承载数字文明的发展。数字经济的发展离不开互联网三大模块的支撑:承载数据采集、传输、存储、计算等功能的物理数字基础设施,承载数据治理规则、基于数据互操作技术构建的逻辑数字基础设施(数据互操作系统),以及涵盖数字政府、数字医疗、数字生态等数字经济各个方面的数字化发展应用。其中,数据互操作技术作为连接数字化发展应用和物理数字基础设施的中枢,遵循数据与应用解耦模式,充分尊重数据所有权和持有权,并通过内化数据治理规则保证数据互操作流程的安全合规。

然而,数据互操作技术的未来发展仍面临诸多挑战。为助推数据互操作生态蓬勃发展,推动未来数字经济发展,加强同行业和跨行业、学术界与产业界等多方协同合作,协力驱动技术、标准、政策等共同发展,是以数字化数据为要素的数字经济高质量、可持续发展的主要方式。

一是组建技术社区,针对产业内的实际需求,推动标识、身份认证、访问控制、密码学及隐私增强等理论研究;加大产学研合作力度,提升技术落地能力;开放开源框架及平台,降低研究门槛,增大研究力量。

二是促进标准制定,积极组织业内专家研讨,推动适用于跨域数据交换和共享的标准制定,并在行业内达成共识,以促进数据互操作技术的进一步研究和发展,研制数据互操作系统,构建数据基础设施。

三是完善政策法规,鼓励联合政策、法律及技术专家,明确数据互操作系统中的各方权利定义,丰富已有的《数据安全法》《个人信息保护法》等相关法律法规体系,补充明确各项条例。

在当前难得一遇的战略机遇叠加的特殊发展时期,要紧抓互联网基础技术演进脉络和发展规律,探索互联网基础技术新变革,形成以数据互操作系统为基础的数据基础设施,支撑我国成为经济和社会发展数字化转型的领先者。 8RIDNzqvQI8MEqFr5R9ym93ihDAqiEWQG38+2Z/d2FKtCBBkAr4IjZ0LxQp2FveP

点击中间区域
呼出菜单
上一章
目录
下一章
×