数据是新时代的关键生产要素,对经济社会的深远影响与日俱增。为此,国家数据局的成立和其推进的系列重点工作,如数据基础制度体系的完善、数据流通交易和开发利用的促进、数据基础设施建设的推动等,旨在释放数据的潜能,推动数字经济的高质量发展。
数据基础设施是实现数据价值、促进数据流通利用的关键载体,包括但不限于网络、算力和数据流通设施。它通过高速的连接能力、高效敏捷的处理能力及安全的数据保障,支撑数据从汇聚、处理、流通到应用的全流程。这种基础设施的建设,不仅需要技术的支持,更需顶层设计和国际合作的推动。
从能力角度来看,数据基础设施的建设围绕着数据汇聚、处理、流通、应用、运营和安全保障的全流程。它利用先进的技术如5G、云计算、边缘计算、大数据处理等,实现数据的高效接入、精准确权和高效便捷的存储计算。此外,通过数据空间、隐私计算、区块链等技术,数据基础设施还提供了一个可信的数据共享、开放、交易环境,保障数据流通的安全可靠。
数据基础设施的建设不仅是技术上的革新,它还意味着对数据治理模式的革新。通过建立一套全新的数据基础设施,可以有效解决数据流通中的堵点难点,激活数据要素的价值,推动数据服务深度融入社会生产生活。此外,据业界估算,数据基础设施的建设将吸引大量投资,为数字经济的高质量发展提供有力支撑。
面向未来,我国将加快推进数据基础设施的建设工作,通过加强顶层设计、繁荣产业生态和开展国际合作等措施,共同为我国数据事业发展贡献力量。这一蓝图的实现,将是我国数字经济创新发展的重要里程碑,标志着我国在全球数字经济中的领导地位将进一步巩固。
数据基础设施架构是数字经济发展的基石,它为数据的采集、存储、管理、分析和共享提供了必要的技术平台和服务。这种架构不仅涉及物理硬件的部署,如数据中心、服务器和网络设备,也包括了软件系统和应用,例如大数据处理平台、云计算服务和数据安全保护工具。通过构建高效、可靠和安全的数据基础设施架构,可以实现数据资源的高效利用和流动,为各行各业提供强大的数据支持,进而推动社会经济的创新和发展。
国家数据局刘烈宏局长在第二届全球数字贸易博览会上致辞,提出了数据基础设施可以包含四大设施和六大能力。具体而言,从基础设施层面出发,设置了四大设施,分别是网络设施、算力设施、流通设施和安全设施;从数据能力角度出发,归纳了六大能力包括数据汇聚、数据处理、数据流通、数据应用、数据运营和数据安全保障能力。
根据四大设施和六大能力框架设计,结合实践经验,我们设计了数据基础设施架构方案。其中,底层算力网络融合了网络设施和算力设施,提供了数据汇聚和处理的基础;流通设施促进了数据的有效流动,支持数据共享和开放;而安全设施则确保数据的保护和合规性。这些基础设施和能力的相互作用,不仅加强了数据的实用性和可靠性,而且也为数据的创新应用铺平了道路。数据基础设施整体架构方案如图2-4所示。
图2-4 数据基础设施整体架构方案
通过对这些设施和能力的综合分析,本节旨在展现它们是如何相互依赖和相互增强,共同构建起一个能够支持现代业务需求的强大数据生态系统。我们将探讨每个组成部分的具体功能和重要性,以及它们如何共同作用,提升数据的收集、处理、安全和应用效率。此外,我们还将在本节中探讨数据基础设施如何更好地发挥作用,帮助企业和组织在竞争激烈的市场中保持领先地位,以及可能面临的挑战和未来发展趋势。
1.算力网络
作为现代数据基础设施的核心组成部分,融合了网络设施与算力设施,构成了数据处理与分析的强大引擎。它不仅负责数据的高效传输,还提供了必要的计算能力来处理和分析这些数据,是支持大数据、云计算和人工智能等技术发展不可或缺的基础。随着数字化转型的深入,算力网络的建设和优化成为企业和组织实现技术革新、提升业务能力的关键因素。
算力网络能够支持数据汇聚与数据处理的能力。从汇聚角度看,算力网络通过高效的网络设施保证了来自多个源的数据可以迅速、安全地被集中。这对于实时数据分析、物联网(IoT)应用及需要集成多种数据源的复杂业务场景至关重要。另外,算力网络可以通过对汇聚的数据应用区块链等技术实现对数据的可信登记和精准确权。
从数据处理角度看,算力网络提供的计算资源能够满足支撑数据流通、数据运营、数据应用及数据安全保障能力的各种需求。从简单数据清洗到复杂大模型训练,这些需求所需的算力差别巨大。无论是在数据中心内部进行大规模计算,还是利用云计算资源进行分布式处理,算力网络都能够提供必要的支持,确保数据分析任务的高效执行。
算力网络的实现依赖于多种不同技术的融合。首先,硬件资源是算力网络的物质基础,包括数据中心的服务器、存储系统和网络交换设备。这些资源按需分配,确保数据的快速处理和存储。其次,软件定义网络(SDN)技术允许网络管理员中央控制网络资源,实现更灵活的网络流量管理和优化。通过SDN,算力网络能够根据数据处理需求动态调整资源分配,提高数据传输效率。再次,云服务提供了一种可扩展的计算资源获取方式,使得算力网络可以根据处理需求弹性扩展。云平台上的虚拟机和容器技术使得部署和管理计算任务变得更加高效。最后,虚拟化技术通过在单个物理服务器上创建多个虚拟机,最大化资源的利用率。这对于算力网络中的数据处理尤为重要,因为它允许同时处理多个任务,而不需额外的物理资源。
通过这种方式,算力网络成为连接数据与应用的关键纽带,不仅支撑了数据的收集和处理,还为数据的深入分析和应用提供了强大的基础。随着技术的不断进步,算力网络的建设和优化将继续是支持企业数字化转型和创新的重要领域。
2.流通设施
流通设施在数据基础设施中占据着至关重要的地位,它涵盖了支持数据在不同系统、组织之间自由流动的技术和协议。这些设施不仅包括物理的网络连接和数据传输技术,还包括数据格式标准、交换协议和隐私保护机制等。流通设施的建立和优化,使得数据能够实现在不同主体间“可用不可见、可控可计量”。
流通设施对数据流通能力起到了支撑作用。流通设施通过促进数据的流通能力,对数据驱动的决策制定、跨域合作,以及新知识和洞察的生成起到了至关重要的作用。在全球化的经济背景下,数据的自由流动成为竞争优势的源泉,流通设施的建设和优化直接关系到企业、行业、地区能否充分利用这一优势。
流通设施需要具备解决数据要素市场发展难题的能力。解决这部分难题目前主要采用以下技术。
(1)可信数据空间:可信数据空间提供了一个安全可信的环境,使得数据资产可以被发现、访问和共享,而不泄露敏感信息。通过实施数据治理和合规性措施,数据空间确保数据流通时的隐私保护和安全。
(2)隐私计算技术:如机密计算、安全多方计算和联邦学习技术,使得数据在加密状态下被处理,保证数据在流通过程中的隐私安全。这对于医疗健康、金融服务等对数据隐私要求极高的行业尤其重要。
(3)API和数据交换协议:通过标准化的API和数据交换协议,流通设施支持不同来源和格式的数据互操作。这种技术标准化降低了数据共享的障碍,加速了数据的流通和利用。
(4)合规性和数据主权相关技术:随着数据保护法律和条例的实施,流通设施必须确保数据流通符合相关的合规性要求。数据主权的概念强调了数据流通时对本地法律和规定的遵守,流通设施需要支持数据在符合法规的前提下自由流动。
通过实现数据的有效流通,能够更好地整合内外部数据资源,提升数据分析的质量和深度。同时,合理的流通设施设计还能保护数据隐私,遵守法律法规,平衡数据利用与数据保护之间的关系。
3.安全设施
在数字经济时代,数据的安全性直接关系到组织的竞争力、信誉、运营连续性及客户信任度。随着数据资产的重要性不断提升,网络攻击的日益复杂和频繁,构建和维护强大的安全设施成为防御外部威胁、保护数据资产不可或缺的任务。因此,安全设施是数据基础设施中至关重要的一环。
安全设施不仅保护数据免受外部威胁,还帮助组织管理内部风险,如数据滥用和内部泄露。通过实施综合的安全策略和技术,安全设施为数据的整个生命周期提供了保护,从数据的创建、存储、传输到销毁,每一环节都受到严格的安全控制。此外,安全设施的建设也是建立客户信任和保持业务声誉的关键,信任的建立是促进数据流通的关键前提。在数据泄露事件频发的今天,强大的安全设施不仅是组织的防线,也是其竞争优势的一部分。
安全设施涉及一系列网络安全、数据安全及大模型安全相关的技术、策略和措施,旨在保护数据免受未授权访问、泄露、篡改或破坏。网络安全技术关注于保护组织内部网络,以及使组织与外界的网络通信免受攻击、侵入或其他潜在的安全威胁。常见的网络安全技术有防火墙、入侵检测和防御系统(IDS/IPS)、态势感知等。数据安全技术着重保护存储和处理中的数据不被未授权访问、泄露或篡改。常见的数据安全技术有数据加密、数据分类分级、数据脱敏等。随着人工智能技术的广泛应用,旨在提升AI全生命周期的安全技术,特别是针对大模型的安全技术也尤为重要。常见的AI安全技术包括内容安全技术、模型安全技术、训练与推理的数据安全技术等。
1.数据汇聚能力
数据汇聚能力指的是对多源、多维数据进行高效接入、可信登记、精准确权,有效提升数据汇聚环节的广泛性、便捷性和精准性。在信息量日益爆炸的今天,企业面临着来自社交媒体、物联网设备、业务交易系统等多样化数据源的挑战。数据汇聚能力不仅能够帮助企业获得更全面的数据视角,还能提升企业数据分析、决策制定和创新发展的能力。
数据汇聚能力的实现依赖于强大的算力网络。算力网络提供了必要的计算和网络资源,支持数据的高速传输和处理。例如,云计算平台能够提供可扩展的存储和计算资源,支持大规模数据集成任务;而软件定义网络(SDN)技术则可以优化数据传输路径,降低数据汇聚过程中的延迟。
数据汇聚过程中存在着以下三方面的挑战。
(1)数据质量和一致性问题:在数据汇聚过程中,来自不同源的数据可能存在质量和格式不一致的问题。解决方案包括实施数据清洗和标准化流程,以及使用数据质量管理工具。
(2)数据安全与隐私:在汇聚敏感数据时,必须确保数据的安全和用户隐私的保护。这要求在数据汇聚的各个环节实施加密、访问控制、数据脱敏和隐私计算等数据安全措施。
(3)处理能力和存储限制:随着数据量的增长,数据汇聚任务对计算和存储资源的需求也不断增加。云服务和分布式计算技术提供了解决这一问题的途径,通过弹性资源分配来满足不断变化的需求。
数据汇聚能力的增强不仅提升了数据分析的深度和广度,也为实现数据驱动的决策提供了坚实的基础。随着技术的发展,组织需要不断探索和采用新工具和方法,以应对数据汇聚过程中的挑战,充分挖掘数据的价值。
2.数据处理能力
数据处理能力指的是组织处理、分析和解释数据的能力,从而转化为有价值的信息和知识。这包括数据的清洗、分类、分析,以及利用数据挖掘和机器学习等高级技术生成洞见的过程。在数据驱动的决策制定过程中,数据处理能力是提升业务效率、优化客户体验和推动创新的关键。
有效的数据处理能力极大地受益于强健的算力网络基础。这样的网络为从基本数据查询到高级数据分析及机器学习等任务提供了关键的计算支持。针对海量数据的处理,云计算和分布式计算框架展现了其独特的优势,能够依据任务需求灵活调配资源,从而为数据分析工作带来可伸缩的扩展性。
在数据处理过程中,主要的问题和挑战集中在海量数据的计算能力。随着数据量的爆炸性增长,如何高效处理大规模数据集成为一大挑战。在应对这一挑战方面,云计算和分布式计算技术提供了有效的解决方案。云计算技术提供了弹性的计算资源,允许用户根据需要轻松扩展或缩减资源。与此同时,分布式计算技术允许在多个计算节点上并行处理数据,显著提高了数据处理的速度和效率。通过将大数据集分割成更小的数据块,并将它们分配到网络中的多个节点进行并行处理,分布式计算能够解决单个计算机处理能力有限的问题。Apache Hadoop、Apache Spark等技术已被广泛应用于大数据处理领域,它们能够提供快速的数据处理能力,支持复杂的数据分析和机器学习任务。
3.数据流通能力
数据流通能力指的是通过实现数据在不同主体间“可用不可见、可控可计量”,为不同行业、不同地区、不同机构提供可信的数据共享、开放、交易环境,有效提升数据流通环节的安全可靠水平,使得数据能在不同系统、组织间自由、安全地移动和共享。在当今互联的世界里,数据流通是促进知识共享、创新加速和业务协同的关键。它使得组织能够充分利用外部和内部的数据资源,提高决策的质量和效率,同时促进了跨行业和跨国界的合作。
确保数据在共享和流通过程中的隐私与安全、应对全球各地区复杂且多变的数据保护法规,以及克服不同数据源带来的互操作性问题,这些都是数据跨域流通过程中面临的主要挑战。首先,个人隐私和机密数据安全的保护是一项紧迫的挑战。在数据共享和流通的过程中,保护信息不被未授权访问或泄露是极其困难的。其次,跨域数据流通所面临的合规性挑战,由于不同行业和地区之间存在的数据安全要求的差异,给组织带来了极大的法律和运营复杂性。此外,数据互操作性问题由于数据来源的多样性,以及不同系统间格式和标准的不一致性而变得尤为突出。
数据基础设施中数据流通能力的有效落地可以高效解决这些问题。数据流通能力的核心依赖于融合了数据空间、隐私计算、区块链、数据脱敏及数据沙箱等先进技术的流通设施。这些技术共同创建了一个环境,使数据在流通过程中既可用又不可见,实现了数据使用的高度控制和精准度量。通过这样的设施,组织可以在确保数据安全和遵守数据保护法规的同时,促进数据在内部与外部的自由流通。例如,数据空间为数据的发现和访问提供了安全环境,而隐私计算技术如机密计算保护了数据处理过程中的隐私。区块链技术通过其不可篡改的分布式账本,增强了数据交易的安全性和透明度。同时,数据脱敏和数据沙箱等技术保障了数据在分析和共享过程中个人和敏感信息的安全。这些集成技术和设施的应用不仅提高了数据的利用效率,也为全球数据合作打下了坚实基础,是组织在数字经济时代保持竞争力的关键。
4.数据运营能力
数据运营能力是指利用技术工具和规则体系相结合的方式,有效地推动数据的汇聚、处理、流通、应用及交易等关键功能顺畅且高效地运行。这一能力的核心在于通过精细化管理和技术的应用,实现数据要素市场供需之间的精准对接,从而为数据市场的健康发展提供动力。进一步来说,数据运营能力不仅关乎数据的有效利用,更包括确保精算结算、审计监管、争议仲裁等公共服务的高效和高质量执行,以此保障数据市场中各类资源能够高效配置。
通过部署和维护一套全面的技术解决方案和规则体系,可以在确保数据安全性和合规性的前提下,优化数据的整合、分析、共享和应用流程。例如,利用“公共数据授权运营平台”为数据需求者提供一个可靠访问公共数据的平台;通过“数据交易平台”作为数据流通和共享的中介,促进数据资源的有效匹配、交易和利用,从而激发数据的潜在价值并推动数字经济的发展;采用“数据合规流通数字证书”,利用密码学和区块链技术确保数据流通的合规性和安全性,以及实现数据的智能应用和价值转化。
此外,数据运营能力还强调在数据全生命周期内实施细致的管理和监控,包括但不限于数据的采集、存储、使用、共享和销毁等各个环节。通过建立健全的数据治理机制和监管框架,不仅能够提升数据处理的效率和效果,还能确保数据活动的透明度和可信度,满足审计监管的需求,有效处理数据相关的争议和问题。
数据运营能力紧密依赖于组织的数据基础设施,包括算力网络、流通设施和安全设施。一个健全的数据基础设施为数据运营提供了技术支持和资源保障,使组织能够高效地管理和利用数据资源。同时,数据运营的实践反过来也促进了数据基础设施的优化和升级,形成了良性互动。
5.数据应用能力
数据应用能力是指通过通用化的智能决策、辅助设计、智慧管理等能力,帮助数据应用方优化设计、生产、管理、销售及服务全流程,进一步降低数据应用门槛,提升数字化水平的能力。数据应用能力能够赋能各行各业。
通过数据应用能力,使用大数据分析、人工智能和机器学习技术,可以帮助企业从庞杂的数据中提取有价值的信息,实现基于数据的决策制定。这种决策方式能够大幅提高决策的速度和准确性,为企业在市场竞争中把握先机提供了可靠的数据支持。例如,在市场营销领域,智能决策能够帮助企业准确识别目标客户群体,预测市场趋势,优化广告投放策略,提升营销效率和投资回报率。
通过数据应用能力,可以利用数据分析和模拟技术实现辅助设计,为产品和工程设计领域提供强大的支持。通过分析历史设计数据、消费者偏好及市场需求,辅助设计工具能够帮助设计师快速生成设计方案,进行效率预测和性能评估,缩短产品开发周期,降低设计成本。
通过数据应用能力,应用数据分析、物联网(IoT)等技术实现智慧管理,完成对企业运营的实时监控和智能调度,有效提升管理效率和业务流程的自动化水平。在生产管理领域,通过实时收集生产线数据,智慧管理系统能够实时监控设备状态,预测维护需求,优化生产调度,减少停机时间,提高生产效率。在人力资源管理方面,智慧管理有助于优化人员配置,提升工作效率,实现人力资源的最优化利用。
数据应用能力的发挥紧密依赖于组织的数据运营能力。只有当数据被正确地收集、管理、保护,并且处于可用状态时,才能有效地应用这些数据。数据运营提供了数据应用所需的高质量数据基础,同时数据应用反馈也促进数据运营的持续优化。
6.数据安全保障能力
在数字经济时代,数据安全不仅关乎个人隐私保护,也是企业信誉、客户信任和业务连续性的基石。数据安全保障能力指通过隐私保护、数据加密、数字身份等技术手段,帮助各参与方建立数据安全保障体系,推动各参与方在数据合规性建设方面形成最佳实践,贯穿数据生命周期全流程,确保数据的可信性、完整性和安全性的能力。
随着网络攻击的日益频繁和复杂,构建强大的数据安全保障能力成为每个组织的首要任务。数据安全保障能力与组织的数据基础设施紧密相关。安全设施作为数据基础设施的一部分,借助网络安全、数据安全及大模型安全等相关技术,保障数据基础设施的安全。同时,数据的安全保障能力也需要依托于强大的算力网络和数据流通设施,实现数据的加密、备份、灾难恢复、入侵检测、入侵防御、态势感知等技术,以提升安全保障产品的能力。
在构建和维护数据基础设施时,各个组成部分(算力网络、流通设施、安全设施)之间的整合与协同作用至关重要。这种整合不仅涉及技术层面的融合,还包括策略和管理层面的协调,旨在实现数据的高效利用和保护。
在技术层面的整合涉及将计算、网络和安全技术无缝连接,形成一个统一的数据处理和保护框架。例如,利用软件定义网络(SDN)技术实现网络资源的灵活调度,以支持算力网络中的数据处理任务;同时,通过部署统一的安全策略和技术,如统一身份认证和访问控制,确保数据在流通过程中的安全。
在策略层面的整合要求在企业内部建立跨部门的合作机制,统一数据管理和安全政策。这不仅涉及技术标准和流程的统一,还包括对合规要求的共同遵守和风险管理策略的协调。
在管理层面的协同确保了数据基础设施的各个组成部分在企业的战略目标下高效运作。这需要数据基础设施的规划、建设和运营活动得到高级管理层的支持,并与企业的业务目标和发展战略紧密结合。
整合和协同不仅提升了数据基础设施的效率和效能,还增强了数据的安全性和合规性。随着技术的进步和业务需求的变化,企业需要持续优化数据基础设施的整合与协同策略,确保能够充分发挥数据的价值,同时保护数据资产免受威胁。