如前所述,数据中心行业进入新的发展阶段,集群化就是其中的核心特征之一,一方面从政府顶层规划的角度,全国一体化大数据中心体系建设要求数据中心集约化部署,并且提出集群外原则上是限制建设的;另一方面,在企业加速上云、加快数字化转型的需求背景下,不同类型客户对集群选址、机房标准、网络条件、服务响应的要求存在很大差异,这些均对服务商集群化资源部署能力提出挑战,具体来看一下。
以AZ设置推动集群部署,150km光缆距离范围的三AZ部署是主流要求。阿里云等头部云商每个区域设置多个Region(分区),单Region双AZ起步,三AZ是主流,AZ以园区形式,数据中心数量可多个,同时伴随分布式云的发展,“一大多小”(中心节点为大型园区,与周边多个小规模数据中心互联,组成多AZ集群)形式下的多AZ需求也逐步增强。头部云商资源部署情况如图2-1所示。
图2-1 头部云商资源部署情况
数据来源:企业官网。
IDC集群中的IDC机房选择标准为:等级要求国家A级/T3+,绿色等级5A是加分项,安全要求等保三级,AZ间光缆距离30~150km,机房空间要求主节点1000机柜起步(一般按照独栋机楼按5kW以上单机柜功率配置),容量可持续扩展。
IDC集群中的IDC网络选择标准为:Region网络要求大AZ间及大小AZ间实现双路由互联,小AZ间按需连接;AZ间具备百GB以上互联能力,RTT时延≤2ms;每个region设两个集群出口节点用于对外网络连接。云数据中心网络要求DC内部100/400Gbps互联,服务器10/25Gbps智能网卡。在这些基础要求之上,对网络容灾和调度编排也提出相应要求,其中网络容灾需实现SLB的跨Region、跨AZ容灾,管理面+业务面双活,对象存储3AZ多活;调度编排要求多网接入,一周内实现开通,具备5G+云网一体多业务运营运维能力。
私有云属地化布局,行业云和多云面向区域热点城市多点布局。参考云商以AZ作为集群节点部署形式,对行业客户多AZ的集群需求展开分析可知,由于行业客户上云需求持续旺盛,行业客户集群需求集中体现在私有云、行业云与多云3个方面。私有云常规容灾备份需求以“两大一小”为主,属地化布局,设施要求高;行业云是近中期主流趋势,主要面向4+4区域热点城市“一大多小”布局,设施要求相对较低;多云未来需求旺盛,注重设施的性价比。行业客户主要需求场景如图2-2所示。
图2-2 行业客户主要需求场景示意图
数据来源:中国通服数字基建产业研究院绘制。
(1)私有云容灾备份等常规需求:单客户定制,以IT系统上云、信息系统自主可控、容灾备份等为典型场景,以政府、金融、能源等大中型机构/企业为主,主要集中在东部等热点省份。集群网络方面,生产中心-同城IDC中心要求裸光纤直连,RTT<1ms,要求不同数据中心园区,规模较异地灾备中心大。机房要求属地化机房(政务同城≤50km,金融≤70km,异地灾备一般不出省)、专属区域物理隔离、远端监控、专线、低弹性扩容;资质要求等保三级及以上、业务连续性管理及运行服务管理资质认证,其中金融行业普遍要求国家A级机房。
(2)行业云等中长期主流需求:主要场景可分为政府主导下的区域/行业分级分中心汇聚;头部企业主导下的分支机构/产业链向总部/行业云头部企业汇聚两大类,前者典型如国家工业云体系,后者典型如工业(南方电网、韶钢等)、金融(四大行等)、零售、交通等行业客户。契合星型业务部署结构,集群资源部署也呈现“一大多小”形态,对于政府主导型,单中心规模较大(超200机柜),集群规模2000架以上;对于头部企业主导型,单中心规模较小,集群规模1000架以上。机房配置要求与私有云机房配置要求保持一致,区域选址要求相对宽松,较高弹性按需扩容,机房等级方面相对较低(B级以上,金融行业要求A级)。
(3)多云/混合云是未来趋势需求:主要满足工业自动化、金融服务、媒体娱乐、医疗保健等混合云+多公有云架构,安全合规、低延时和成本、快捷交付、灵活拓展需求。集群要求“一大多小”,单中心500机柜起步,RTT<1.5ms,容量可持续扩展。机房设施要求虚拟隔离、公网连接、低成本高弹性按需扩容,资质方面更加注重性价比,机房等级要求相对较低(B级以上)。
可以发现,随着客户业务发展,客户对集群化需求不断演化升级,呈现从单节点向多节点、单节点规模持续扩大趋势。同时,对集群的部署位置、容量的可扩展性、机房的规格以及集群内的网络条件要求都较高,对数据中心企业集群化部署能力提出巨大挑战,一方面集群建设涉及多个数据中心园区以及集群内的网络建设,资金投入压力大;另一方面,为了能快速满足客户需求,需要数据中心企业提前规划部署,如何精准提前部署也是一大难题。比如某数据中心服务商在接到某云商在北京部署3AZ的数据中心集群需求时,由于此前未提前部署相应集群资源,为了满足客户需求、不丢单,最终将集群部署在合作机房中,对集群的掌控程度明显降低。
另外,对于数据中心企业来讲,面向智算发展新趋势,如何做好布局,抢抓机遇也是当前的一大重点课题。从需求来看,当前国内AI算力需求呈现消费级与行业级多样化、中心大规模训练与边缘多点推理两极化的趋势,其中云游戏、云视频等场景以消费级GPU算力需求为主,同时不断向边缘侧下沉,而大模型及行业应用则更多以A100等行业级AI算力需求为主,当前以云商大规模集中部署、服务自有大模型研发为主。在此需求趋势下,对于数据中心服务商,是否集中大规模部署智算资源成为一个抉择。一方面,大模型等AI算力资源一卡难求,集中化部署难度高、成本压力大(2023年3月,一枚A100的价格已经从年初的6万元左右涨至9万元,甚至一度超过10万元,涨幅超过50%);另一方面,部分规模化需求互联网企业已通过自建满足,尤其是大模型方面,云商以及商汤科技等头部企业均自建智算资源满足其规模化的算力需求。因此,对于数据中心企业而言,面向腰部互联网及垂直行业大模型、规模化渲染等场景的行业级中心智算池以及消费级边缘智算池将是未来布局的一个方向。
“刚刚通信B讲得特别好,其实不仅仅是数据中心企业面临推进资源集群部署的难题,我们政府部门在落实推进数据中心集群建设以及智算规划布局时也同样面临困惑。”政府E也将自己的一些困惑一并提了出来。
一方面,本省/市要不要建集群?集群规模建多大?建在哪儿?当前在“东数西算”工程建设的背景下,“4+4”区域明确要建集群,也明确了集群范围,那对于其他非枢纽省份,要不要推进集群建设呢?如果不建设,它们的需求能否由在建的十大集群满足呢?这些也是需要统筹考虑的。另外关于集群建设规模方面,前两年新基建窗口之下,大量数据中心项目上马,存在一定的投资泡沫,那对于全国、枢纽节点以及非枢纽的省市而言,产业发展所需要的数据中心规模到底是多大,也是需要经过科学测算的,才能避免盲目建设导致的资源浪费(如低上架率等)。
另一方面,随着集群的建设发展,应该如何滚动延展?我们可以看到当前“东数西算”集群建设所涉及的数据中心基本只批复了起始指标,且部分所涉及市、县提出本地承载的数据中心体量有限。那么随着本地产业发展,数据中心上架率不断提高,省/市是否需要设立拓展区作为区域内新增集群?设立拓展区的时机是什么?选取标准是什么?
此外,智算当前处于高速建设期,政府要不要统筹集群化部署?据初步统计,我国智算中心加速落地,在建及拟建智算中心数量较已投运智算中心数量翻倍、规划智算规模较在用智算规模增长近六倍。考虑到传统数据中心前期自由化发展、后期政府统筹集群化部署难度较大,智算中心尚处建设发展初期,是否要从开始就做统筹部署?智算中心的集群设置是否要与现在的数据中心集群保持一致?还是结合智算需求以中心城市为核心做集群部署?
政府E感叹道:“诸如此类的问题,在我们政府工作推进中常常会提出来,希望我们后续的研讨能够理出一些头绪。”