购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2
算力的发展史与现状

人类文明的发展离不开计算力的进步,它是文明的重要推动力。在算力的发展史上,经历了多个里程碑的阶段,从最早的结绳记事、算筹,到后来的算盘、计算机(电子管时代、晶体管时代),以及当前的集成电路时代。

电子管时代到来后,计算机成为主要力量。不过电子管时代的计算机,体积庞大、能耗高、价格昂贵,并没有推广使用。自从晶体管发明后,运算能力大幅提升,计算机体积有所控制。直到进入集成电路时代,计算速度才实现跨越式的提升,并且微型计算机成为现实,其计算、存储等功能都发生了颠覆式的变化,并且不断升级。

在70多年的时间里,从第一台计算机诞生到大型机,再到个人计算机,从台式计算机到笔记本电脑,再到平板电脑,从智能手机到可穿戴设备,计算设备的体积越来越小,功能越来越强。

1.2.1 算力的发展史

在原始社会中,人类开始使用结绳、垒石、枝条或刻字等方式进行辅助计算。后来,发明了算筹。据《汉书·律历志》记载,算筹是圆形竹棍,长23.86厘米,横切面直径是0.23厘米。到隋朝时,算筹缩短,圆棍改成了方的或扁的。算筹除竹筹外,还有木筹、铁筹、玉筹和牙筹等。计算的时候,将算筹摆成纵式和横式两种数字,按照纵横相间的原则表示任何自然数,从而进行计算;当负数出现后,算筹分为两种,红筹表现正数,黑筹表示负数。

算筹逐渐演化,后来产生了算盘,通常用来计算金钱。不过,算盘什么时候发明的,有各种说法,东汉数学家徐岳《数术记遗》里提到:“珠算,控带四时,经纬三才。”该书里记载了14种算法,其中第13种就是珠算。也有观点认为,算盘出现在唐代,比如《清明上河图》里的算盘图就是一大证据,这幅画出现在宋代,里面的一家店铺柜台上摆放了算盘,说明当时算盘已经是常用工具,那么它的出现可能推算到唐代。还有学者认为算盘产生于明代,比如永乐年间出版的《鲁班木经》中,对算盘的规格、尺寸等做出了详细描述。

再到后来,一些新的工具陆续诞生,计算的速度与精度不断提高,比如1620年,欧洲的学者发明了对数计算尺。后来,机械计算机的出现将算力向前推进了一大步。差分机、基于计算自动化的程序控制分析机等,都是计算领域有代表性的发明。

直到20世纪中叶,冯·诺依曼提出计算机的基本原理,包括存储程序和程序控制,用二进制替代十进制,将计算机分为控制器(CPU)、运算器、存储器、输入设备与输出设备,如图1-1所示。

图1-1 计算机冯·诺依曼体系结构

第一台计算机埃尼阿克(ENIAC)在美国宾夕法尼亚大学问世,这台最早的计算机重30吨,使用1.7万多个真空电子管,功率达174千瓦,占地约170平方米,使用十进制运算,每秒能运算5000次加法,只能通过人工来扳动庞大面板上的各种开关,进行数据信息输入。

随后,冯·诺依曼在ENIAC项目的基础上研制了EDVAC,重新设计了整个架构,奠定了当今计算机的结构。

技术进步的大门打开后,便一路向前。早期计算机使用电子管,体积比较庞大,往往需要一个房间储存,购买、运营与维护都很昂贵。量产的计算机UNIVAC,占地面积仅为ENIAC的1/3,共制造了46套,开售价格为15.9万美元,后来涨价到125万~150万美元。它也是第一台既能够处理数字计算,又能够进行文字处理的通用计算机,使用汇编语言编程,以及电打字机、磁带和示波器作为输入、输出设备,每秒可以进行1905次运算,并能存储12000位的数据(即12000个二进制字符)。

到了20世纪40年代,贝尔电话实验室研制出了晶体管,它的体积小,产生的热量也小,寿命又比电子管长,使得计算机的体积大幅度减小。晶体管问世之后,迅猛发展并取代电子管的位置。20世纪50年代,人们开始发展第二代晶体管计算机,不再一个一个地焊接和封装晶体管,而是把许多晶体管按照设计要求连接在一块电路板上,形成了早期的集成电路模式。

随着技术的进步,每块集成电路上可容纳的晶体管不断增加,进入中规模集成电路时期,用一两块集成电路板就可以制成中央处理机,性能比以前的计算机还要强,最后组装成的计算机尺寸大为减小。20世纪60年代,美国推出了第一台被视为小型机的PDP-8型计算机,随后又研制出标准化小型计算机。

进入20世纪70年代后,第三代计算机出现,大规模集成电路、超大规模集成电路陆续得以实现,每个集成电路板上包含几千个到几万个晶体管,后来又增长到几十万个,计算机的微型化速度高歌猛进。一个标志性事件是,1971年英特尔研制出了微处理器Intel 4004,CPU登上历史舞台。这枚芯片的尺寸为3mm×4mm,上面一共集成了约2300个晶体管。

戈登·摩尔(Gordon Moore)认为,集成电路上可容纳的元器件数量,每18~24个月便会增加一倍,性能也将提升一倍,这就是著名的摩尔定律。

英特尔成为个人计算机中微处理机里的代表公司,更新换代的速度非常快,20世纪70年代是8080和8088微处理器,20世纪80年代是80286、80386和80486微处理器,20世纪90年代则推出了80586奔腾处理器,速度每年翻一番,每秒约执行100万条指令。

从第一代微型机开始,到1983年英特尔更新了四代机型,字长从4位、8位、16位发展到32位,每个集成电路上晶体管的集成度从2200个、4800个、2.9万个发展到10万个;运算速度从每秒几万次、几十万次,提升到几百万次;体积从袖珍式、便携式发展到掌上机。20世纪80年代后期,一台386微处理机电路的集成度为250万个晶体管。

1986年,康柏推出第一台基于386处理器的台式个人计算机,引起不小的轰动。1987年,IBM推出PS/2系统,引进微通道技术,该机型累计出货量达到200万台。1989年,英特尔公司发布集成约120万个晶体管的486处理器,4年后又发布奔腾处理器,初期产品集成300多万个晶体管,内存主频为60MHz~66MHz,每秒可执行1亿条指令。1995年,英特尔推出Pentium Pro处理器,内部集成约550万个晶体管,每秒可执行4.4亿条指令。《时代周刊》1997年的封面人物就是英特尔公司的总裁安德鲁·格罗夫,标志着计算机正在将人类带进信息时代。

在最近的20多年里,计算机继续迭代,比如1996年英特尔推出带有MMX技术(多媒体扩展)的Pentium处理器,直接推动了计算机多媒体应用的发展;1997年IBM研制的超级计算机“深蓝”,第一次战胜了当时世界排名第一的国际象棋大师加里·卡斯帕洛夫;2000年以后,AMD公司推出主频达1GHz的Athlon处理器,掀开GHz处理器大战;英特尔发布的Pentium4处理器,总线频率达400MHz,另外增加144条全新指令,用于提高视频、音频等多媒体及3D图形处理能力。

2019年,华为发布计算战略,推出AI训练集群Atlas 900,由数千颗昇腾910处理器组成,它的计算能力相当于50万台PC的总和。在衡量AI计算能力的ResNet-50模型训练中,Atlas 900只用了59.8秒就完成了训练,这比原来的世界纪录还快了10秒。另外,华为推出达芬奇结构,这是一种能够覆盖“端、边、云”全场景的处理器架构,成为打造计算产业的基础。同时,华为还发布多个系列的处理器,包括支持通用计算的鲲鹏系列、支持AI的昇腾系列、支持智能终端的麒麟系列,以及支持智慧屏的鸿鹄系列。

整体来看,华为投入计算产业重点是四方面布局,包括对架构创新的突破、对全场景处理器族的投资、坚持有所为有所不为的商业策略,以及不遗余力地构建开放生态。

芯片领域的进步也未停步。目前,半导体主流制程节点已经到了5nm,并向3nm甚至更小的节点演进,每进步1nm,都需要付出极大的努力。2021年5月,IBM宣布成功研制出2nm芯片,仅指甲盖大小,能容纳500亿个晶体管。相比广泛使用的7nm芯片,2nm芯片的性能可提高45%,能耗降低75%。

不过,单纯靠工艺来提升芯片性能,其难度非常大,后摩尔时代已经到来,新的技术路线浮出水面。一是“More Moore”(深度摩尔),以缩小集成电路的尺寸为核心,兼顾性能与功耗;二是“More than Moore”(超越摩尔),芯片性能的提升不再靠堆叠晶体管,更多地靠电路设计以及系统算法优化,同时,借助先进封装技术,实现异质集成,或者通过算法的升级、芯片架构的更新,实现更加智能的计算,提升芯片性能。

1.2.2 算力的供应来源与分类

算力涉及很多领域,比如智能手机、个人计算机、可穿戴设备等,都有算力的参与。同时,随着经济与技术的发展,计算能力建设也不断演进,算力的来源渠道正在增加,这里主要介绍比较核心的算力中心,包括超级计算中心、智算中心、数据中心等。

1.超级算力: 超级算力由超级计算中心输出,而超级计算中心由超级计算机组成,运算速度比常规计算机快许多倍,比如十亿亿次的超级计算机工作1天,相当于普通计算机工作1万多年;超级计算机1分钟的计算能力,相当于200多万台普通计算机同时运行。

在技术上,超级算力由高性能CPU提供,注重双精度通用计算能力,追求精确的数值计算。从应用方面来说,超级计算中心主要应用于重大工程或科学计算领域的通用和大规模科学计算,如天气预报、分子模型、天体物理模拟、汽车设计模拟、新材料、新能源、新药设计、高端装备制造、航空航天飞行器设计等。

值得注意的是,近年来,超级算力正与互联网技术融合,许多互联网公司开始申报超级计算机,在超级计算机TOP100强中,有30%的系统都来自互联网行业,主要包括云计算、机器学习、人工智能、大数据分析以及短视频领域。这些领域提出了越来越高的计算需求,有些项目需要借助超级计算机的力量加以完成。

超级计算机需要多个芯片同时运行,首先要给芯片分配任务,开始计算后,芯片除了自己要运算外,芯片之间还要交换数据,这些都需要消耗时间。因此,计算速度的增长,总是低于芯片数的增长。

这里面涉及一个算力概念,就是超算的速度与单个芯片速度的比值,称为加速比。加速比总是低于芯片数的。当芯片比较少的时候,加速比上升得比较快。随着芯片数的增加,加速比上升得越来越慢。当芯片非常多的时候,任务划分和数据通信会变成瓶颈,在一定程度上抵销芯片增加带来的好处。

我国在超级计算机方面投入了比较多的资源,获得了相当不错的成果。2012年,千万亿次超级计算机“神威蓝光”每秒峰值运算达1.07千万亿次,存储容量高达2PB(1PB约等于100万GB),拥有14.3万枚16核CPU。到2017年,中国“神威·太湖之光”入选全球超级计算机500强榜首,这种超级计算机安装了40960个中国自主研发的申威26010众核处理器,峰值计算性能超过100 PFlops,峰值运算速度可以达到每秒12.5亿亿次,主要应用于地球气候模拟、非线性地震模拟、基于卫星遥感数据的地表建模与预测等。

对于不同的区域而言,如果希望建设成为科学创新高地,支撑多产业发展,那么超级计算中心的算力是首选。超级算力既可以广泛地应用于科学计算、能源、气象、工程仿真等传统领域,也可以用于生物基因、智慧城市、人工智能等新兴领域,全力支撑基础科学领域及新兴产业发展。例如,在医疗领域,科学家使用分子对接技术,针对与埃博拉病毒蛋白V35的对接,一天可以完成4000万分子化合物的抗埃博拉病毒药物筛选,这其中就有超级算力的功劳。

2.智能计算中心的算力: 它是基于人工智能理论与计算架构,提供人工智能应用所需要的算力、数据与算法服务,通过算力的生产、聚合、调度和释放,支撑数据的开放共享、智能生态建设,促进AI产业化、产业AI化和政府治理的智能化。它要基于AI芯片、AI服务器、高速互联、深度学习框架等资源调度,构建智能计算中心的作业模式,进而输出算力。在AI快速发展的大环境下,如果只是希望用于支持专一的人工智能应用场景,不妨选择相对造价低、专用性强的人工智能算力设施。

在人工智能领域,有计算机视觉、自然语言处理、机器学习、语音识别等技术。其中,计算机视觉包括静动态图像识别与处理等,对目标进行识别、测量及计算,应用于智能家居、AR(增强现实)与VR(虚拟现实)、标签分类检索、美颜特效、智能安防、直播监管等。自然语言处理是研究语言的收集、识别、理解、处理等,应用于知识图谱、深度问答、推荐引导、机器翻译、模型处理等。机器学习以深度学习、增强学习等算法研究为主,赋予机器自主学习并提高性能的能力,应用于安防、数据中心、智能家居、公共安全等领域。语音识别是通过信号处理和识别技术,让机器自动识别和理解人类口述的语言,并转换成文本和命令,应用于智能电视、智能车载、电话呼叫中心、语音助手、智能移动终端、智能家电等场景。

不同的应用场景,对算力的要求也不同,一般推理需要半精度或整型计算能力即可,而涉及人工智能更关键的训练场景,则需要单精度及以上的算力。

人工智能计算中心是支撑数字经济的基础设施,支持人工智能与传统行业的融合创新与应用,重点在自动驾驶、医疗辅助诊断、智能制造等领域大显身手。人工智能的核心计算能力由训练、推理等专用计算芯片提供,注重单精度、半精度等多样化计算能力。

人工智能计算中心的建设,借鉴了超级计算中心大规模并行和数据处理的技术架构,以图形芯片作为计算支持,同时AI服务器是这种人工智能算力的核心支撑。《2019年中国AI基础架构市场调查报告》显示,2019年中国AI服务器出货量为79318台,同比增长46.7%。2019年,中国整体通用服务器市场出货量同比下降3.8%。通过对比可以发现,AI计算已成主流的计算形态。IDC同时分析认为,中国AI服务器市场在2018—2023年的复合年均增长率为37.9%,也就是到2023年,AI服务器市场规模将达到2019年的3.6倍。整体通用服务器市场到2023年,仅能增长34.5%,仅以此估算,到2023年,AI算力占比至少可以提高到72%。

目前,一大批人工智能计算中心正在建设,比如武汉投运了全国首个人工智能计算中心;西安、成都、上海、南京、杭州、广州、大连、青岛、长沙、太原、南宁等多个城市都在布局人工智能计算中心。

3.数据中心里的云算力: 互联网、大数据和云计算技术的成熟,带动了云计算数据中心的建设。数据中心是云计算的核心基础设施,输出强大的算力,应用于众多领域。数据中心由两部分构成:一是围绕建筑的土地、配电、制冷和安防等基础设施,二是机架、服务器、交换机和防火墙等IT设备。

现代化的云数据中心里配置了超大规模的服务器,甚至将数十个传统的数据中心整合,进行集中化数据备份、计算和管理,提供云业务所需的计算能力。而云计算是互联网信息服务的基础架构,解决高并发访问和算力按需调度的问题。

云计算的快速成长,及其在各个行业里的普遍应用,倒逼数据中心的增长。中国电子信息产业发展研究院统计数据显示,2019年中国数据中心约为7.4万个,约占全球数据中心总量的23%,已建成的超大型、大型数据中心数量占比达12.7%;在用数据中心机架规模达到265.8万架,同比增长28.7%;在建数据中心机架约185万架,同比增加约43万架。另外,2021中国国际大数据产业博览会上发布的数据显示,“十三五”时期,我国数据中心规模从2015年的124万家增长到2020年的500万家。国内数据中心建设掀起第二波高潮,2020年我国数据中心市场增速超过40%,同时展开了新一轮技术升级。

自2020年国家大力支持“新基建”建设以来,数据中心作为“新基建”的重要内容,京津冀、长三角和珠三角等算力需求地区,以及中西部能源资源集中的区域,如内蒙古、山西等,均在推进新的大中型数据中心的建设。到了2021年,工业和信息化部印发《新型数据中心发展三年行动计划(2021—2023年)》,其中提出:到2021年底,全国数据中心平均利用率力争提升到55%以上,总算力超过120 EFlops,新建大型及以上数据中心PUE降低到1.35以下。到2023年底,全国数据中心机架规模年均增速保持在20%左右,平均利用率力争提升到60%以上,总算力超过200 EFlops,高性能算力占比达到10%。国家枢纽节点算力规模占比超过70%。

就具体企业来讲,早在2006年,Google就建造了能容纳超过46万台服务器的分布式数据中心。到2020年7月,阿里巴巴已建设5座超级数据中心,阿里云在全球22个地域部署了上百个云数据中心,阿里云服务器规模已经接近200万台,未来还将在全国建立10座以上的超级数据中心。数据中心有不同的规模,形成不同量级的算力,按标准机架数量,可分为小型、大型、超大型等,其中,超大型数据中心要求不少于1万台机架数量。

围绕云计算,已形成了完整的产业链,上游包括芯片、内存等,中游则是各类服务器、交换机、存储、安全等设备,下游则是云计算服务商,面向各类客户提供算力服务。

而且在国家宣布大力支持“新基建”之后,腾讯宣布未来5年将投资5000亿元用于云计算、数据中心等新基建项目的进一步布局;阿里云宣布未来3年将投资2000亿元用于面向未来的数据中心建设及重大核心技术研发攻坚;百度宣布,预计到2030年,百度智能云服务器台数将超过500万台。各大云厂商仍在继续加大算力投入,公有云算力供应将会更加充裕。

4.自建数据中心的算力: 自建算力因其安全性和自主性等特点,成为政府、大企业及其他关注安全的组织的首选算力方式。政府、银行及高校和央企等,通常通过自建或租赁数据中心的方式自建算力,满足自身各项业务的算力需求。许多互联网公司在刚开始时选择使用公有云服务,但规模发展到一定程度后,通常都会开始以自建或租赁数据中心的方式自建算力。

有部分企业出于安全、商业机密和隐私等方面的考虑,不愿意把数据和业务等放到阿里云等公有云上,往往选择以托管服务器的方式自建算力,规模更小的企业直接在本地使用。

2020年6月,快手宣布投资100亿元自建数据中心,计划部署30万台服务器。字节跳动等大型互联网公司也在不断加大数据中心的建设。

5.区块链里的算力: 受比特币等影响力较大的加密币驱动,算力因为“挖矿”的行为浮出水面,在比特币领域中,算力也称哈希率,是区块链网络处理能力的度量单位,相当于计算机(CPU)计算哈希函数输出的速度。它是衡量在一定的网络消耗下生成新块的单位的总计算能力。处理的数据量越大,也就意味着算力更大。

Filscan数据显示,2021年1月29日,Filecoin的全网有效算力已达到2.17EiB(1EiB算力对应的是1EiB体量的存储数据,1EiB=1024PiB,1PiB=1024TiB,1TiB=1024GiB)。

在这个领域,矿机是比较典型的算力应用案例。算力被视为矿机的生产力指标,比如人们通过矿机去“挖矿”,争夺记账权,获得网络给予的比特币激励。在比特币出现的早期,人们主要借助CPU挖掘,后来转向算力更高的GPU。2011年,还在北京航空航天大学读博的张楠赓推出了他发明的FPGA(Field Programmable Gate Array,即现场可编辑逻辑门阵列,一种半定制电路)矿机,比GPU的算力更高;2012年,美国蝴蝶实验室(Butterfly Labs)宣布将制造ASIC(专用集成电路)矿机,专门针对比特币SHA256算法而生产,算力更高。2013年,张楠赓成功推出了全球第一台ASIC矿机“阿瓦隆”一代,采用110nm工艺制程技术,一天的算力能挖出357枚比特币。2014年,比特大陆投产了基于28nm工艺制程的蚂蚁S1384芯片和S5矿机,算力不断升级。

1.2.3 算力产生的原理

算力的产生一般包括4个部分:一是系统平台,用来存储和运算大数据;二是中枢系统,用来协调数据和业务系统,直接体现治理能力:三是场景,也就是算力的应用领域,既需要算力提供支持,用于数据挖掘,又能产生大量数据反哺算力升级;四是数据驾驶舱,直接体现数据治理能力和运用能力。

与此同时,多元化的场景应用和不断迭代的新计算技术,促使算力不再局限于数据中心,开始扩展到云、网、边、端全场景,计算开始超脱工具属性和物理属性,演进为一种泛在能力,实现蜕变。图1-2呈现了一种由芯片、设备、软件组成的算力架构。

图1-2 算力架构由芯片、设备、软件组成

来源:罗兰贝格

从作用层面上看,伴随人类对计算需求的不断升级,计算在单一的物理工具属性之上逐渐形成了感知能力、自然语言处理能力、思考和判断能力,借助大数据、人工智能、卫星网、光纤网、物联网、云平台、近地通信等一系列数字化软硬件基础设施,以技术、产品的形态,加速渗透进社会生产和生活的各个方面。

正如美国学者尼葛洛庞帝在《数字化生存》一书的序言中所言,“计算,不再只是与计算机有关,它还决定了我们的生存”。算力正日益成为人们社会生活方式的重要因素。

以人工智能的算力为例,它通过计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等),主要应用在训练和推理两个环节,训练需要通过大量的样本数据进行学习,经过训练之后,可以把所学的东西应用于多种任务。它涉及对非常庞大的数据集进行计算,展开密集型矩阵运算,通常以TB到PB为单位,其中TB即太字节,1TB=1024GB;PB即拍字节,1PB=1024TB。谁在接受训练?是神经网络,它是对人类大脑的初步模仿,分为很多不同的层、连接和数据传播的方向,每一层发挥不同的作用,最后输出结论。

计算类芯片的发展是算力的源动力,通用计算芯片领域,CPU、GPU、FPGA是三大主流架构,其中CPU适用于处理复杂、重复性低的串行任务;GPU适合通用并行处理,包括图像处理、通用加速等;FPGA具备可重构特性,根据客户需求灵活定制计算架构,适合于航空航天、车载、工业等细分行业。在专用计算领域,满足人工智能应用计算需求的专用计算芯片成为新的焦点。

主流通用计算芯片持续升级,一方面挖掘传统架构的潜力,比如CPU采用乱序执行、超标量流水线、多级缓存等技术,提升整体性能表现,同时围绕深度学习计算需求,增加专用计算指令;GPU探索高效的图形处理单元、流处理单元和访存存取体系等,并且优化针对人工智能计算的专用逻辑运算单元。在英伟达图灵架构GPU芯片中,内置全新张量计算核心,利用深度学习算法消除低分辨率渲染问题;FPGA不断强化应用功能和软件开发工具等,同时提升异构计算能力,以实现边缘智能等更多场景的规模应用。

1.2.4 当前算力发展的特征

从技术角度来看,算力是涵盖计算机硬件和软件、信息通信在内的综合性交叉学科;从产业角度来看,算力是信息产业的重要组成部分,主要包括算力设施的建造、算力服务业等;从基础设施角度来看,算力是“新基建”的重要内容,既包括大数据中心等直接提供计算能力的基础设施,也包括电信网络等实现数据传输的基础设施。

与土地、劳动力、能源、资本等传统要素所反映的竞争力不同,算力具有特别的技术特征和经济属性。从经济层面讲起,它具备一些典型的经济特征。

1.算力的获得、算力竞争力的打造,具有高投入、高风险、强外部性和高垄断的经济特征。这些特征决定了算力竞争主要由大国和大企业参与,需要更强的资金和技术实力、现代化的产业体系和技术体系、丰富的应用场景提供支撑。

2.算力的投入巨大,它的物质基础是数据的获取、传输、存储和处理系统,其中每一个环节的建设都耗资巨大,而且很多设施具有公共产品属性,属于新科技革命和产业变革中重要的基建,其投资建设往往需要依靠政府和大型企业。

据中国信通院预测,2025年国内5G网络投资累计将达1.2万亿元,而这只是形成算力的一个环节。算力的形成还需要大量运营、维护和升级成本。中国信通院的分析认为,2020年数据中心建设投资3000亿元,到2023年,数据中心产业投资累计或达1.4万亿元。

另据研究机构Gartner的数据,2018—2020年,中国数据中心系统支出占IT支出的比重逐年提升。2020年中国IT支出达到2.84万亿元,其中数据中心系统支出2508亿元,占IT支出比重达8.8%,图1-3呈现了2018—2021年中国数据中心系统支出占IT支出的比重情况。

图1-3 2018—2021年中国数据中心系统支出占IT支出的比重情况

来源:Wind,中信证券投资顾问部

我国数据中心已成为典型的“耗能大户”,据国网能源研究院预测,到2030年,我国数据中心用电量将突破4000亿千瓦时,占全社会用电量的比重为3.7%。

另外,国际环境保护组织绿色和平与工业和信息化部电子第五研究所计量检测中心(广州赛宝计量检测中心)联合发布《中国数字基建的脱碳之路:数据中心与5G减碳潜力与挑战(2020—2035)》的数据显示,2020年全国数据中心机架数为428.6万架,根据各区域分布系数进行合理加权外推,估算出2020年全国数据中心能耗总量约为1507亿千瓦时,碳排放量高达9485万吨。该报告同时预测,到2035年,中国数据中心和5G总用电量是2020年的2.5~3倍,将达6951~7820亿千瓦时,将占中国全社会用电量5%~7%。

很多国家和地区都对数据中心的耗能进行了严格限制,进一步挖掘数据中心的节能减排潜力,扩大绿色能源对数据中心的供给,提升数据中心建设的能效标准。

3.算力设施的投资和建设风险比较高。一方面,算力技术进步快,技术路线充满变数,一旦出现颠覆性的技术,技术路线发生变化,都可能造成前期研发和设施作废。目前来看,主力国家与核心企业都会在若干条技术路线上进行突破,保障了国家层面不会因为技术路线的重新定义,在未来算力竞争中被彻底边缘化,但投入成本很高,分散了研发资源和资金,那些能力有限的国家和地区只能采取跟随策略。

另一方面,虽然算力系统或算力网络的构建需要大规模投资和长期建设,但仅从数据中心来看,其建设并没有太高的门槛。大量中小型数据中心的建设会造成产能过剩和竞争过度问题,降低算力投资回报率。

4.算力产业具有很强的正外部性。作为新科技革命和产业变革中的基础能力,算力的提升与应用不仅会形成自身庞大的产业体系,同时会增强对其他产业的赋能,进一步夯实产业数字化转型的基础,这是算力正外部性的表现。也就是说,掌握更强技术的国家和企业,能够促成新兴产业的发展,并且进一步推动传统产业的转型升级。

从技术方面来看,当前算力发展至少呈现出5个特点:一是算力需求持续高速增长,运算速度不断提升;二是算力需求不断对硬件提出挑战;三是多种算力架构并存并快速发展;四是针对图像、语音等特定领域的专用算力日渐成势;五是泛在计算成为算力的新特征。

1.算力需求持续高速增长,运算速度不断提升 。在过去几年时间里,算力的增长有目共睹。据OpenAI在2018年发布的报告,自2012年至2018年,AI算力需求增长超30万倍,相当于AI训练任务所运用的算力每3.43个月就要翻一倍。

以超级计算机为例,近20年来的进步非常明显。2010年,中国“天河一号”每秒浮点运算达2600万亿次。到2020年,中国的“神威·太湖之光”每秒浮点运算达93千万亿次,“天河二号”的每秒浮点运算达6140万亿次。2021年,日本富岳达到每秒浮点运算442千万亿次。

以云服务器为例,2019年华为推出新一代云服务器,包括通用计算增强型实例C6和通用计算基础型实例S6正式商用。其中,C6云服务器的计算性能比2018年的C3ne领先15%,S6比上一代S3的计算性能提升15%以上。

在2021第五届未来网络发展大会上,华为董事、战略研究院院长徐文伟的判断是,下一个十年,联接数量将达到千亿级,宽带速度每人将达到10Gbps,算力实现100倍提升,存储能力实现100倍提升,可再生能源的使用将超过50%。围绕信息和能量的产生、传送、处理和使用,技术需要不断演进。

2019年,百度发布昆仑云服务器,该服务器基于百度自主研发的云端全功能AI芯片“昆仑”而生,运算能力比基于FPGA的AI加速器提升了近30倍。

2020年,阿里云推出第三代神龙云服务器,与上一代相比,第三代神龙云服务器的综合性能提升160%。它提供了最多208核、最大6TB内存,云盘IOPS高达100万、网络转发高达2400万、网络带宽高达100G,均为高性能水平,支持CPU、GPU、NPU(嵌入式神经网络处理器)、FPGA等多种计算形态,具备30分钟交付50万核VCPU的极速扩容能力。

从2010年到2020年,阿里云的存储性能提升了2000倍,网络性能提升了50倍,整体算力以平均每12个月翻一番的速度增长,向摩尔定律的极限发起挑战。

2.算力需求不断对硬件提出挑战 。算力的增长对芯片提出了新的要求,包括高算力、高能效、灵活性与安全性,而传统芯片架构并不能满足这些要求。传统芯片“算力增长慢”束缚了智能化水平的提升,“计算能效低”限制了智能化范围的扩大。

再者,巨量的数据和多样的数据类型,导致串行计算的CPU难以满足多元计算场景的要求,计算芯片种类走向多元化,GPU、FPGA、ASIC等跻身主流应用。

我们能看到,硬件世界已发生颠覆式变化,除了CPU、GPU、DSP、FPGA等,还涌现出各种各样的AI加速器。苹果、华为、百度、阿里等公司都推出了内置AI算法的芯片,应用场景多以云端为主。

同时,GPU算力的需求不断增加,英伟达在GPU算力市场占有一定优势,AMD也分了一杯羹,叠加比特币挖矿算力需求,一度导致市场上GPU卡供不应求。

国内也出现几支GPU方面的创业团队,如寒武纪、登临科技、燧原科技等。此外,RISC-V、存算一体化架构、类脑架构等算力也不断涌现,处于培育阶段。

Google的TPU(张量处理器)就是典型的例子。Google于2016年发布首款内部定制的AI芯片,推出第一代TPU,采用28nm工艺制程,功耗大约40W,仅适用于深度学习推理,在那场世界著名的人机围棋大战中助力AlphaGo打败李世石,宣告并不是只有GPU才能做训练和推理。

一年后,Google发布了能够实现机器学习模型训练和推理的TPU V2,达到180TFlops浮点运算能力。接着是2018年的第三代TPU,性能是上一代TPU的2倍,实现420TFlops浮点运算能力,以及128GB的高带宽内存。2019年,Google并没有推出第四代TPU,而是发布第二代和第三代TPU Pod,可以配置超过1000颗TPU,大大缩短了在进行复杂的模型训练时所需耗费的时间。

2021年5月,谷歌发布新一代AI芯片TPU V4,主要与Pod相连发挥作用。每一个TPU V4 Pod中有4096个TPU V4单芯片,能够将数百个独立的处理器转变为一个系统,每一个TPU V4 Pod就能达到1EFlops级的算力,实现每秒10 18 浮点运算。在相同的64芯片规模下,不考虑软件带来的改善,TPU V4相较于上一代TPU V3性能平均提升2.7倍。

与GPU相比,TPU采用低精度计算,以降低每步操作使用的晶体管数量,是同代CPU或者GPU速度的15~30倍。同时,TPU还可以进行池化,实现了TPU之间的高速互联,也就是TPU Pod,并对外提供TPU算力服务。

硬件的变革不仅体现在芯片本身,作为芯片重要载体的服务器,也面临着变革。以CPU为中心的传统服务器,正转向以XPU(互联芯片)为中心的下一代服务器。

国内不少企业正在布局。2018年,华为发布麒麟980芯片、昇腾910芯片;2019年推出基于ARM架构的鲲鹏920芯片,以及基于鲲鹏920芯片的TaiShan服务器、华为云服务,其芯片产品已覆盖云端(服务器端)和终端(消费端)。同样是2019年,华为发布了Ascend 910(昇腾910)AI处理器和MindSpore计算框架,并且AI芯片Ascend 910正式商用,每秒可处理1802张图片,其算力是同一时期国际一流AI芯片的2倍,相当于50个CPU;其训练速度比当时的前沿芯片提升了50%~100%,进而推动AI在平安城市、互联网、金融、运营商、交通、电力等各领域的应用。

从芯片的变化来看,随着7nm工艺制程日渐成熟,基于7nm工艺制程的CPU、GPU等算力性能得到极大提升,目前7nm工艺制程算力主要是中心化算力,移动端智能手机的处理器算力部分也已采用7nm工艺制程。台积电的7nm工艺制程已实现规模化,并开始攻关3nm工艺制程;中芯国际7nm工艺制程仍在技术攻关当中。

3.多种算力架构并存并快速发展 。曾经,x86架构的算力占优势,英特尔和AMD基本垄断了x86算力架构市场,海光信息通过跟AMD合作,获得x86架构的授权;目前移动APP基本都是在端侧以x86架构为主的指令设置,未来APP复杂的计算任务将全部搬到云上,以x86为主的架构运行效率会变低,那么,云侧算力将从x86转到ARM架构。

我们也能看到,如今基于ARM架构的算力份额不断扩大,特别是在移动端,ARM架构算力成为主流,华为海思、天津飞腾等主要产品都是基于ARM架构。

同时,协同计算也是当前算力的典型特征,应用场景的复杂多样,产生复杂多样的数据,要求多种计算技术、计算维度协同处理。未来数据计算需求将去中心化,分布在边缘侧,从而实现端、边、云协同的新形态,把要求高的隐私保密性放到边缘侧进行计算,而把大数据运算和存储业务安排到中心侧进行运算,让端、边、云三方共同完成计算和存储业务。

相对传统中心化的云计算,端、边、云协同计算的反应速度更快,时延更低,还能降低功耗和成本,同时能更好地解决隐私安全问题。

4.针对图像、语音等特定领域的专用算力日渐成势 。一方面是芯片工艺制程逼近摩尔定律的极限,另一方面是物联网智能终端对算力提出更丰富的要求,针对图像、语音等特定领域的专用芯片层出不穷。谷歌的TPU专为机器学习定制算力,阿里平头哥的含光NPU专为神经网络定制算力,赛灵思的FPGA芯片为5G、AI加速等领域提供算力,百度研发针对语音领域的鸿鹄芯片,还有云知声、思必驰、探境科技等也推出智能语音相关的芯片,北京君正、云天励飞、依图科技和芯原微电子等推出针对视觉和视频处理相关的专用芯片。

5.泛在计算成为算力的新特征 。数据在哪里,计算就在哪里。随着数字化应用场景不断丰富,大数据泛在分布于端、边、云。从本地计算的集群到超大规模的数据中心,从边缘计算到端云协同,计算无处不在。

边缘计算迅速发展,将云本身的功能扩展到边缘端,并且边缘计算、中心云、物联网终端形成“云—边—端”协同的体系,降低响应时延,减轻云端压力,降低带宽成本。例如,阿里云的边缘节点服务(Edge Node Service, ENS)与边缘云计算平台;华为云的智能边缘云(Intelligent EdgeCloud, IEC);腾讯云的边缘计算机器(Edge Computing Machine, ECM);百度智能云的智能边缘组端云一体解决方案(Baidu Edge Computing, BEC);金山云的边缘节点计算(Kingsoft Cloud Edge Node Computing, KENC)等。 ta4GUGRv1bOnKeAIYWUKgUAplzinT5hbJEJZDPrR7OtSZhxGrBCMVHVDVXDmXoe1

点击中间区域
呼出菜单
上一章
目录
下一章
×