购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
算力对AI发展速度的决定性作用

算力、算法和数据是驱动人工智能发展的三大要素。其中,算力更是被称为人工智能发展的引擎,对人工智能的发展速度起到决定性作用。图2-1展示了算力分布的周期性变化。20世纪70年代,正是因为算力发展水平低下的限制,导致大量人工智能项目无法实现预期效果,模型训练举步维艰,行业发展进入寒冬期。

图2-1 算力分布的周期性变化

AI先驱、深度学习杰出研究科学家理查德·S.萨顿(Richard S. Sutton)在探讨人工智能发展所走过的弯路时指出,对于人工智能未来的发展,利用算力才是王道,只有在算力发展的基础上,搜索和算法才能带来技术水平的长期提升。

进入21世纪以来,随着芯片、CPU、GPU等硬件能力不断提高,以及云计算、大数据等技术的快速发展,人工智能的算力需求得到了前所未有的满足。受益于算力水平的提高,人工智能应用最广泛的深度学习得以诞生,各种新兴、大型算法模型层出不穷(图2-2和图2-3)。

图2-2 1950年到2016年人工智能发展历史上比较重大的事件

图2-3 1952年到2022年机器学习系统FLOPs算力需求的变化趋势

(图中统计了1952到2022年间三个时代的121个里程碑式机器学习模型,2010年进入深度学习时代,2015年进入大规模发展时代的趋势。)

一直以来,人工智能的发展带来算力需求增长都是指数级的,算力决定了系统处理数据的能力,更高的算力能够让AI模型在单位时间内处理更多的数据,以更短的时间完成模型训练。作为ChatGPT开发者的OpenAI就曾公开表示,高级人工智能所需要的计算能力每三个月就会翻一番。

一、AI大模型训练需要大量的算力支持

随着AI技术的不断发展,越来越多的政企开始应用AI算法解决复杂的问题。然而,许多AI应用都需要进行大规模的模型训练,这需要庞大的算力支持。

大模型训练是指使用大量数据对深度学习模型进行训练,以期提高模型的准确性。比如,谷歌AlphaGo击败围棋世界冠军李世石,正是经过漫长的大规模模型训练后才有了如此惊人的表现。然而,大规模的模型训练需要巨大的算力支持。以谷歌为例,TensorFlow平台每天需要处理数千亿次的矩阵运算,这需要庞大的服务器集群和高性能的计算资源,此外还需要大量的存储空间和网络带宽,以保证数据的高效传输和存储。

目前有两种主流算力方案。一种是GPU加速算法。GPU是一种专门用于图形处理的芯片,它具有大量的并行计算单元,可以快速地进行矩阵运算等计算密集型操作。因此,GPU非常适合用于深度学习等需要大量计算的应用场景。

另一种是分布式算力加速。分布式算力是指由云计算公司提供的基于分布式架构技术的云计算资源。用户可以通过网页或API等方式直接访问这些计算资源,无须购买和维护昂贵的服务器设备,使用分布式算力实现对AI模型的分布式训练。目前,主流的分布式云平台有AWS、Azure、华为云、腾讯云、阿里云等,这些云平台为其提供了强大的计算和存储能力,可以帮助用户快速搭建AI应用环境,并提供高效的大规模模型训练服务。

以ChatGPT的开发过程为例,GPT、GPT-2到GPT-3和GPT-4,参数量从1.17亿增加到1746亿,预训练数据量从5GB增加到45TB。OpenAI团队训练一次GPT-3模型需要的算力约为3640 PFlop/s-day,单次的成本或高达460万美元。

2021年,微软和英伟达使用了4480个GPU训练出拥有5300亿参数的MT-NLG大模型,算力成本更是高达8500万美元。

总之,AI大模型训练需要大量的分布式云算力支持,需要有强大的算力网络支撑,这是实现AI技术商业化的重要一环。当前,GPU加速和分布式云计算平台是最为成熟和普遍的解决方案,而新兴的技术也在不断涌现。未来,随着技术的不断进步,我们相信AI大模型训练的算力需求、将会得到更好的满足。

二、AI的日常运营需要常态的算力供给

随着AI技术不断发展,越来越多的企业开始采用AI应用代替传统人工进行日常运营。而这些AI应用需要强大的计算能力来支撑其运行和优化,因此常态的算力供给成为保证AI日常运营稳定性和效率的重要条件。

ChatGPT作为一家专注于提供机器人聊天和写作、全球领先的AIGC应用,也需要大量的算力来支撑其日常运营。在ChatGPT的平台上,用户可以通过语音识别、文本分析等方式与AI进行交互,获得高质量的人机对话服务。但这种高质量的服务背后,需要强大的计算能力来支撑。

ChatGPT的算法运行需要庞大的数据集和复杂的计算模型,这就使得其需要大量的GPU来支撑其运行。尽管企业可以通过购买GPU服务器或者云计算服务来满足日常需求,但由于AI算法的高耗电和高计算要求,这种方式往往会导致高昂的运营成本。

为了降低运营成本和保证服务质量,ChatGPT采用了常态的算力供给策略。比如ChatGPT会根据不同时间段的需求量动态调整其算力需求,以达到最佳的资源利用率和最低的成本。在高峰期,ChatGPT会增加GPU服务器数量,以应对更多的用户请求和更复杂的数据处理工作。而在低谷期,ChatGPT则会适当减少GPU服务器数量,以节省成本并避免资源浪费。

除了动态调整算力供给之外,ChatGPT还会进行算法优化,以提高算法的运行效率,减少计算资源的使用。例如,ChatGPT会对算法进行深度学习,并利用神经网络和强化学习等技术来提升算法的运行速度和准确性。

同样以ChatGPT为例,据《财富》( Fortune )杂志估算,用户每次与ChatGPT互动所产生的算力成本约为0.01美元;以SimilarWeb公布的2023年1月ChatGPT官网总访问量6.16亿次计算,1月ChatGPT的算力运营成本约616万美元。

总之,ChatGPT的成功运营离不开常态的算力供给,也就是资金供给。通过动态调整算力需求和算法优化,ChatGPT保证了高效的日常运营和低成本的运营模式。这种常态的算力供给策略,不仅是ChatGPT这样的企业所必需的,也是未来AI日常运营稳定性和效率的关键所在。因此,只有依托强大的算力和充足的资金才能支撑AI的正常运营。

三、AI模型的升级迭代需要更多的算力

在AI发布后,开发者仍然需要对其模型进行不断的调优,使AI模型变得更加高效和准确,这就需要进行不断的升级和迭代。此外,随着AI应用场景的拓展,也需要针对不同的领域进行针对性的AI训练。这些升级、迭代和训练都需要更多的算力支持,否则就无法满足这些模型的要求。

以GPT模型为例,这是一种非常流行的自然语言处理模型,它在各种场景下都得到了广泛的应用。但是为了提高其准确性和响应速度,就需要对其进行升级和迭代。例如,在GPT-2模型中,为了增强其语义理解能力,就采用了更加复杂的注意力机制,并且增加了更多的参数。这样一来,虽然模型的效果得到了提升,但也需要更多的算力才能够实现。

事实上,不仅是GPT模型,大多数AI模型在升级迭代过程中都需要更多的算力来支持。因为随着模型的复杂度不断提高,需要计算的参数也会成倍增长,这就需要更多的计算资源才能够完成。而且这些计算资源的要求不仅是CPU和GPU这样的通用计算资源,同时还需要一些专门针对AI模型的硬件加速器,如TPU等。

当然,这种对算力的需求不仅存在于模型的升级迭代过程中,也存在于训练和推理阶段。在训练过程中,需要大量的计算资源来进行反向传播和算法优化,使得模型不断优化。而在推理阶段,则需要更快的计算速度来保证实时性和准确性。

那么,如何满足这种对算力的需求呢?首先,可以考虑采用更加高效的算法和技术来减少计算资源的使用。例如,一些深度学习框架可以使用异步计算、裁剪等技术,从而减少模型参数和计算量。其次,可以考虑采用一些高性能的计算平台和云计算服务,从而获得更多的计算资源。

值得注意的是,不仅算力对AI的发展起到决定性的作用,AI的发展也在一定程度上刺激着算力相关技术和硬件等基础设施水平的不断革新进步,二者相辅相成、融合发展。

总之,作为AI模型升级迭代的必要条件,更多的算力需求是不可避免的。只有拥有足够的算力,我们才能更好地利用AI技术来处理和分析数据,为各种场景提供更加高效和准确的解决方案。 QLuOhtN6SiCPWMTOYSmRDFC7BZBpU1VO/PD5wvH2Mf7gFsTDTwzyH/a22TjRve23

点击中间区域
呼出菜单
上一章
目录
下一章
×