2019年3月,强化学习之父Richard Sutton发表了一篇名为“The Bitter Lesson”(苦涩的教训)的博客。他在博客中提到:短期内,要使AI能力有所进步,研究者应寻求在模型中利用人类先验知识;但从长远来看,AI发展的关键在于充分利用算力资源。
该文章一经发布就受到不少AI研究者的反对,他们认为这是对自己工作的否定,并极力辩护。然而,如果我们将时间线拉长来回顾,就会发现Sutton的话不无道理。
机器学习模型从其参数的量级上可以分为两类:一类是统计学习模型,例如SVM(支持向量机)、决策树等,这些模型在数学理论上完备,算力资源的运用相对克制;另一类是深度学习模型,以多层神经网络的深度堆叠为结构,旨在通过高维度暴力逼近似然解来达到目的,这些模型在理论上不够成熟,但能有效地利用算力资源进行并行计算。
神经网络模型虽在20世纪90年代就已出现,但直至2010年前,统计学习模型仍是主流。随后,得益于GPU算力的快速发展,基于神经网络的深度学习模型逐渐成为研究和应用的主流。
深度学习充分利用了GPU在并行计算上的优势,基于庞大的数据集和复杂的参数结构,一次又一次地达到了令人惊讶的效果。大模型指的是参数量达到一定量级的深度学习模型,通常只有大型科技公司有能力部署。
2021年8月,李飞飞与100多位学者共同发表了一份长达200多页的研究报告“On the Opportunities and Risk of Foundation Models”。该报告综述了当前大规模预训练模型面临的机遇及挑战。
在该报告中,AI专家将这类大模型统称为Foundation Models,翻译为“基础模型”或“基石模型”。报告肯定了基础模型对智能体基本认知能力的推动作用,并指出了大模型表现出的“涌现”与“同质化”两大特性。所谓的“涌现”,是指一个系统的行为受隐性因素驱动,而非显式构建。“同质化”意味着基础模型的能力是智能的中心和核心,任何对大模型的改进都会迅速影响整个研究、开发和应用领域,但同时其缺陷也会被所有下游模型继承。
从国内来看,对大模型的定义存在诸多不同意见。人民大学高瓴AI研究院发布的“A survey of LLM”提到,大语言模型通常指的是在大规模文本语料上训练、包含百亿级别(或更多)参数的语言模型,如GPT-3、PaLM、LLaMA等。目前,大语言模型采用与小模型类似的Transformer架构和预训练目标(如Language Modeling),两者的主要区别在于增加了模型大小、训练数据和计算资源。大语言模型通常遵循扩展法则,部分能力如上下文学习、指令遵循、逐步推理等只有在模型规模增加到一定程度时才会显现,这些能力被称为“涌现能力”。IDC在《2022中国大模型发展白皮书》中定义AI大模型为基于海量多源数据构建的预训练模型,这是对原有算法模型的技术升级和产品迭代。用户可以通过开源或开放API/工具进行模型的零样本/小样本数据学习,实现更优的识别、理解、决策、生成效果以及更低的开发部署成本。华为在《人工智能行业:预训练大模型白皮书》中指出,预训练大模型是深度学习时代的集大成者,分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要是收集大量数据并训练超大规模神经网络,以高效存储和理解这些数据;下游阶段则是利用相对较少的数据和计算资源对模型进行微调,以达到特定的目的。
综合各方意见,大模型在人工智能领域,尤其是深度学习中指的是具有大量参数的神经网络模型,通常包含数百万到数百亿甚至数千亿的参数。这些模型因庞大的规模和复杂的结构,能够捕捉和学习数据中的细微模式,在多种任务上实现卓越性能。它们主要应用于自然语言理解和内容生成等领域。广义上,大模型还包括机器视觉(CV)大模型、多模态大模型和科学计算大模型等。
大模型的发展主要经历了3个阶段,分别是萌芽期、探索沉淀期和迅猛发展期,如图1-3所示。
1.萌芽期(1950-2005年):以CNN为代表的传统神经网络模型阶段
1956年,计算机专家约翰·麦卡锡首次提出“人工智能”这一概念,标志着AI模型发展的开始。最初这些模型基于小规模的专家知识,随后逐步演化为基于机器学习的方法。到了1980年,卷积神经网络的雏形诞生,开启了传统CNN、RNN等神经网络模型时代。1998年,现代卷积神经网络的一个重要里程碑——基本结构LeNet-5出现,使得机器学习方法从早期的基于浅层学习转变为基于深度学习。这为自然语言生成、计算机视觉等领域的深入研究奠定了坚实的基础。
图1-3 AI大模型发展的3个阶段
在这一转变阶段,研究者集中在AI理论探索和基础算法的开发上。早期的AI研究者尝试模拟人脑的信息处理方式,孕育了神经网络的初步形态。尽管受到计算能力和数据量的严重限制,但研究者仍致力于开发能够自动学习和自适应的模型。在技术和资源的限制下,大规模模型的开发和应用尚未实现。虽然这一时期的模型通常简单且规模小,但它们为后续复杂模型的开发奠定了重要的基础。
2.探索沉淀期(2006-2019年):以Transformer为代表的全新神经网络模型阶段
2013年,自然语言处理模型Word2Vec诞生,首次提出了将单词转换为向量的“词向量模型”,这使得计算机能更好地理解和处理文本数据。2014年,被誉为“21世纪最强大的算法模型之一”的生成对抗网络(GAN)诞生,标志着深度学习进入生成模型研究的新阶段。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,为预训练大模型奠定了基础。2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,标志着预训练大模型成为自然语言处理领域的主流。
在这一探索期,以Transformer为代表的全新神经网络架构奠定了大模型的算法架构基础,显著提升了大模型的性能。模型从浅层学习逐渐过渡到深度学习,在自然语言处理(NLP)和计算机视觉(CV)等领域尤为明显。Transformer模型的提出改变了NLP领域的游戏规则,并为处理复杂语言结构和语义理解提供了新的可能。这一时期的模型在规模上有显著增长,并在结构与功能上变得更加复杂和强大。然而,模型的复杂度和对数据的依赖也带来了新的挑战,如高昂的训练成本、对算力的巨大需求以及数据质量和偏见问题。
3.迅猛发展期(2020年至今):以GPT为代表的预训练大模型阶段
2020年,OpenAI公司推出了GPT-3。该模型的参数规模达到了1750亿,成为当时全球最大的语言模型。它在零样本学习任务上实现了显著的性能提升,展现出小模型所不具备的语境学习能力。随后,更多的策略开始被采用,包括基于人类反馈的强化学习(RLHF)、代码预训练、指令微调,这些都旨在进一步提高模型的推理、长距离建模和任务泛化能力。2022年11月,GPT-3.5版本的ChatGPT问世,其凭借逼真的自然语言交互和多场景内容生成能力,迅速在互联网上引起轰动。2023年3月,OpenAI发布了最新的超大规模多模态预训练大模型GPT-4,模型参数从千亿级增长到万亿级,并展示了多模态理解与生成多种内容的能力。在这一迅猛发展的时期中,大数据、大算力和大算法的完美结合,极大地提升了大模型的预训练、生成能力以及多模态多场景的应用能力。例如,ChatGPT的巨大成功就得益于微软Azure的强大算力、维基百科等海量数据的支持,以及基于Transformer架构,坚持使用GPT模型和基于人类反馈的强化学习(RLHF)进行精细调整的策略。
在这一时期,基于更大的数据集、更强的计算能力、算法创新这三大关键要素,GPT-4等大模型使AI能力实现了巨大飞跃。这些模型不仅在规模上达到了前所未有的水平,而且展示出了令人震惊的语言理解和生成能力。它们能够处理复杂的推理任务,甚至在特定领域能与人类专家相媲美,并具有理解和生成图像、音频、视频的多模态能力。然而,大模型的训练和部署代价巨大,需要大量的数据和计算资源,还引发了关于数据隐私、模型偏见及算法透明度等问题的讨论。此外,这些模型的复杂度和庞大规模也使得它们的维护和更新更加困难,这对研究人员和开发者而言是一个挑战。
大模型作为新物种,一直在快速进化,目前已经初步形成包括各种参数规模、各种基础架构、各种模态、各种场景的大模型家族,如图1-4所示。
图1-4 大模型家族
从参数规模上看,大模型经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。据统计,每年参数规模至少提升10倍,参数量实现了从亿级到百万亿级的突破。目前,千亿级参数规模的大模型已成为主流。
从技术架构上看,Transformer架构是大模型领域的主流架构。基于Transformer架构,大模型形成了GPT和BERT两个不同的技术路线。其中,BERT是众所周知的,其最著名的落地项目包括谷歌的AlphaGo。在GPT-3发布前,GPT方向一直不如BERT发展得好。然而,自从GPT-3问世后,GPT逐渐成为大模型的主流路线。目前,几乎所有参数规模超过千亿的大型语言模型都采用了GPT模式,例如百度的“文心一言”、阿里巴巴的“通义千问”、360的“360智脑”、昆仑万维的“天工3.5”及知乎的“知海图AI”等。
从模态上看,大模型可以分为自然语言处理、计算机视觉(CV)以及科学计算等。大模型已经从支持单一模态下的单一任务,逐渐发展至支持多模态下的多任务。
从应用领域来看,大模型可以分为通用大模型和行业大模型两种。通用大模型具有强大的泛化能力,可以在不进行调整或仅进行微调的情况下完成多场景任务。它相当于让AI完成了“通识教育”。行业大模型是在结合行业知识的基础上,对大模型进行微调,让AI完成“专业教育”,以满足能源、金融、航天、制造、传媒、城市、社科及影视等领域的需求。