大模型入门：技术原理与实战应用最新章节_程絮森著

1.3 大模型的崛起
从初露头角到AI巅峰

大模型的发展历程是一个充满挑战和创新的过程，大模型的起源可以追溯到2015年，那一年萨姆·奥特曼、伊隆·马斯克等人在美国旧金山共同成立了OpenAI。2017年，谷歌大脑团队推出了用于自然语言处理的Transformer模型，成为当时最先进的大型语言模型（Large Language Model）。自诞生起，Transformer模型就深刻地影响了接下来几年各个领域人工智能的发展，而OpenAI公司就是专注于研究Transformer模型的众多团队之一。2018年，Transformer模型诞生不到一年，OpenAI就推出了具有1.17亿个参数的GPT-1模型。这个模型采用了Transformer结构，可以对大量的文本数据进行预训练，从而学习到语言的语法和语义特征。2019年，OpenAI公司公布了GPT-2模型，该模型具有15亿个参数，比GPT-1的规模更大，可以生成更加自然、连贯的文本。但是，由于担心GPT-2模型被滥用，OpenAI公司只发布了部分模型和数据，并且限制了其访问和使用。2020年，OpenAI推出了GPT-3模型——这时它具有1750亿个参数。这个模型可以进行商业化使用，用户提供小样本的提示语或直接询问，即可获得符合要求的高质量答案。2022年3月，OpenAI推出了InstructGPT模型，该模型为GPT-3的微调版，使用RLHF和指令微调优化了输出的结果。同年11月底，人工智能对话聊天机器人ChatGPT推出。2023年3月，OpenAI发布了GPT-4，在原先的基础上增强了多模态的能力，具有强大的图像识别功能，在部分学术和专业考试方面甚至超越了人类水平。

纵观大模型的发展，随着模型能力提升的还有模型的参数规模，从GPT-1的1.17亿个参数，到GPT-4的1.8万亿个参数，如图1-6所示，参数数量随着版本更迭急剧上升，模型能力也得到了综合加强。

图1-6 ChatGPT参数规模

在GPT-3.5模型推出后，科技企业纷纷开始积极研发自己的大型预训练模型，这一趋势推动了人工智能领域的快速发展。除ChatGPT外，百度于2023年3月召开发布会，发布了自研大模型“文心一言”，发布会上展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合实力；同年4月，阿里发布了自研大模型“通义千问”，展示了通义千问的文本创作翻译、角色扮演、语义理解、图形设计、连续对话、智能助手等功能，并表示会将大模型与所有产品和业务结合，推出更加智能化的新一代产品。随后，360、科大讯飞等也推出了大模型；在科研界，清华大学推出了ChatGLM-6B，可在消费级显卡上很方便地进行部署和微调；复旦大学NLP实验室推出了MOSS模型，也在多项NLP任务上取得有效成果；人民大学在2023年6月也推出了玉兰大模型，在多模态、信息检索等方面做了针对性优化。

除了通用的大模型，一些企业和研究团队也开始研发面向特定领域的模型。这些模型受到领域知识的启发，旨在更好地满足特定任务的需求，如医疗保健、金融、法律和工业领域的任务。例如，2023年9月外滩大会发布的蚂蚁集团金融大模型——AntFinGLM，测试集从认知、生成、专业知识、专业逻辑、安全性等28类金融专属任务评估了金融大模型能力，在金融领域的表现远远超过通用大模型。在研判观点提取、金融意图理解、金融事件推理等任务上，金融大模型已经达到专家平均水平，在一些专业考试上取得了不错的成绩。

1.3 大模型的崛起 从初露头角到AI巅峰

1.3 大模型的崛起
从初露头角到AI巅峰