从本质来说,ChatGPT的飞跃就是涌现,而作为这次涌现的结果,另一种字面意义上的涌现正在中国上演,那就是“百模大战”。
2023年2月,百度宣布“文心一言”(ERNIE Bot)成为国内首个公开对标ChatGPT的大模型。就这样“百模大战”拉开了序幕。
没想到的是,在文心一言新闻发布会召开的前一天,GPT-4重磅推出,百度此前铺垫的热度为他人作嫁衣。OpenAI的GPT-4同期发布,其功能升级进一步刺激国内企业加速布局,阿里、华为、360等企业迅速跟进,推出“通义千问”“盘古”“智脑”等模型,形成“百模大战”的雏形。
截至2023年10月,国内参数规模10亿以上的大模型达238个,覆盖互联网巨头、科研院所及创业公司,如知乎“知海图AI”、复旦大学MOSS等。
头部企业如百度、阿里、腾讯通过优化算法(如文心一言推理效率提升10倍)和算力集群(腾讯HCC高性能计算集群)争夺技术高地,这种通用大模型的规模竞赛,在加剧技术内卷的同时,也促进了技术突破,比如多模态技术。2023年上半年,文生视频技术快速发展,百度“文心一言”视频生成功能、阿里达摩院“文本生成视频大模型”相继落地。
大模型的火爆也带来了下游企业的繁荣,数据标注、模型训练工具(如星尘数据、Scale AI)借势而起,成为产业链关键环节。各家企业躬身入局,带动了生态的发展,Meta、谷歌推动开源模型(如Llama)的发展,而OpenAI转向闭源;作为回应,国内华为昇腾、腾讯云等尝试构建自主生态。
成本优势和注重应用落地是从阿里M6开始,国产大模型就具备的行业基因,这种基因也在这次史无前例的大战中被发扬光大。长春市妇产医院利用第四范式的AutoML技术构建“新生儿体重预测模型”,误差控制在200克以内;商业银行借助AI反欺诈模型挖掘出了多达20亿条的潜在线索,相较于传统依靠人工规则仅能发现的上千条规模,优势极为显著。
“百模大战”无疑是壮观的百舸争流,因此自然也免不了泥沙俱下,在有人指摘其有“重复造轮子”之嫌时,自然也就有人说“‘百模大战’不是参与者太多,而是远远不够”。
对于平时关注大模型不多的读者而言,他们可能会认为:是ChatGPT在全球的爆火,才让中国科技企业迅速加入这场战局。
这只能说答对了问题的一半。一些人工智能初创企业的确是眼见ChatGPT引发的狂潮到来,迅速融资后开始投入大模型的研发。但对于国内一些科技大厂来说,它们在人工智能领域深耕已久,早就进行了多年的细致布局与准备。
阿里云、百度、腾讯、华为等大厂早早开始在大数据、大算力、预训练模型等方面进行技术积累。这些企业不仅紧跟生成式AI的潮流,还通过发布自研的大模型(如阿里云的“通义千问”、百度的“文心一言”、腾讯的“混元大模型”和华为的“盘古大模型”)在技术上进行不断优化,推动了大模型的研发。
除了科技大厂,很多企业也加速了在AI领域的布局。大模型的应用已经从传统的计算机视觉、自然语言处理等扩展到更多行业场景,包括医疗、电力、煤矿等多个领域,展现出AI工业化的趋势。
根据赛迪顾问发布的《2023大模型现状调查报告》,截至2023年7月底,中国累计已有130个大模型问世,“百模大战”局面已然呈现,大模型的竞争开始进入“大力出奇迹”的阶段。
这个看似混乱无序的“战国时代”的背后,彰显了一个国家、一个古老民族的砥砺奋进,是整个中国人工智能行业对先进技术的追赶与超越的雄心壮志。在中国这个拥有最多理科人才、最大应用市场和广大创业者空前热情的国度之下,伟大创新的诞生应该只是个时间问题。
从这个角度看,DeepSeek的崛起的确是建立在国产大模型的大厦之上,背后交织着时代机遇、地域禀赋与民族意志的共振。