以GPT系列为代表的大模型正在重塑IT行业的结构。
如图2.2所示,新结构的底层仍旧是云,可能配备了数以万计的GPU或XPU(极限处理器),它们构成了算力基石。往上一层是经典的IaaS层(Infrastructure as a Service,基础设施即服务,包括了计算、存储、网络、数据、安全等)。再往上是基础模型层(Foundational Mode),又称MaaS层(Model as a Service,模型即服务)。在此之上有许多VFM(Vertical Foundational Model,垂直基础模型),比如,用于自动驾驶、蛋白质解析、智能教育、具身智能的,难以计数。而且,这些垂直基础模型并非相互孤立、彼此隔绝,而是可以相互结合、形成对用户价值更高的应用——SaaS(Software as a Service,软件即服务)。
图2.2 未来的技术架构
在这样的结构下,对于AI大模型时代的竞争者而言,似乎每一层都意味着崛起的机遇。理论上当然是这样,然而对那些资源不充分和实力不够强的企业来说,无论是在算力层、基础设施层还是在基础模型层,获得成功的概率都不太高——因为有门槛,并且难跨越。事实上,大多数创新风口应该会出现在垂直基础模型层及其上的SaaS层。
不仅如此,要想在部署端(智能手机、PC、物联设备、智能汽车和机器人等)加入AI的能力,就需要为边缘定制模型,在这方面有很多工作待完成。况且,具体到部署端,模型并不是越大越好,而是越小越快越好。比如,当我们把大模型的能力迁移到无人驾驶的汽车里,首先要解决的问题是可靠与精确——让AI能够在最短的时间内对交通状况做出最佳的判断,延时越短,效果就越好,而不是赋予驾车的AI以写诗作曲、生成影像的功能。
我的判断是,在大模型时代,边缘的机会非常大,也非常多。所以,我们有不少正在推进中的边缘计算、边缘模型、模型交互、联邦学习与小模型的项目。
一些国外公司正在瞄准AI操作系统的机遇发力攻关,百度、阿里巴巴、腾讯、字节跳动、华为等有底蕴、有远见的本土巨擘也在此领域布局。哪怕是初创公司,倘若能够获得百亿级的投资,也可以尝试探索一番,OpenAI就是这么成长起来的。但我觉得,有想法的企业还是应该量力而行,不应该看到风口便往上扑,一窝蜂似的去做操作系统层。就像在移动互联网时代,iOS和Android固然发展得很好,但显然应用层催生了更多的超级玩家,如今日头条和TikTok、微信和淘宝。大模型时代也是如此。
在大模型时代,操作系统一家独大的可能性不大。因AI而生的App可以接入不同的系统,结合不同的基础大模型。所以,与其临渊羡鱼,不如多观察、多思考模型和模型之间的互动,以及怎样更好地跨模型工作,怎样在模型里收集知识,进而将其转化为自身的产品优势。
一个积极的变化是,以往开发任何应用都需要大规模的数据,现在依托预训练模型,数据的调用已不成问题,因而每个企业只需要结合自己的专有数据做精调训练(Fine Tuning)和提示工程(Prompt Engineering),就能以比过去更少的投入获得更好的反馈与更高的回报。
总之,新时代的信息技术从业者可能会发现,有更多有趣的工作等着自己去完成。一切的改变始于ChatGPT。它的成功加速了整个行业生态的转变,带来了新范式的启示。它的影响才刚刚开始。
像GPT系列这样的大模型技术将持续向前演进,与其技术原理相近的平台、系统预计也将不断出现,在经历了投资者评估与市场考验之后,大浪淘沙,余下少数几家由幸存者升格为统治者。由于地域的区别、政策的限定,中国也会有自己的大模型及杀手级应用,它们会逐步成长为新的操作系统。这样的演变与云计算从萌芽到壮大的过程如出一辙。
经常使用ChatGPT的国内用户会发现,它的中文交互表现相当出色,这一点十分有趣。Transformer模型起初被设计用来解决序列到序列的任务,如机器翻译,训练它的时候就使用了各种不同的语言。其后,Transformer模型在语言映射之间找到了结构,学会了语法和语义。这说明,用于训练模型的语言语种越多,其效果可能就越好。因此做中文大模型时,最好别让训练原料局限于中文,加入更多的语种很有必要。
据2023年6月国际数据公司(IDC)发布的报告,全球每一年产生的数据量大约是上一年的1.26倍,增长速度超出了摩尔定律。其中大部分数据可能由非中文语种产生,但我认为,这对于训练中文大模型来说,现在乃至以后都不算是限制。原因有两个方面:一是我们可以用英文及其他语种的数据来训练中文大模型;二是用于训练大模型的数据远不只文本,还包括视频、语音等多模态数据。不久,不只是源自信息世界的数据,物理世界(自动驾驶车辆、机器人、边缘设备、各种工业设施等),生物世界(基因组学、细胞组学、人类的大脑器官等)的各种数据都可以转变为Token(词元),供AI持续学习。甚至某天,研究人员将各种气息、味道、触感进行数据化后喂给AI,强化其能力。
想象一个线下社交场合,人和人之间交换信息的方式固然以对话为主,但视、听、嗅、味、触五感产生的信息量或许更大。另外,现在绝大部分被纳入统计的数据是由人类和各种机器、传感器产生的数据,这些只是浮在海面上的冰山一角,物理世界中还有更多数据暂时处于海面以下。比如,每位驾驶员、每辆车每天产生的数据都是TB级别的,生物世界的数据量级只会更高。也就是说,数据量绝不会成为训练中文大模型的瓶颈。
比获取数据更重要的是怎样用好数据。ChatGPT的表现如此优异,有一个重要原因是研发团队对边际工作给予了高度重视,如数据清洗、半监督学习等。团队不仅在技术层面及时调试、优化,还雇用了很多人对数据做各种标注,再加上纳入了人类反馈的强化学习——相当于我们与ChatGPT的每轮对话都能让它变得更聪明。所以,除了保障用于模型训练的算力、数据和算法,边际环节也很重要。
今天,在围绕AI展开的新一轮科技长跑的进程中,中国科技界与“世界顶尖”之间的差距可能更多地体现在高端计算芯片、算法系统和一些大的平台级技术方面。但我觉得,国内的科研人员、创业者和工程师,一旦集中资源、保持耐心、认真做事,就有机会追赶上别人。
值得注意的还包括,在生成式AI刚刚在产业内外引发极大关注的阶段,美国很快便出现了针对大众用户的实用化产品,如DALL-E、Midjourney、Cursor、Pika、Suno AI等垂直类应用,这些应用从上线到获客、实现营收的路径都很短。
中国目前有很多聚焦生成式AI机遇的新创公司,而且风险投资行业、高科技企业也在紧密关注着新的风向。这一领域的大多数创新遵循两种模式,一是做横向的基础模型,二是做行业的垂直模型。到目前为止,更多的机会应该是在垂直领域,如边缘智能体、医疗等。对此,我的想法是,无论今后有多少机构和个人能够在这轮创新风暴中把握成长契机,进而成为新时代的弄潮儿,当下对生成式AI的探索一定会让每个人都倍感兴奋——毕竟,未知之门就在前方,每一天都是崭新的。
最后,有了ChatGPT的灯塔效应,国内许多公司纷纷投身于生成式AI的角逐就不足为奇了。“百模大战”早已开启,仅就我所知,便有几十家公司在做大模型。这谈不上是好还是坏,我认为,不管是行业巨擘还是初创企业,只要能够充分地、公平地竞争,便可创造出活力十足的市场。同时,能够坦然投身于竞争的公司才是好的公司。
大模型时代刚刚揭幕。42千米的马拉松比赛,而今可能才跑到5千米路标处。中国在PC互联时代落后于世界,在移动互联时代实现了特定领域(数字支付、短视频等)领先于世界。到了AI互联时代,我们理应给予创业者、科研人员乃至企业更多的信心、更多的时间,毕竟,这场博弈恐怕将旷日持久。