时间进入2023年,尽管AI大模型仍在如火如荼地发展,但国内的“百模大战”似乎渐渐有偃旗息鼓的苗头。
原因无他,只是大模型训练起来太贵了。研究机构Epoch AI提供的数据显示,大模型训练成本在2022年之后出现爆炸式增长(见图3-1)。2023年,OpenAI首席执行官奥尔特曼透露,GPT-4的训练成本超过1亿美元,而GPT-3的训练成本仅为460万美元,两代产品间成本飙升了20多倍。谷歌在其后发布的Gemini的训练成本达到了令人咋舌的1.91亿美元,这还没有将研究人员的薪酬计算在内。
图3-1 大模型训练成本呈爆炸式增长
注:数据均系四舍五入后的结果,不包括员工薪资。
图片来源:https://www.statista.com/chart/33114/estimated-cost-of-training-selected-ai-models/。
如此高的训练成本注定了大模型竞争是一个“贵族游戏”,也许只有现金流充足的互联网巨头们才是拥有上桌资格的“玩家”。2023年伊始,起初观望的各家大厂已纷纷入局大模型,抢滩人工智能时代的桥头堡。
另外,“百模大战”如一团夏日烟火,热烈而短暂。在中美两国,除了几家头部企业,众多创业公司因缺乏足够资金支持和可见的盈利模式,而选择调整方向至AI应用甚或萌生退意时,幻方量化却逆势而行,选择孤注一掷地深耕这一领域。
2023年4月14日,幻方量化发布进军大模型领域的公告时,援引了法国新浪潮电影先驱特吕弗对青年创作者的寄语:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”
这一公告反映出幻方量化对技术探索的独特哲学:其以挑战金融领域复杂场景积累的算法能力为基底,选择在AGI这一人类科技巅峰领域进行高密度的投入,展现出超越商业逻辑的理想主义色彩。
不过在外界来看,DeepSeek既没有理想主义的光环,也没有理工男的耿直,外界听到的是关于其用AGI炒股的传言。公告发布两天后(2023年4月16日),幻方量化董事总经理陆政哲不得不在朋友圈澄清:“我用中文重申一下:AGI不是用来炒股的,有大得多的用处和大得多的价值。”这也可见DeepSeek对于理想的执拗。当然这种执拗并非无的放矢,而是由技术实力支撑的。后来证明,DeepSeek通过多项技术创新成功地让大模型训练变得“物美价廉”起来。