从表面来看,DeepSeek一夜之间爆火,火得一塌糊涂,火得一发不可收,但又火得莫名其妙。不过太阳底下没有新鲜事,DeepSeek横空出世的背后,其实是中国AI公司在这一领域持续多年的深耕细作。DeepSeek的崛起是一个典型的中国科技初创公司凭借技术创新和开源模式迅速崭露头角的故事。
2024年12月末,有媒体报道称,小米总裁雷军以年薪千万的优厚条件聘请了一位被称为“天才AI少女”的年轻人,负责领导小米的人工智能大模型团队。这位出生于1995年后的女性名叫罗福莉,过去几年间曾效力于DeepSeek团队,并深度参与了大模型研发的核心工作。
图1-1 DeepSeek霸榜各大美媒头条
图片来源:各相应媒体网站主页截图。
对没有专门关注科技圈的普罗大众而言,这其实是Deep-Seek第一次走进公众视野。不过,当时“天才AI少女”的风头显然盖过了DeepSeek,这越发使得后者在一夜成名后显得低调而神秘。从关于DeepSeek创始人梁文锋零零散散的背景资料中我们可以发现,2015年12月1日水木社区上转发的一则招聘启事,勾画出了梁文锋量化交易之路的轮廓:
2008年,L先生(指梁文锋)带着8万元本金,开始了自己独立的量化交易之路。2015年,历经七年熊市牛市大轮回的L先生,凭借每年超过100%的复合收益率,跻身亿元富豪之列。
这个行业里率先富起来的L先生认为,中国的量化交易将从“单兵游侠”的时代转向极客会聚的私募基金时代。他和IT(信息技术)圈的朋友创办了自己的公司,希望能打造一支世界一流的量化私募团队。他们给自己的公司取名“幻方科技”。“幻方”源自中国古代洛书九宫图,是一种特殊的矩阵,是科学的结晶与吉祥的象征。
L先生的理想是有朝一日自己的公司能够与世界级的量化交易泰斗——西蒙斯的文艺复兴科技公司相媲美。
这则校园招聘的标题是《顶尖量化对冲基金公司觅牛人》。10年前,梁文锋是否能够招到牛人不太好说,但随着DeepSeek-V3的问世,业界普遍推测这一成就背后必有行业资深专家或“大牛”领衔。然而,罗福莉的走红却揭示了一个出人意料的事实:引领DeepSeek技术革新的主要推手并非传统意义上的行业老将,而是一群像她这样充满活力和创新精神的青年才俊。
尽管公司成员都很年轻,但DeepSeek在人工智能领域却堪称老兵。正如这则招聘启事所透露的,其起点可以追溯至2008年,当时梁文锋从浙江大学信息与通信工程系毕业,投身量化投资领域。他与友人共同探索利用数学模型和计算机程序进行交易的可能性,这段经历让他深刻体会到技术驱动创新的重要性。
2015年,梁文锋与校友徐进联合创立了幻方量化。徐进拥有浙江大学信号与信息处理专业博士学位,曾在华为技术有限公司上海研究所任职。他们购置了大量GPU,建立了实验室,开始研究如何借助AI技术构建投资策略。这一举措使幻方量化在短短四年内成长为管理资金规模超百亿元的私募巨头。既然AI制定的量化策略能跑赢市场,那AI是否会产生真正的智能?让我们大胆猜测,这第一桶金可能在梁文锋心中播下了将能实现通用人工智能(AGI)的种子。
随着业务的扩展,幻方量化于2019年成立了专门的AI实验室,并投入逾10亿元资金,研发了AI超级计算机“萤火一号”和“萤火二号”。其中,“萤火二号”配备了约1万张英伟达A100显卡,其算力超过了72万台个人电脑。凭借这些强大的计算资源,幻方量化在2021年将资产管理规模提升至1000亿元人民币。
到了2022年底,ChatGPT的问世终于引燃了梁文锋对通用人工智能的热情。多年的积累让他做好了迎接这一挑战的准备。梁文锋表示:“我们成立了名为深度求索的新公司,从大语言模型入手,未来还将涉及视觉等领域。”尽管在人工智能公司OpenAI公布了论文和代码后,国内外涌现出许多大模型公司,但他坚信,在未来20年内,无论是大企业还是初创公司都将拥有广阔的发展空间。
与其他国产大模型不同,DeepSeek选择了开源道路,并且在第三代大模型发布时仍未推出任何具体应用,也未全面考虑商业化。梁文锋明确表示,他们的目标不在于开发单一应用,而是专注于基础研究和前沿创新。这种纯粹的理想主义,以及不被任何资方束缚、裹挟的底气,在某种程度上来自梁文锋早已实现财务自由的洒脱。这一点,与马斯克投资特斯拉、大举押注新能源汽车,有异曲同工之妙。真正的耐心资本只能是自己的资本。
长期以来,人们普遍认为,欧美科技界在从0到1的技术创新上更具优势,而中国企业则擅长在应用层面发力,即所谓的从1到N。然而,梁文锋并不认同这种观点,他坚信中国AI不仅会跟随,还能以创新者的身份参与新的技术浪潮。
2023年7月17日,梁文锋成立了杭州深度求索人工智能基础技术研究有限公司,宣布其目标是打造“真正具备人类级别智慧的人工智能”。当时,有一种观点在网络上流传:在中国,拥有高性能GPU最多的机构并非人工智能公司,而是一家量化私募投资公司。据《财经十一人》2023年的报道,中国拥有超过1万张GPU的企业不超过5家,幻方量化是其中唯一一家不属于科技“大厂”的企业。这种一掷千金的果断与勇气,绝不是一般企业管理者所能达到的;这种不符合传统商业逻辑的决策,只能来自一个对通用人工智能有坚定信念的创始人。
在中国的AI大模型创业公司中,DeepSeek一直保持着低调的姿态,但在基础技术研发方面,其却展现出了惊人的实力和一种学院派的严谨。尽管成立时间不长,但DeepSeek的发展速度和技术创新能力令人瞩目。仅在成立半年后,即2023年11月2日,DeepSeek发布了DeepSeek Coder,这是其首款开源代码大模型,支持多种编程语言的代码生成、调试和数据分析任务。该模型完全开源,免费供商业使用,这是该公司在AI领域的首次重大突破。
紧接着在2023年11月29日,DeepSeek发布了其首款通用大语言模型DeepSeek LLM 67B。这款模型的参数规模达到了670亿,性能接近GPT-4,并在多个中英文公开评测榜单上表现优异。DeepSeek LLM 67B进一步使DeepSeek成为开源大语言模型领域的领先者。
2024年5月,DeepSeek发布了开源第二代MoE(混合专家)大模型DeepSeek-V2,这款模型不仅在性能上实现了显著提升,还因其极低的成本引发了行业内的价格战。DeepSeek-V2的推理成本仅为每百万令牌1元人民币,这一价格仅为Llama 3的1/7,GPT-4-Turbo的1/70。这种巨大的成本优势迫使国内主流大模型厂商,包括腾讯、百度、阿里巴巴、字节跳动等,纷纷下调价格。
又是短短半年过后,DeepSeek-V3模型发布,其输入价格进一步降至每百万令牌0.5元,这再次推动了国产大模型的降价潮。2024年12月,字节跳动下调其旗下豆包视觉理解模型输入价格,与行业平均水平相比,降低了85%。
真正的爆发是在2025年的1月20日,DeepSeek发布了性能对标OpenAI o1正式版的新模型——DeepSeek-R1。由于它在基准测试中超越了OpenAI的同类产品,且强大丝滑的产品使用体验震惊了海外AI社区,因此DeepSeek被海外AI界人士称为“神秘的东方力量”。同时,国内媒体也在争相报道DeepSeek的大火,称DeepSeek为典型的“墙外开花墙内香”的中国创新。
“DeepSeek-R1是我见过最惊人、最令人印象深刻的突破之一,”顶级风投a16z创始人马克·安德森评论道,“作为开源模型,这是给世界的一份意义深远的礼物。”