除了关注Sora性能、技术原理外,Sora团队成员同样引人注目。毕竟,对于Sora这样一个震惊世界的AI模型,人们也难免好奇,到底是什么样的团队,才能开发出这样的旷世大作?
根据OpenAI官网公布的信息,Sora的作者团队一共有13位(图4)。
图4 官网公布的团队名单
蒂姆·布鲁克斯(Tim Brooks)在OpenAI共同领导了Sora项目,他的研究重点是开发能模拟现实世界的大型生成模型。蒂姆本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,期间在Facebook软件工程部门实习了四个月。2017年,本科毕业的蒂姆先到Google工作了近两年,在Pixel手机部门中研究AI相机,之后到了伯克利AI实验室攻读博士。在伯克利读博期间,蒂姆的主要研究方向就是图片与视频生成,他还在英伟达实习并主导了一项关于视频生成的研究。回到校园后,蒂姆与导师阿列克谢·埃夫罗斯(Alexei Efros)教授和同小组博士后亚历山大·霍林斯基(Aleksander Holynski)(目前就职谷歌)一起研制了AI图片编辑工具InstructPix2Pix,并入选CVPR 2023Highlight。2023年1月,蒂姆顺利毕业并取得了博士学位,转而加入OpenAI,并相继参与了DALL·E 3和Sora的工作。
共同领导Sora项目的另一位科学家皮布尔斯与蒂姆师出同门,仅比蒂姆晚4个月毕业,Bill Peebles专注于视频生成和世界模拟技术的开发。皮布尔斯本科就读于麻省理工学院,主修计算机科学,参加了GAN和Text2Video的研究,还在英伟达深度学习,参与自动驾驶团队实习,研究计算机视觉。毕业后正式开始读博之前,皮布尔斯还参加了Adobe的暑期实习,研究的依然是GAN。在FAIR实习期间,和华人教授谢赛宁合作,研发出了Sora的技术基础之一DiT(扩散Transformer)。
康纳·霍姆斯(Connor Holmes)在微软实习了几年后,成为微软的正式员工,随后在2023年年底跳槽到了OpenAI,康纳·霍姆斯一直致力于解决在推理和训练深度学习任务时遇到的系统效率问题。在LLM、BERT风格编码器、循环神经网络(RNNs)和UNets等领域,他都拥有丰富的经验。
威尔·德普(Will DePue)高中就读于加州大学洛杉矶分校,这是一所大学附属中学,招收6~12年级的学生。在12年级最后一年(相当于国内高三),威尔·德普创立了自己的公司DeepResearch,后被Commsor收购。2021年,威尔·德普毕业于密歇根州立大学,获计算机科学专业学士学位。2023年7月加入OpenAI。2003年出生的威尔·德普也是团队中最小的一位。
郭宇飞(Yufei Guo)虽然没有留下履历,但在OpenAI的GPT-4技术报告和DALL·E 3技术报告里,都有参与并留名。
靖礼(Li Jing)本科毕业于北京大学,在麻省理工学院取得了物理学的博士学位,现在的研究领域包括多模态学习和生成模型,曾经参与了DALL·E 3的开发。
大卫·施努尔(David Schnurr)2012年加入了后来被Amazon收购的GraphiQ,带领团队做出了现在Alexa的原型。2016年跳槽到了Uber,3年之后加入了OpenAI,工作至今。
乔·泰勒(Joe Taylor)之前的工作经历涵盖了Stripe、Periscope.tv/Twitter、Square以及自己的设计工作室Joe Taylor Designer。他在2004~2010年,于旧金山艺术大学完成了新媒体/计算机艺术专业的美术学士(BFA)学位。值得一提的是,在加入Sora团队之前,他曾经在ChatGPT团队工作过。
埃里克·卢曼(Eric Luhman)专注于开发高效和领先的人工智能算法,其研究兴趣主要在生成式建模和计算机视觉领域,尤其是在扩散模型方面。
特洛伊·卢曼(Troy Luhman)和克拉伦斯·永寅(Clarence Wing Yin NG)则相对神秘,并没有在网上留有相关信息。
王宇(Ricky Wang)是一名华裔工程师,曾经在Meta工作多年,也是2024年1月才加入了OpenAI。
阿迪蒂亚·拉梅什(Aditya Ramesht)本科就读于纽约大学,并在杨立昆实验室参与过一些项目,毕业后直接被OpenAI留下。曾经领导过DALL·E 2和DALL·E 3,可以说是OpenAI的元老了。
Sora团队,最大的特点,就是年轻。
团队中既有本科毕业的“00后”也有刚刚博士毕业的研究者人员。其中,皮布尔斯和蒂姆作为应届博士生担当研发负责人直接带领Sora团队,两人都毕业于加州大学伯克利人工智能研究实验室(BAIR),导师同为计算机视觉领域的顶尖专家埃夫罗斯。并且,从团队领导和成员的毕业和入职时间来看,Sora团队成立的时间也比较短,尚未超过1年。
Sora团队虽然是一个年轻的团队,但团队成员的经历不容小觑。
从Sora团队成员的工作经历来看,团队成员大部分来自外部的科技公司,其中人数来源最多的外部公司是科技巨头Meta和亚马逊,还有微软、苹果、Twitter、Instagram、Stripe、Uber等知名科技公司以及《连线》等知名科技杂志。
与此同时,许多团队成员也都是参与过OpenAI多个项目的“资深老兵”。在OpenAI的技术项目中,Sora团队成员参与人数最多的是DALL·E 3项目,共有5人参与过,占团队总人数的近3成。分别是重点关注开发模拟现实世界的生成式大模型的科学家蒂姆;在微软工作时以外援形式参与了DALL·E 3的推理优化工作的科学家霍姆斯;创建了OpenAI的文生图系统DALL·E的元老级科学家拉梅什;重点关注多模态学习和生成模型的华人科学家靖礼和公开资料少有显示的华人科学家郭宇飞。
其次是GPT项目,共有3人参与过,占团队总人数的近2成,分别是拉梅什、郭宇飞以及2019年就加入OpenAI的高级软件工程师施努尔,他们分别参与了GPT-3、GPT-4和ChatGPT的关键技术项目研发。
可以看到,Sora团队成员在计算机视觉领域有着深厚的技术积累,特别是近3成团队成员有参与过DALL·E项目的研发经验,这对之后成功研发Sora打下了坚实的基础。此外,团队研究人员的研究方向大多集中在图片与视频生成、模拟现实世界的技术开发、扩散模型等视觉模型以及多模态学习和生成模型方面,也为Sora的成功奠定了坚实的理论基础。
Sora一词取自日语,意思是天空,寓意着“无限创造潜力”,正如Sora的寓意一样,Sora团队不仅对技术有着极致的追求,也充满了创造力和活力。而Sora团队在人工智能图像和视频生成领域的突破,也预示着该团队将在未来的技术革新中扮演重要角色。