近年来,随着深度学习模型的算法技术不断取得突破,数字内容产业结构划分逐渐明朗。以微软、百度、谷歌等为代表的互联网行业巨头纷纷投入多模态AI大模型的研发中,已经取得了一定的成果。Stable Diffusion、GPT-4、文心一言等大模型的发布为虚拟数字人的发展提供了有力支撑。
融合AI写作、AI绘画、AI音视频生成等交互功能为一体的虚拟人是AIGC技术发展的另一赛道。简单地说,虚拟人就是拥有人类形象的能够模仿人类思维方式与人们进行交互的智能机器人。目前,该技术已经在虚拟主播、虚拟偶像等领域有了广泛应用。
虚拟人物视频是目前AI驱动型虚拟人最为广泛的应用场景之一,具体地说,就是将AI生成的虚拟人物(如虚拟偶像、虚拟主播等)融入视频中,视频制作者可以设定虚拟人物的外观、动作、语音播报速度等属性,以达到最佳视频效果。随着技术的进步,虚拟人物的仿真程度也在不断提高。
通常,我们利用Maya或3D Studio Max等软件建立三维模型,创作者需要具备一定的色彩学知识、美学素养和数学模型计算能力。如果要做出高质量的三维画面,往往需要投入大量的时间和人力,同时也伴随着高昂的成本。
随着AI技术的发展,神经辐射场(Neural Radiance Fields,NeRF)模型有望成为更为高效、便捷的3D建模方案。关于NeRF的论文在2020年的欧洲计算机视觉国际会议(European Conference on Computer Vision,ECCV)上引起了广泛关注,NeRF模型可以将二维图像渲染生成三维画面。目前,谷歌、英伟达等公司已经开始训练自己的NeRF模型并取得了一定的成果,其中英伟达基于一种多分辨率哈希编码技术,将NeRF模型的训练时间从5小时缩短至5秒。
AI虚拟人的真正价值在于实时交互功能。例如,银行大堂里的“虚拟员工”可以为客户提供一部分基础服务,如业务咨询、业务办理指引等,客户通过语音沟通或在屏幕上勾选选项来实现与虚拟人的交互活动。目前,一些科技公司正在研发灵活性更高、功能更加丰富的虚拟人,例如百度开发的AI数字人度晓晓和小冰公司开发的虚拟助手小冰,集成了3D人物形象建模、语音识别、自然语言理解、多模态交互等技术,以完备的产品架构支撑多样化的应用场景,赋能教育、直播等多个行业。
在AIGC技术的赋能下,虚拟数字人的制作效率得到大幅提升,应用场景进一步拓展,多模态交互性能也更加完善,丰富的训练数据积累可以赋予数字人更多个性化特征,使人们获得更好的交互体验。
2023年3月,Corridor团队用AI创作的动画短片《石头剪刀布》在社交媒体YouTube迅速走红,他们先用真人演员拍摄人物动态,再通过机器学习模型Stable Diffusion把图像逐帧转化为动画风格,并利用谷歌推出的扩散模型DreamBooth进行微调,最终创作了这部富有新意的短片。整个创作过程大大节约了人力成本和时间成本,它是对现有复杂动画制作流程的突破。
随着训练模型规模的扩大,AIGC的创作能力将进一步提高,并发展出相对成熟的商业模式,从而带动整个内容创作产业的发展。其中,面向企业客户的内容生产工具在电子商务、线上客服等应用需求的驱动作用下,将更快实现商业化落地。同时,虚拟人、AI写作、AI绘画、AI建模等内容范式将推动元宇宙世界的发展,而基于元宇宙井喷式的内容需求,AIGC的创作潜力将得到进一步开发。在这一趋势下,虚拟数字人产业将发生变革,企业除了强化虚拟数字人的研发能力之外,还有必要具备CV(Computer Vision,计算机视觉)、CG(Computer Graphics,计算机图形学)等技术基因以适应行业、市场的发展。