目前,AIGC在视频创作方面已经有零星项目崭露头角,但算法模型还不成熟。清华大学联合智源研究院(BAAI)团队开发的文本—图像生成模型CogVideo,在算法逻辑上采用以下思路:先根据文本描述内容生成图像,再对这些图像进行插帧和补帧,最终生成高帧率的完整视频,目前该模型已开源。
2022年9月,Meta公司推出了AI视频生成模型Make-A-Video,可以根据文字、静态图片或视频生成一个几秒钟的短视频。在这之后,Google也发布了Imagen Video和Phenaki,Imagen Video先根据文字描述进行采样,再通过级联扩散模型生成高分辨率(能够达到1280×768)的视频;Phenaki则是根据一段具体的文字描述生成两分钟以上的长镜头,甚至可以讲述一个完整故事。
从技术角度看,视频实际上是若干幅图片按照一定逻辑顺序的连贯呈现。在文字—图像的AI模型中,首先需要根据文字理解生成若干图片,每张图片的细微变化将决定视频的动态内容,在此基础上,将图片按照一定逻辑顺序排列组合,最终输出连贯的视频。其难度自然要比生成文字和图片更大。如果通过模型不断迭代升级和优化算法,在生成高质量视频的基础上还能保证生成速度高,并实现商业化应用,那么将对现在的短视频、影视剧、广告、游戏等产业带来深远影响。
AIGC在视频生成领域的应用主要体现在以下几个方面。
编辑的内容包括删除画面中的特定主体、修复视频画质、自动生成视频特效、人像自动美颜、自动添加特定内容(如水印)等。
AIGC视频自动剪辑主要是通过相关AI模型对视频画面、声音等多模态信息的融合特征进行学习,根据情绪、氛围等字段参数的设定,检测判断片段是否满足条件,然后自动切分或合成。
在视频自动剪辑方面,目前已有多家公司处于技术研发测试的阶段。例如,IBM开发的Watson系统可以自动剪辑电影预告片;斯坦福大学与Adobe研究团队共同开发AI视频剪辑系统;影谱科技可以根据对视频的结构化视觉分析(如场景识别、动作识别、道具检测等),按照规定的转场、区域、效果、脚本等要素对视频进行自动叠加、合成或拼接。
这一功能的实现主要以Deepfake视频制作为代表。用户可以将视频中的人物面部替换为其他人的面部,用户在上传原始视频和目标人像后,算法模型会自动检测原视频、目标人像的面部特征、运动模式等信息,再进行逐帧复刻,输出视频在保留音频的同时,还能够模仿原视频的表情瞬间。随着算法模型的迭代和优化,人物的全身合成、虚拟环境合成也正在实现。