“特朗普是个彻头彻尾的白痴。”在一段视频里,奥巴马这样说道。
这段视频里的奥巴马,无论是声音、相貌还是表情,都跟真正的奥巴马非常相似。
2018年末,美国演员乔丹·皮尔(Jordan Peele)与新闻聚合网站BuzzFeed合作,“自编自导”制作的这样一段“假”的Deepfake视频,迅速在网络上传播开。AI以皮尔的一段讲话录音为基础,把皮尔的声音转变成了奥巴马的声音,然后对奥巴马的一段真实视频进行调整,让他的面部表情甚至嘴形都能够与讲话的内容相匹配。整段视频看起来没有丝毫的违和感。
制作这段视频的初衷是向人们发出警告:Deepfake内容很快就会走进我们的日常生活。果不其然,同年,网络上就出现了一些以著名女明星为主角的“虚假色情片”:有人用制造Deepfake的工具把色情片女主角的脸替换成了当红女明星的脸,直接引发了众怒,美国政府甚至不得不出台新的法律明令禁止这种行为,不过类似的情况还是屡禁不止。
2019年,一款全新的App在中国横空出世。这款App能够帮助用户实现他们的“电影梦”:在短短的几分钟内,用户只要使用这款App进行自拍,就能收获一段专属视频——在指定的电影片段之中,用户的脸会替换男女主角的脸,并随着剧情的变化做出相应的表情和反应。我也试着过了一把明星瘾(替换周润发),只不过新生成的视频仍然保留了电影的原声。不过,这也降低了App的开发难度。
2021年,一款名为Avatarify的App连续问鼎苹果App Store免费下载榜单Top 1。这款App的功能是让用户上传的照片“动起来”——用户可以操纵照片中人物的表情,例如,香港歌坛“四大天王”与“还珠格格”共唱洗脑歌曲《蚂蚁呀嘿》。我也只花了几秒钟,就让自己过去出版的书的封面肖像唱了一段英文老歌Only You,效果非常“魔性”。
Deepfake似乎在一夜之间就火爆了起来。任何人都可以用它制作一段“假”视频,虽然视频的质量可能比较业余,会让人看出端倪,可是这并不妨碍Deepfake的流行与普及。
但换个角度来考虑,这也意味着,在我们的世界里,未来的所有数字信息都有被伪造的可能。无论是线上的视频、录音,还是安保摄像头拍摄的画面,甚至法庭上的视频证据,都有可能是假的。
在《假面神祇》这个故事中,阿玛卡使用的Deepfake制造工具,比皮尔在2018年使用的要先进得多,所制作出来的视频不仅更加成熟、质量更高,而且天衣无缝到连人类的肉眼或者普通的防伪检测器都看不出任何问题。
阿玛卡利用软件工具,把自己希望“雷波”说的文本,通过语音合成系统转化成与雷波本人的声音高度相似的语音。接下来,再经过AI算法合成雷波的面部表情和口型,让“雷波”在说这段话时自然流畅。下一步,把合成的“雷波”的脸与FAKA的身体叠加在之前处理过的视频中,确保手、脚、颈部等重点部位能够以假乱真,在呼吸节奏、关节连接处等细节上也力求无懈可击。
除这种基于视频的Deepfake换脸方式外,还有一种换脸方法——三维建模,这种方法与3D动画片《玩具总动员》的制作过程类似。三维建模属于计算机科学分支之一——计算机图形学的研究范畴,这是一门使用数学算法对一切事物进行建模的学科,哪怕是像头发、微风、阳光、阴影一样细微的事物,也要有相应的数学模型。三维建模方法的优点在于,人们的创作自由度较高,可以随心所欲地创建各种物体,并操纵这个物体去做各种事情。但相应地,这种方法的缺点是计算复杂程度更高,对算力的要求也更大。
2022年的电脑速度做出的三维建模的水平还不能达标,完全无法骗过人类的眼睛(这也是为什么动画电影中的人物看起来不那么真实),更别说通过防伪检测器的验证了。不过,到了2042年,人类也许会成功构建出具有高度真实感的三维模型,我们将在本书后面的故事《双雀》和《偶像之死》中看到三维建模的应用。
大部分人可能会出于好玩、恶搞的心理去伪造一些视频,但肯定也有人会出于恶意去制造和传播Deepfake视频,就像《假面神祇》中逼迫阿玛卡给FAKA换脸的齐。除了伪造传播性极广的谣言或假新闻,Deepfake还可能被有心之人用于伪造证据、敲诈勒索、骚扰、诽谤,更严重的还会操纵选举。
Deepfake到底是怎么实现的?AI技术如何检测一段视频的真伪?当Deepfake与反Deepfake双方产生对立时,哪一方会在这场竞争中取得胜利?要回答这些问题,我们需要先了解Deepfake背后的工作机制和原理。