购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

眼见一定为实吗

〇程璞金 唐晓颖

随着大数据的快速发展,人们可以随时随地从互联网中获取通过图像或视频的方式呈现的大量数据。与文字相比,这些图片和视频形象地再现了各种场景。然而,我们看到的图片和视频是真实存在的吗?生成对抗网络(generative adversarial network,GAN)告诉我们,眼见不一定为实。

最近几年,人工智能(artificial intelligence,AI)以卷积神经网络(convolutional neural networks,CNN)为代表的一系列方法,在计算机视觉领域大放异彩。卷积是一种通用的图像局部操作方法,可对图像的细节进行不同程度的学习和提取。它模仿人类的视觉神经结构,通过控制CNN系统中大量的神经元,基于大规模的图像学习,使不同神经元各司其职,以捕捉目标图像的不同特征,然后将原始图像信息,通过算法存储到隐空间(latent space),进而完成图像分类(图2-5)。

了解了CNN网络进行图像分类的过程后,我们不禁思考如果CNN网络很智能,我们就可从隐空间存储的信息开始,利用神经网络系统,把每个神经元已经学习到的图像特征,如拼拼图一样,重新构建出原始图像。

在此过程中,如果信息没有丢失,那么我们可以完美恢复原始图像。但恢复的图像能与原始图像一样吗?在拼图过程中,我们经常会丢失一些小图片,或者某些小图片被墨水弄脏,这样拼出的图可能不完美,甚至发生某些小图片被拼错位置的现象。若新图像和原始图像不完全一致,我们就可以认为这是一幅新图像。

图2-5 将神经网络运用于图像分类任务和通过神经网络逆向重构图像

理论上讲,只要我们的神经元对图像特征做好分解(用剪刀把一幅画分成很多块),信息没有冗余(没有特征相同的碎片),也没有丢失,从隐空间重构图像就不困难。但实际情况并非如此,神经网络中神经元会有冗余信息,特征信息也会被丢失。

为了解决这两个问题,GAN出现了。GAN巧妙地避免了传统神经网络中特征信息不匹配的问题——与其从一堆碎纸片(无法解耦的特征)中“拼回原图”,不如“从零”开始,在空白的纸上“绘画”。基于此,GAN的输入不再是经过神经网络提取的隐空间向量(“碎纸片”),而是更加平滑的高斯噪声(“空白的纸”)。

然而,以上都是小问题,这个任务的难点是,如何监督这样一个逆向过程呢?尽管我们有一张新的白纸,但我们仍然不知道如何画出与原图像一样的图像。为了监督这个过程,GAN创新性地采用了博弈算法,也就是引入全新的生成器-辨别器机制。生成器负责将隐向量从隐空间映射回图片域(即“绘画”过程),辨别器负责辨别生成器生成的图片和真实存在的图片。

如果把生成器比作仿造假画的违法分子,辨别器就好比鉴定假画的鉴定大师,生成器努力画出更逼真的假画,辨别器负责识破该赝品的不足。举个例子,某一批假画可能画风更加偏向卡通,辨别器识破这个特征,可以在大量画作中定位假画;生成器收到反馈后,下一批假画将会修正卡通画风问题,辨别器则将继续找出下一类假画,以此迭代,直至生成器生成的假画成功骗过辨别器。放到GAN的任务中,即代表生成器生成的图片与真实图片相差无几,此时,GAN已经生成了以假乱真的图像。

GAN的特点是无须任何数据先验。给定任意数据,在数据量足够的情况下,通过生成器和辨别器的博弈(图2-6),即可生成新数据。然而,由于GAN的输入是从标准正态分布隐空间中随机采样的,生成方向不可控。如果我们希望设定生成器生成“猫”,那么传统的GAN就无法满足需求。那是否能在随机采样时,加入希望生成的方向信息呢?

图2-6 生成器和辨别器之间的博弈

为了生成符合固定特征的图像,科学家们对GAN进行了改良。条件生成对抗网络(conditional generative adversarial network,CGAN)是一种改良过的生成对抗网络,通过将输入的随机隐向量(随机噪声)和额外信息结合,从而约束生成器生成的内容。与原始的GAN不同,CGAN的输入不仅包括随机采样的隐向量,还包括额外信息的生成。我们可以传入“猫”的标签控制生成器仅生成“猫”的图片,抑或是传入一张特定图片,实现该图片的风格迁移,如图2-7所示。

图2-7 条件生成对抗网络

如今,生成对抗网络家族已经枝繁叶茂,其职责也从最初的数据生成,扩展到风格迁移、人脸配对、视频换脸等。生成的图片从开始的低分辨率图片转变为上千dpi分辨率的高清图片。所以,在生成对抗网络的支持下,只要提供风景照,就能足不出户生成专属于你的游客观光照。

一切看上去十分美好,但是,GAN快速发展带来的伦理道德问题也让人担忧。例如,Deepfake(深度伪造)等技术逐渐被不法分子用于各类犯罪活动和虚假新闻,摆在公众眼前的将是栩栩如生却又毫无根据的图像和视频,人们获取信息的手段越来越丰富,但是信息的真实度却逐渐下降,人类和AI之间的博弈,何尝不像是宏观的生成对抗网络中生成器与辨别器之间的博弈呢?

同学们,你们可以识别出图2-8中的哪些猫是真实的,哪些是用GAN技术生成的吗?图片中的猫是不是栩栩如生,无从分辨?所以,你感受到GAN技术的强大了吗?

图2-8 真实猫图片和由GAN生成的虚假猫图片

作者介绍

程璞金

南方科技大学电子与电气工程系2020级研究生,导师为唐晓颖老师,本科毕业于南方科技大学计算机科学与工程系,研究方向为医疗图像分析、图像质量增强和评估。

唐晓颖

博士,南方科技大学助理教授、博士生导师,美国约翰霍普金斯大学电气与计算机工程系客座教授,美国卡内基梅隆大学电气与计算机工程系客座教授。研究领域为医学图像分析、人工智能等。国家自然科学基金面上项目及青年项目负责人,国家重点研发专项课题负责人,深圳市基础研究面上项目负责人。MICCAI、IEEE ISBI领域主席。 Ph9QrK9/ocoNLqaMk7QaEm5abEvx+1R+qsPyBv9A1DJcM+IbxSn0bOtP2DldfOP/

点击中间区域
呼出菜单
上一章
目录
下一章
×