近年来,随着机器学习技术的发展和进步,人工智能已经从人类幻想逐步走入现实。无人车、无人机、无人配送、无人工厂……层出不穷的无人系统渐渐渗透到人类社会生活的各个方面,以更智能的姿态解放人类的双手,高效地辅助人类工作。我们在感叹人工智能带给我们便利的同时,也不禁会思考:模拟和延展人类智能的人工智能真的安全吗?
说到人与智能机器,我们很容易联想到科幻小说家艾萨克·阿西莫夫(Isaac Asimov)提出的机器人三大定律。第一定律,机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手旁观;第二定律,机器人必须服从人类给予它的命令,当该命令与第一定律冲突时例外;第三定律,机器人在不违反第一、第二定律的情况下要尽可能维持自己的生存。
威尔·史密斯(Will Smith)主演的电影《我,机器人》设定了在未来世界里,为人类服务的机器人拥有了自主意识,并对抗人类的情景。Quantic Dream公司开发的大作《底特律:成为人类》更是通过游戏,带领玩家身临其境地探讨未来的机器人伦理道德问题。虽然现今人工智能技术尚未达到电影、游戏中演绎的水平,但人工智能系统的安全问题已经引起了人类越来越多的思考和关注。
人工智能系统的安全性主要有三个维度:首先是规范性,主要指一个人工智能系统的主要用途及使用这个系统的原因;其次是鲁棒性(Robust的音译),主要指该人工智能系统抗干扰/攻击的能力,在面对不同程度的干扰时,该人工智能系统是否依然能够做出正确的决策;最后是保证性,主要指对人工智能系统的活动进行不同层面的监控,保证其按照正常逻辑进行。以上三个维度从不同的层面和角度对人工智能系统的安全性进行了定义和约束。
目前,人工智能安全方面的研究主要集中在对人工智能算法的攻击和防御方面。以计算机视觉图像识别为例,我们向人工智能系统输入一张图像,希望系统能够准确告诉我们图像里的物体是什么。流行的人工智能算法(例如深度神经网络算法)在很多图像识别任务上取得了很好的识别效果,但是,研究发现,如果适当改变图像的内容,那么之前具有高准确率的人工智能系统就会产生错误的判断。例如,在一个“Stop”指示牌的图片上添加不同形式的干扰(如污渍、水迹、积雪等),人工智能系统就错误地认为这张图片里的物体是足球而不是指示牌 [3] 。
图片上的污渍和水迹等干扰虽然能够骗过人工智能系统,却无法骗过人类。但是,通过算法添加的另外一些人眼无法识别的干扰,却可以同时骗过人工智能系统和人类。如图1-6所示,图(a)是一张金鱼图像,通过算法添加干扰信息[图(b)]后产生图(c)。为了方便显示,图(b)放大了干扰量,实际的干扰量要小很多,干扰后得到的图(c)和图(a)的金鱼图像在人类的眼中几乎没有差别,但是人工智能系统却认为图(c)不再是金鱼图像,而是与之相差甚远的牛车图像,类似于图(c)这样的图像通常被称为对抗样本(adversarial sample)。
●图1-6 对抗样本攻击
(a)金鱼;(b)干扰;(c)牛车。
答案是肯定的。目前最有效的一类方法就是将对抗样本加入人工智能系统的训练中,让人工智能系统能够正确识别这些对抗样本(图1-7);另一种方法则是让人工智能系统能检测输入的样本是否为对抗样本,如果是对抗样本,人工智能系统将不再识别样本中的内容。
●图1-7 对抗样本防御
针对人工智能系统安全性的攻击和防御是相互促进、螺旋式上升的关系,后续研究将围绕泛化性展开:一种攻击方法要能抵抗多种防御,适应各种不同数据;一种防御方法则追求能防御多种攻击并同时尽可能地减少模型在原始样本上的性能降低。
未来的人工智能将会不断发展进化,我们在科技创新的同时也要兼顾人工智能系统的安全保障,避免技术黑箱带来的风险。遵守相应的规章制度和法律法规,让人工智能能够真正安全无忧地造福人类。
胡晨旭
南方科技大学与悉尼科技大学联合培养博士生。研究方向包括多目标优化、文字检测识别、医学图像分析等,目前主要从事医疗领域智能攻击和防御方面的研究。
刘舒旗
南方科技大学访问学生,研究方向包括医学图像处理、计算机视觉中的对抗攻击与防御。
张建国
南方科技大学计算机科学与工程系教授,国家特聘专家,曾任英国邓迪大学计算机系终身教职(Reader),博士生导师。创造性地提出了纹理和目标物体识别的同一框架,被国际顶级学者广泛引用,多次获国际科研挑战赛第一名。担任包括国际权威期刊 IEEE Tran . MM 在内的4个期刊编委。已发表具较大学术影响力的文章90余篇,专著和编著图书各1部。两次获评国际著名会议最佳论文。研究方向包括计算机视觉、医学图像处理、机器学习和人工智能。