联邦学习最新章节_杨强著

1.1　人工智能面临的挑战

在过去几年里，我们见证了机器学习（Machine Learning，ML）在人工智能（Artificial Intelligence，AI）应用领域中的迅猛发展，例如计算机视觉、自动语音识别、自然语言处理以及推荐系统等 ^[4-6] 。这些机器学习技术的成功，尤其是深度学习，无一不是建立在大量的数据（亦称大数据）基础之上的 ^[4，5，7] 。通过使用这些大数据，深度学习系统能够在许多领域执行人类难以完成的任务。例如，由数百万张图像训练得到的深度学习人脸识别系统，能够达到应用领域所需级别的人脸识别准确度。这些系统的训练都需要很大的数据量才能达到一个令人满意的性能水平，例如Facebook公司的目标检测系统是由来自Instagram的3.5亿张图像训练得到的 ^[8] 。

一般而言，训练人工智能应用模型所需要的数据量都是非常庞大的。然而，在许多应用领域，人们发现满足这样规模的数据量是难以甚至无法达到的。事实上，我们能够获得的通常都是“小数据”，即这些数据要么规模较小，要么缺少标签或者部分特征数值等重要信息。为了得到合适的数据标签（label），通常需要该领域专家付诸大量的工作。例如，对于医疗图像分析，医生们常被雇用来为患者的器官扫描图像提供专业诊断，这一过程无疑是枯燥且十分费时的。因此，高质量、大数量的训练数据通常是很难获得的，我们不得不面对难以桥接的数据孤岛。

随着社会的不断发展，现代社会正在逐渐意识到数据所有权的重要性，即什么人或者组织能拥有和使用数据建立人工智能技术应用的权力。在一个人工智能驱动的产品推荐服务中，服务的拥有者一般会要求获取产品数据和购买记录数据的拥有权，但关于用户购买行为和支付习惯的数据拥有权是不明确的。由于数据是由不同组织的不同部门产生并拥有的，传统的方法是收集数据并传输至一个中心点（例如，一个数据中心），这个中心点拥有高性能的计算集群并且能够训练和建立机器学习模型。然而，这种方法近来已经不再有效或适用了。

随着人工智能在各行各业的应用落地，人们对于用户隐私和数据保安全的关注度也在不断提高。用户开始更加关注他们的隐私信息是否未经自己许可，便被他人出于商业或者政治目的而利用，甚至滥用。最近有许多互联网企业由于泄露用户数据给商业机构而被重罚。此外，垃圾邮件制作者和不法的数据交易也常常被曝光和处罚。

在法律层面，法规制定者和监管机构正在考虑出台新的法律来规范数据的管理和使用。一个典型的例子便是2018年欧盟开始执行的《通用数据保护条例》（General Data Protection Regulation，GDPR） ^[9] 。在美国，《加利福尼亚州消费者隐私法》（California Consumer Privacy Act，CCPA）于2020年1月在加利福尼亚州正式生效 ^[10] 。此外，中国的《中华人民共和国民法通则》以及2017年开始实施的《中华人民共和国网络安全法》同样对数据的收集和处理提出了严格的约束和控制要求。附录A将会给出更多关于这些新的数据保护法律和法规的信息。

在这样的法律环境下，随着时间的推移，我们在不同组织间收集和分享数据将会变得越来越困难。更加重要的是，某些高度敏感的数据（例如，金融交易数据和医疗健康数据等）的拥有者也会极力反对无限制地计算和使用这些数据。在这种情况下，数据拥有者只允许这些数据保存在自己手中，进而会形成各自孤立的数据孤岛 ^[1] 。由于行业竞争、用户隐私、数据安全和复杂的管理规程等，甚至在同一家公司的不同部门之间，数据整合都会遇到很大的阻力。与此同时，高昂的成本也导致在不同机构之间聚合分散的数据显得十分困难 ^[11] 。现在看来，以往的隐私侵入方式的数据收集和共享方法已经属于非法行为，所以未来在不同组织之间进行数据的整合工作将是十分有挑战性的。

如何在遵守更加严格的、新的隐私保护条例的前提下，解决数据碎片化和数据隔离的问题，是当前人工智能研究者和实践者面临的首要挑战。倘若不能很好地解决这个问题，将会很可能导致新一轮的人工智能的寒冬 ^[1] 。

人工智能产业面临数据困境的另一个原因是，各方协同分享处理大数据的益处并不明显。假设有两个组织试图将各自的医学数据联合起来，协同训练一个联合机器学习模型。对于从一个组织向另一个组织传输数据，传统方法将会导致数据的原始拥有者失去对自己数据的掌控。而一旦数据不在自己手中，其利用价值便会大幅减小。而且，虽然将数据整合起来训练得到的模型性能会更好，但是整合带来的性能增益是如何在参与方中分配的也不能完全确定。人们对于数据失去掌控的担忧，以及对于增益分配效果的不透明，加剧了所谓数据碎片化和孤岛分布的严重性。

随着物联网和边缘计算的兴起，大数据往往不会拘泥于单一的整体，而是分布在许多方面。例如，人们不能期望拍摄地球影像的卫星可以将所有数据传输回地面数据中心，因为这样所需的传输带宽太大。同样，对于自动驾驶汽车，每辆汽车必须能够在本地使用机器学习模型处理大量信息，同时需要在全球范围内与其他汽车和计算中心协同工作。如何安全且有效地实现模型在多个地点间的更新和共享，是当前各类计算方法所面临的新挑战。

1.1 人工智能面临的挑战

1.1　人工智能面临的挑战