《联邦学习原理与算法》

1.1 联邦学习概述

本节将介绍联邦学习的背景与发展、联邦学习的定义与分类、联邦学习的相关法律法规与社区、展望与总结。

1.1.1 联邦学习的背景与发展

近年来兴起的人工智能浪潮对医疗、金融、教育等领域产生了深远的影响。从人脸识别到自动驾驶，再到已被普遍应用的精准营销，人工智能正逐步影响生活的方方面面。回顾人工智能的发展，我们可以看到探索的道路曲折起伏。20世纪六七十年代，由于当时科技条件的约束，人工智能的发展走入低谷；20世纪90年代，互联网技术的发展，加速了人工智能的创新研究。可以说每一次人工智能的发展都伴随着研究方法的突破，深度学习是近年来机器学习技术突破的重要代表之一。近年来，随着GPU、数据存储等硬件技术的发展，移动端、传感器等边缘设备为深度学习提供了海量的数据，这些都促进了大数据、云计算、互联网、物联网等技术的突破。

在大数据时代，由于缺少监管和完善的法律约束，在商业利益的驱动下，很容易出现对用户数据滥用的情况，一些隐私数据有意或者无意地被泄露，进而对用户乃至整个国家安全造成难以估量的危害。比如著名的“脸书剑桥分析公司丑闻”（Facebook-Cambridge Analytica Data Scandal），英国咨询公司剑桥分析在未经用户同意的情况下，获取数百万脸书用户的个人数据并用于广告业务。出于对个人隐私数据的安全考虑，不少国家和地区颁布了隐私和数据保护的条例和法规。这些法规的出台，明确了隐私保护的责任和义务，对个人隐私数据的保护起到一定的作用。除了法律条文的规定，技术层面的研究也随之兴起。联邦学习是为了解决数据孤岛问题而产生的，它支持在满足用户隐私保护、数据安全、数据保密和政府法规要求的前提下的联合机器学习模型。

联邦学习最早由谷歌兴趣小组提出，他们首次将联邦学习用于智能手机上的语言预测模型更新 ^[1] 。许多智能手机都存有私人数据，为了更新谷歌Gboard系统的输入预测模型，即谷歌的自动输入补全键盘系统，研究人员开发了一个联邦学习系统，以便定期更新智能手机上的语言模型。谷歌的Gboard系统用户能够得到建议输入查询，以及用户是否点击了建议输入的词。谷歌的Gboard系统单词预测模型可以不断改善、优化，不仅基于单部智能手机存储的数据，而且通过一种叫作 联邦平均 （Federated Averaging, FedAvg）的技术 ^[2] ，让所有智能手机的数据都能被利用，使该模型得以不断优化。而这一过程并不需要将智能手机上的数据传输到某个数据中心。也就是说，联邦平均并不需要将数据从任何边缘终端设备传输到一个中央服务器。通过联邦学习，每台移动设备（可以是智能手机或者平板计算机）上的模型将会被加密并上传到云端。最终，所有加密的模型会被聚合到一个加密的全局模型中，因此云端的服务器也不能获知每台设备的数据或者模型。在云端聚合后的模型仍然是加密的（例如，使用同态加密），之后会被下载到所有的移动终端设备上。在上述过程中，用户在每台设备上的个人数据并不会传给其他用户，也不会上传至云端。

1.1.2 联邦学习的定义与分类

联邦学习本质上是一种分布式机器学习技术，或新的机器学习框架。接下来从参与者持有的数据特征和使用场景两个角度对联邦学习进行分类。

1.根据数据特征和样本空间分类

根据不同的数据拥有者的数据特征与样本ID分布的重叠关系，可以将联邦学习划分为以下几类。

（1） 横向联邦学习

横向联邦学习（Horizontal Federated Learning，HFL），也被称为样本分区（Sample-Partitioned）的联邦学习。横向联邦学习适用于联邦学习参与方的数据有重叠的数据特征，即数据特征在参与方之间是对齐的，但是参与方拥有的数据样本是不同的。横向联邦学习限定各个联邦成员提供的数据具有相同的特征含义，以及相近的模型参数结构（如在异质联邦学习或者联邦多任务学习等场景下可能不同）。使用参数聚合的方式生成联邦模型。在推理过程中，联邦成员内可单独完成模型推理。横向联邦学习使得联邦模型能够学习多方数据特征，提升模型泛化能力。

（2） 纵向联邦学习

纵向联邦学习（Vertical Federated Learning，VFL），也被称为特征分区（Feature-Partitioned）的联邦学习。与横向联邦学习不同，纵向联邦学习限定各个联邦成员提供的数据集样本有足够大的交集，特征具有互补性，模型参数分别存放于对应的联邦成员内，并通过联邦梯度下降等技术进行优化。在推理过程中，联邦模型需要联合所有参与方一起使用，由各个参与方依据自身的特征值和参数算出中间变量，最终由标签拥有方或者可信第三方聚合中间变量获得结果。纵向联邦学习适合客群相近，但业务差别较大的场景。例如在风险评分应用中，可以使用纵向联邦学习从借贷历史、消费等不同维度帮助推理用户风险。在推理过程中，联邦成员需要合作完成模型推理。纵向联邦学习使得模型能够利用更多的数据特征，提升模型的准确度。

（3） 联邦迁移学习

联邦迁移学习（Federated Transfer Learning，FTL），适用于参与方的数据样本和数据特征重叠都很少的情况。联邦迁移学习是一种特殊的形式，既不限定数据集的特征含义相同，也不需要样本有交集，是一种在相似任务上传播知识的方法。例如A公司是一家视频服务提供商，需要提升广告推荐模型的效果。B公司是一家电商公司，需要提升商品推荐模型的效果。在这种情况下，可以使用联邦迁移学习，利用双方相似的用户浏览序列，抽取深层用户行为特征作为知识，在双方模型间共享和迁移，最终提升双方模型的效果。可以看到，两个联邦成员的输入数据的含义是不同的，客群是不同的（不需要找出相同样本），预测目标也是不同的。相同之处在于双方的业务均与用户的喜好和习惯有关，而这些喜好和习惯可以作为知识共享，降低了模型过拟合的可能性，从而提升了模型效果。

2.从使用场景分类

根据使用场景可以将联邦学习分为 跨竖井（跨孤岛）联邦学习 （Cross-Silo Federated Learning）和 跨设备联邦学习 （Cross-Device Federated Learning）。为了便于理解，本书将跨竖井（跨孤岛）联邦学习称为跨组织联邦学习。在其他文献中，联邦学习也被分为面向商业的联邦学习与面向用户的联邦学习。两种分类标准非常接近，可以认为是另一种形式的表达。跨组织联邦学习与跨设备联邦学习的主要区别体现在参与者数量、联邦参与者算力的多少，以及参与者是否能够稳定地参与每个回合的联邦学习（是否会离线）。两者的更多对比见表1-1。

表1-1 跨组织联邦学习与跨设备联邦学习的比较

（1）跨组织联邦学习

跨组织联邦学习也叫作跨孤岛、跨竖井联邦学习。联邦学习的参与者是不同的组织，例如医疗机构、金融机构，以及地理空间意义上的分布式数据中心。当数据分散在不同的但是数量有限的组织中，而且每个组织能提供稳定的学习环境时，称为跨组织联邦学习。这可能是对商业利益的考虑或者法律的限制。即使是一个公司的不同地区的分布，也可能受限于所在地的法律，禁止将数据传输到本地之外。多方风险预测、欺诈检测、医疗领域的药物发现、电子医疗记录挖掘，以及医疗图像分析将是跨组织联邦学习未来研究的主流热点。

（2）跨设备联邦学习

顾名思义，跨设备联邦学习将每一个连接设备视为独立个体，模型在设备上训练，得到能捕捉设备数据特征的模型，然后模型被传输到服务器进行全局模型的聚合。跨设备联邦学习系统中的设备可能会达到数万甚至数百万的规模（如谷歌公司的Gboard键盘、苹果公司的输入法和Siri语音识别功能等）。设备算力的受限和网络连接的不稳定是联邦学习的主要特征。因此跨设备联邦学习需要考虑系统的大规模部署、参与者频繁的连入与退出。需要设计专门的鲁棒、高效的模型聚合算法提升系统学习效率。

1.1.3 联邦学习的相关法规与社区

在享受科技带给人们便利的同时，数据滥用、数据窃取、隐私泄露，以及“大数据杀熟”等数据安全问题呈陡增和爆发趋势。加强法律法规的建设成为各国和地区的共识。如欧盟保护个人数据的《通用数据保护条例》（General Data Protection Regulation，GDPR）；美国的《加利福尼亚州消费者隐私法案》（California Consumer Privacy Act，CCPA）；我国实施的《中华人民共和国网络安全法》（简称《网络安全法》）。这些法规的出台，大大增加了数据保护的强制性和责任性。了解这些法律法规，对于更好地推进我们的工作，有着极其重要的意义。下面从国外和国内法律法规两个角度进行介绍。

（1）国外相关法规

国外的法规对国内的企业在该国境内的数据处理以及数据的传输，同样有法律影响和效力。欧盟于2018年5月25日正式实施了《通用数据保护条例》(General Data Protection Regulation,GDPR)，它是一项保护欧盟公民个人隐私和数据的法律，其适用范围包括欧盟成员国境内企业的个人数据，也包括欧盟境外企业处理欧盟公民的个人数据。GDPR由11章99个条款组成，是一项“大而全”的个人数据保护框架，因此非常值得深入研究。美国已有多个州在数据安全与隐私保护上进行了立法，其中最著名的要数2018年6月加利福尼亚州通过的《加利福尼亚州消费者隐私法案》(California Consumer Privacy Act，CCPA)，该法案被称为美国“最严厉和最全面的个人隐私保护法案”，于2020年1月1日生效。

（2）国内相关法规

我国在数据安全与个人信息上目前涉及的法规有《中华人民共和国刑法》（以下简称《刑法》）、《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》（以下简称《若干问题的解释》）、《中华人民共和国网络安全法》和《电信和互联网用户个人信息保护规定》。2019年5月28日，国家互联网信息办公室发布《数据安全管理办法》（征求意见稿）。在《网络安全法》的指导下，该法规对数据安全做了详细的规定和约束。它明确法规的管理范围是在中华人民共和国境内利用网络开展数据收集、存储、传输、处理、使用等活动，数据安全分为个人信息和重要数据安全。

这些法律法规对于个人信息的定义、个人信息的正确使用方法、消费者知情权、访问权、删除权、限制处理权和拒绝权等权利，以及如何处理违规企业等方面进行了明确的规定。随着科技的发展，未来一定会暴露出更多用户安全的问题。与此同时，相关的法律法规也会更加完善。

联邦学习是人工智能非常活跃的研究领域。每年有大量的论文发表，人工智能、分布式系统等领域的顶级会议也越来越多地接受联邦学习相关工作，并组织相关研讨会（Work-shops）。谷歌在2016年提出了联邦学习的概念，以隐私保护、协作式学习的特点吸引了大量研究者的关注。各种联邦社区平台也如雨后春笋般发展起来。读者可以从联邦学习门户网站了解相关信息，该网站不仅仅包含联邦学习的各种资料、课程，还有相关的会议、期刊特刊的实时信息。另外产业界也纷纷行动，例如国外的网站有：谷歌推出的Tensorflow-Fed-erated ，美国南加州大学开发的FedML ，由欧洲机构主导开发的OpenMined推出的PySyft 。国内新老科技企业也纷纷布局联邦学习，如百度的PaddleFL ，腾讯和微众出品的FATE ，京东的FedLearn ，还有字节跳动的Fedlearner 。从这些社区平台上，人们可以和行业的引领者对话，了解联邦学习的发展动态和热点，为自己在科研界或者学术界的方向选择或项目确立提供了重要的信息支持。

1.1.4 展望与总结

联邦学习技术是在社会、国家日益重视数据要素流通、数据安全与隐私计算的背景之下提出与发展起来的。2021年7月，国家互联网信息办公室发布《网络安全审查办法（修订草案征求意见稿）》，面向全社会公开征求意见。这份征求意见稿的第6个条款明确指出，掌握超过100万个用户个人信息的运营者赴国外上市，必须向网络安全审查办公室申报网络安全审查。这份文件体现出我国对网络安全的重视，对数据控制权、关键数据的保护。

联邦学习提供了一个有效的解决框架，使得在利用多方数据提升模型的同时，也能保护用户隐私与信息安全。通过不同计算节点之间的参数传递（包括梯度、权重与激活等信号），联邦学习能够训练出比单节点数据计算出的模型更好的准确率，以及鲁棒性，并且通过联邦学习，数据不需要离开数据生产者。

最近一个明显的趋势就是与联邦学习这一新兴领域相关的专业会议，以及研讨会文章较往年明显增多。随着各界对联邦学习研究的更多投入，联邦学习框架的内涵正变得越来越丰富，它将融合分布式机器学习、信息安全、加密算法、差分隐私、模型压缩与加速、贝叶斯方法、博弈论等不同领域的知识，形成一个崭新的研究方向。由于其在信用卡反诈、医疗诊断等方面的隐私保护性，联邦学习算法在更大规模的商业实用上有更强大的内驱动力。与此同时，联邦学习生态也在进一步完善之中。2021年3月，世界首个联邦学习的国际标准经IEEE确认，并形成标准文件IEEE P3652.1。在国内，微众银行、百度、京东、字节跳动都在布局隐私计算、联邦学习框架开发，以及应用落地。这些都是我们通过本书向读者分享联邦学习的出发点与落脚点。

本书以实际应用为导向，系统地介绍了联邦学习。包括现有开源项目、基本学习框架、横向联邦学习、纵向联邦学习和分割学习。重点介绍了联邦学习的三个挑战，也是当前的瓶颈，包括性能挑战、效率挑战与安全隐私挑战。我们分析了挑战形成的原因，以及当前解决这些挑战的主流算法与研究方向。还介绍了与增强联邦学习的安全性有关的一些隐私保护机器学习技术。这些技术与联邦学习相辅相成，用户可在实际中根据系统的需求自行定制。联邦学习正在被广泛应用于不同的技术领域。本书通过计算机视觉与推荐系统的例子，向读者介绍了在这些领域的实战案例。当前联邦学习的主要研究对象是监督学习。在现实中，标记数据的缺乏，如何通过多任务学习增强联邦学习效果，如何在强化学习、图学习领域高效实现联邦学习，也是本书讨论的重点。除了从技术、内容的领域探讨联邦学习，我们也从行业的角度来研究联邦学习在医疗、金融等领域的应用场景。

书中丰富的引用与算法实例能够帮助读者更好地掌握联邦学习。希望通过我们的努力，使这本书能给联邦学习的研究人员、从业者有所帮助。