联邦学习技术的历史很短。它本身就是随着数据保护要求而提出的一种新型的分布式机器学习技术。它旨在通过安全交换不可逆的信息(如模型参数或梯度更新),多方数据持有者(如手机、物联网设备等)可以协同训练模型而不分享数据。在解决用户隐私问题上,联邦学习相对于传统机器学习具有多种优势。联邦学习实现了数据的隔离,客户数据始终被保存在本地,从而满足了用户数据保护和安全的需求。这种机制保证了所有参与方的数据独立性,并且模型训练主要通过信息与模型参数的加密交换来实现一个全局模型。这种方式在保护数据的前提下,促进了参与方之间的公平合作和共赢。
从以上描述可以看出,联邦学习技术只是数据保护的一种具体实现技术,但是以联邦学习技术为核心的联邦学习系统又不仅仅需要考虑数据保护。联邦学习的分布式特点导致了联邦学习系统需要考虑如何让系统维持运行。传统的机器学习系统会收集用户的原始数据,由系统本身对原始数据进行处理和分析,最终得到所需要的全局模型。数据的拥有者(也就是用户)不需要贡献自己的计算能力。在没有考虑数据保护的情况下,用户的损失很小。而联邦学习中,用户发送的是自己训练的本地模型,这就需要用户贡献一定的计算资源。所以,如何吸引用户贡献自己的资源,以维持系统正常运行下去就成为亟待解决的问题。
一个常规的吸引用户的方法就是对用户发放激励。当然,不同的联邦学习系统有不同的特征。如果系统训练成的全局模型对系统内的用户都有用,而且全局模型带给用户的收益大于用户训练本地模型的成本,那么即使没有激励,系统也会吸引这类用户参与;如果全局模型对用户的作用不大,或者带来的收益比不上自己训练本地模型的成本,那么在没有激励的情况下,系统很难吸引用户。通常来讲,联邦学习激励机制的标准有两个。首先,要维护公平,训练本地模型的激励随着贡献的增加而增加;其次,从系统的角度来看,理性的系统会在吸引用户的基础上,尽量扩大自己的收益。
因为博弈论本身就建立在用户收益最大化基础上,所以基于博弈论的激励机制在联邦学习中有很多应用。如果系统需要尽量吸引计算能力高的用户,那么可以把训练过程抽象成一个反向拍卖模型。如果系统还需要高质量数据,那么训练过程可以被抽象成一个信号博弈模型。如果系统对用户计算能力方面没有要求,系统为了维护公平性按照用户的成本给用户分发激励,那么训练过程可以被抽象成一个VCG机制。如果系统只负责模型收集与发放,其本身不参与收益分配,用户的收益分配按照某种契约约定,那么用户分配全局模型收益的过程可以被抽象成一个合作博弈模型。分析一个学习系统最终的状态,又需要演化博弈。
从用户的角度来看,有不同的学习系统,包括联邦学习系统和集中式学习系统,大模型系统和小模型系统,等等。每个用户都有自己的特点,是否要加入系统、加入学习系统所获得的收益都不相同。所以,用户也需要一定的策略机制来指导自己的选择。如果用户的训练成本都是公开的,那么用户选择过程可以被抽象成完全信息博弈。用户即使加入了学习系统,也需要根据系统公布的激励来确定自己是否要贡献资源训练本地模型,那么用户的选择过程可以被抽象成完美信息博弈。如果用户之间是多次合作的,那么这个过程又可以被抽象成一个重复博弈。所以联邦学习和博弈论天然地具有契合性。