购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 联邦学习的发展背景和历程

在互联网产业兴起的过程中,特别是在移动互联网主导大众生活的今天,大数据(Big Data)技术和人工智能(AI)已经在广泛的应用场景中获得了巨大的成功,并极大地影响甚至改变了大众的工作和生活模式。然而,大数据和人工智能的应用依然面临着众多问题,其中包括两个棘手的挑战:一个是数据在多数行业和场景中并不连通,仍以“孤岛”的形式存在,在使用层面存在着重重障碍;另一个是数据带来了对用户隐私的威胁,数据应用的用户隐私安全性成为技术应用必须满足的前提。为了解决这些问题,多种基于不同技术路线的解决方案被提出,并开始被尝试应用在包括金融科技在内的实际场景中。其中一种被普遍看好的解决方案—“联邦学习”,自提出后已经快速发展成为人工智能的热门研究领域,并在金融科技行业中开始了实际应用,引起了金融机构极大的关注。

下面简要回顾联邦学习从萌芽到扩展的发展史,并介绍学术界给出的联邦学习定义,以及在应用实践中联邦学习体系结构,希望让读者对联邦学习有全面而明晰的了解,认识到联邦学习是一种基于联邦机制为数据提供方进行数据联合、共享数据价值的解决方案,并理解其在保证用户数据安全和个人隐私信息上的有效性和可行性。

2016年,谷歌公司旗下DeepMind的AlphaGo击败了顶尖的人类围棋职业选手。从专业的从业者到普通大众,都看到了人工智能令人难以置信的威力和引人遐想的潜力。人们开始期待,在自动驾驶汽车、生物医学工程、医疗诊断、药物筛选和开发、金融科技等更多应用中,使用人工智能技术带来用户体验的大幅提升和场景革命。在过去的几年中,人工智能技术已经在众多行业和场景中展现出了自己的优势和威力。但是,在人工智能的发展史中,最突出的一个特点就是半个多世纪的人工智能发展经历了多次高峰和低谷。这一次人工智能的热潮会不会又紧连着低谷呢?

不难发现,大数据的爆发式兴起和发展直接催生了当前这轮人工智能的浪潮。2016年,AlphaGo在30万盘人类对局棋谱的基础上训练模型,取得了惊人的成绩。随后出现的具有突破性意义的AlphaGo Zero,也是建立在数以百万计的自我对弈基础上的。人们期待人工智能在生产和生活中的应用也自然是由数据驱动的。但是,实际上行业和应用中的数据情况还不能令人满意。数据通常都十分有限,而且数据质量堪忧,难以使用。这些都让人工智能技术的应用落地充满挑战,远比人们期待的情形多出许多困难,需要完成难以实现的海量额外工作。那么通过多方联合以数据传输的方式将数据融合到一起是不是一种可能的解决方案呢?在实践中并没有这么简单,要打破各方之间数据上的壁垒解决“数据孤岛”问题通常都无比困难。在人工智能实践落地项目中,常常涉及多种不同类型的数据。以和大众生活最直接相关的产品智能推荐服务场景为例,产品销售方(涉及常说的电商甚至新零售)掌握相应产品的属性信息,通过渠道上的数据采集,收集用户浏览、购买等行为数据。然而企业还会进一步尝试使用与用户购买能力评价和用户消费习惯相关的画像数据。在大多数行业中,数据分散储存在各个不同的企业中,从物理上都被隔离了。在实践中,除了基于同业竞争和隐私安全合规的考量,由于企业内部复杂的架构和管理流程,甚至在同一个法人企业的不同条线或者部门之间,数据联合使用的阻力也是无比巨大的,常常有无形的隔阂使其难以顺利落地。

从数据制造者的角度来看,作为大数据和人工智能应用受益者的个人用户,特别是在无孔不入的数据应用的“打扰”下,对个人数据安全和个人信息保护的意识不断提高。立法机关、政府部门对数据安全和个人隐私保护的重视程度不断提高,相关的立法和监管已成为全球性趋势。随着社会对大数据的关注,与数据泄露隐私有关的事件引起了媒体广泛报道,在大众中引发了巨大反响,政府监管部门也高度重视。2016年,在美国大选过程中,一家名为剑桥数据的公司,以不正当的方式获取Facebook用户授权,进而以隐秘的方式收集数据,并将其应用于服务对象,让世界震惊。面对这一复杂的局面,各国的立法机关和政府部门都在加强数据安全和用户个人隐私保护的监管并立法。欧盟于2018年5月25日颁布并实施了《通用数据保护条例》(GDPR),成为全球在立法层面的先行者。GDPR明确要求企业在阐述用户协议时必须使用清晰、易懂的语言,协议必须赋予用户“被遗忘的权利”,即用户可以随时撤回对企业使用与自己相关的个人数据的使用授权,要求企业删除与用户自己相关的个人数据。任何商业机构如果有违反该法案的行为,欧盟都将对其处以严厉惩罚和巨额罚款。在欧盟之外,中国也正在制定和出台数据安全和个人信息保护方面的法律。2017年施行的《中华人民共和国网络安全法》、2019年发布的《数据安全管理办法(征求意见稿)》、2020年发布的《中华人民共和国个人信息保护法(草案)》都针对提供数据相关应用的业务方,提出了数据安全和个人信息保护方面的原则性要求,并且在利用数据与第三方进行相关合作时,也需要确保遵守法律,保护用户的隐私,合法合规地使用数据。这些都使得数据联合使用对人工智能的推动受到极大的限制,给充分进行数据融合带来了新的挑战。

从落地应用的层面来看,传统的基于数据联合的人工智能,常常采用简单的数据交互模式。各个数据提供方收集各自的数据,然后基于要联合使用的目的,协商统一寻找出有中立立场的第三方提供服务。多个数据提供方将数据传输给第三方,第三方负责整理和融合各方的数据。作为中立角色的第三方按照数据提供方的意愿和目标,利用集成后的数据,构建并训练得到模型,再组织成相应服务,提供给有需求的各方使用。人工智能的应用通常以模型服务的形式提供,合作方可以以灵活的方式完成商务合作。这种传统模式显然不能满足上述与数据相关的法律法规和监管的要求。从用户的角度来看,他们事先不能被告知数据的用途、建模的目的和模型的用途,因此这种模式更直接地违反了GDPR及有同类型条款的法律。在大数据和人工智能的应用实践中面临着一个两难的局面,一方面被割裂开的数据以“孤岛”形式存在,另一方面在不同的地方收集的数据很难自由融合并交由第三方进行人工智能处理,这样的行为在大多数情况下都被禁止。如何合法合规地使用被隔离的数据是大数据和人工智能应用实践最急需解决的问题。

为了解决这样的问题,联邦学习(Federated Learning,FL)的概念在谷歌的McMahan等人2016年的工作中最早被提出 [1] 。他们的工作就是利用分布在多个设备上的数据,联合构建机器学习模型,而又不泄露设备上的数据。这项工作主要处理移动设备上的联合学习问题,针对分布式移动终端上用户的数据交互模式,引入隐私保护的方法,防止数据泄露。在解决方案中,需要考虑的主要是隐私保护技术带来的大规模分布式通信的成本优化、数据分配的负载平衡,以及设备可靠性带来的方案安全性等一系列问题。后续改进工作也针对这些方面展开。之后改进工作的方向,还包括针对各种数据联合场景进行统计量的计算、在不同的合作模式假设下安全的联合学习设计,以及联邦学习在个性化推荐和本地个性化设置中展开。

在联邦学习的概念诞生后,联邦学习主要应用在移动终端上。在这一模式发展的同时,强烈的数据融合建模需求,驱动了将联邦学习扩展到其他场景和合作模式上,涌现了一批新的方法和工作,例如在多个数据提供方间通过特征联合进行模型训练。在这个场景中,数据在特征中通常以用户ID或设备ID按横向分割进行划分。这就导致这里涉及的隐私保护更加重要和关键。这里涉及的技术与传统安全意义下的隐私保护机器学习有着紧密的关系,主要考量在分布式的学习环境中,如何实现数据安全和隐私保护。在应用实践中,联邦学习的概念被扩展到跨组织的协作学习中,同时按照数据提供形式的变化,原始的“联邦学习”被扩充成所有“带有隐私保护机制的分布式机器学习”的通用概念。2019年,香港科技大学的杨强教授及其合作者提出了“联邦学习”的一般定义 [2]

定义 个数据所有者 ,他们都希望通过合并各自的数据集 来训练机器学习模型。一种常规方法是将所有数据放在一起,并使用 来训练模型 。联邦学习是一种学习过程,数据所有者共同训练一个模型 。在该过程中,任何数据所有者 都不会将其数据 暴露给其他人。在学习的过程中, 的准确性(表示为 )应该非常接近 的准确性 的性能。令 为非负实数,如果有 ,那么称联邦学习算法有 -acc级的损失。

隐私保护是联邦学习最基本和最重要的性质,这就需要从理论到实践全面实现。关于隐私保护的研究工作要早于联邦学习定义的出现。来自密码学、数据库、机器学习等方向的众多专家和学者的研究团队,长期以来一直追求的目标是,在不暴露明细级数据的情况下,在多个数据提供者之间实现数据联合分析和建模。从20世纪70年代末开始,人们就研究利用计算机加密数据的方法,Rivest等 [3] 和Yao [4] 的工作就是其中的代表。Agrawal、Srikant [5] 及Vaidya等 [6] 研究隐私保护下的数据挖掘和机器学习,成为这个方向最早的研究者。这些工作利用中立的第三方中央服务器,在保护数据隐私的同时,利用本地数据进行特定方法的机器学习。事实上,即使联邦学习一词出现并引发相应算法和软件应用的兴起,任何一项算法和技术也不能解决数据联合需求中的全部挑战。“联邦学习”其实是在隐私保护约束下一系列特征数据面临的挑战问题的统称。这些关于数据特征的隐私保护约束下的一系列挑战问题,常常还在隐私敏感的分散式数据的应用机器学习问题中同时出现。

由此,联邦学习涉及的问题,本质上是跨学科的综合问题。这些困难的解决不仅涉及机器学习算法,还涉及分布式优化、密码学、数据安全和差分隐私、数据伦理、信息论和压缩感知、统计学等方面的理论与技术。棘手的问题常常都集中在这些领域的交汇处,需要多学科、多方向的合作,这对数据联合应用、持续挖掘数据价值至关重要。关于联邦学习的研究和应用实践突破,常常是将来自这些学科领域方向的技术进行创新组合。这带来了问题解决的全新思路和视角,既提供了可能性,也带来了新的挑战。

下面简要介绍可用于联邦学习的不同隐私保护技术路线的情况和适用场景,并介绍间接泄露数据的风险,以及解决方法和潜在挑战。

● 安全多方计算(Secure Multi-party Computation,SMPC)。SMPC技术包含多个数据提供方和计算参与方,在有明确定义的安全意义下,可提供技术安全的证明,并可以证明能够保证完全零知识。也就是说,每个参与方只知道其自身的输入和输出,对其他信息完全无法知道。这种零知识属性对数据安全确实是非常重要的,但是这种属性的实现,通常需要使用非常复杂的计算协议,事实上在工程实践中很可能无法真正有效实现。在某些特别的情况下,如果能够提供额外的安全保证机制,可以接受部分知识公开,就可以在较低的安全性要求下用SMPC技术建立相应安全级别的模型,以此来获得实际可用的效率 [7] 。Mohassel和Zhang在SMPC技术相应框架下基于半诚实假设联合两个参与方训练了机器学习模型 [8] 。Kilbertus使用SMPC技术进行模型训练和验证,而无须提供明细级的敏感数据。Sharemind(Bogdanov等 [9] )被认为是目前最先进的SMPC技术框架之一。Mohassel和Rindal提出了一个基于诚实多数的三参与方模型 [10~13] ,并分别考查了在只有半诚实假设和存在恶意参与方情况下的安全性。在这些工作中,参与方的数据及相应的计算需要在非冲突服务器之间进行秘密共享操作。

● 差分隐私(Differential Privacy,DP)。联邦学习中另一种常用的技术路线是使用差分隐私 [14] 或K-匿名 [15] 技术来实现数据隐私保护 [16,17] 。差分隐私、K-匿名及组合多样化的方法 [5] 会在数据上添加噪声,或者使用归纳方法掩盖数据的某些敏感属性,直到第三方无法区分单条数据的影响为止,从而使数据无法恢复,实现用户隐私保护。当然,从实际操作层面来看,这些方法本质上仍然需要将数据传输到其他参与方,并且这些工作通常还需要在准确性和隐私之间进行平衡。在Geyer等 [18] 的工作中,作者介绍了一种针对联邦学习的差分隐私方法,通过在训练期间隐藏客户的贡献达到为客户端数据提供隐私保护的目的。

● 同态加密(Homomorphic Encryption,HE)。在联邦学习意义下的机器学习过程中,还有一种技术路线是在参数交换的过程中,采用同态加密 [3] 作为加密机制来保护用户数据隐私 [19~21] 。这种方式与差分隐私的数据保护机制有着本质的不同,可以看到数据本身不会被传输,在密码学意义下也不会被对方的数据猜中。在最近的工作中,同态加密被用来集中训练分布式存储的数据 [22,23] 。当然,这类技术会增加额外的计算开销,加密后数据的通信开销也远超原始明文通信的方式。在实践中,加法同态加密被广泛用于降低计算开销,对机器学习算法中出现的非线性函数,需要进行多项式逼近来近似计算,所以这项技术需要在准确性、保密性之间进行平衡和选择 [24,25]

间接信息泄露 是数据融合和联邦学习发展过程中,引起人们极大关注的重要问题。在联邦学习发展的初期,常用的算法设计思路是使用随机梯度下降(SGD) [1] 及其变种的优化算法来实现模型的参数更新。随着研究的不断发展,这种基于参数梯度计算传递的模式,被认为没有提供足够的安全保证。当这些梯度信息以一定的形式被提供给其他参与方时,这些梯度实际上在特定的方法下极有可能会泄露重要的数据信息 [26] 。在使用图像数据的联合训练场景中,研究人员考查了以下情况,参与方之一通过插入后门,利用他人的数据进行学习,就可以恶意攻击他人。Bagdasaryan等证明了将隐藏的后门插入联邦全局模型中是可行的,并提出一种约束规模的新方法以减少数据被恶意攻击的风险 [27] 。Melis等证明了在协作机器学习系统中也存在潜在漏洞,在协作机器学习中不同的参与方使用的训练数据容易受到攻击,存在被反推的可能 [28] 。他们的工作表明,对抗性参与方可以推断出参与方的身份及与训练数据子集相关的属性。他们还讨论了防御这些攻击的可能应对措施。Su和Xu展示了一种基于不同参与方梯度交换的安全组织形式,设计了一种梯度下降方法的安全变种,并证明其能对抗参与方中有常数比例的随意作恶者的情况 [29]

区块链技术也已经被用于构建可信任的联邦学习工程实践的平台。Kim等设计了一种基于区块链的联邦学习(Block FL)架构,通过区块链技术实现联邦学习模型训练中移动端本地模型更新量的交换和验证 [30] 。他们考查了最优区块生成、网络可扩展性和稳定性的问题,并提供了解决方案。另外,区块链作为一种凭证生成和记录技术,也为技术应用后的审计工作提供了工具,特别是在银行、证券、保险等监管要求严格的金融场景中,利用区块链技术提供联邦学习应用中需要的用于审计的凭证,已经出现在行业解决方案中。

关于隐私保护数据联合的研究已经有数十年的历史,但仅仅在过去的十年中,伴随着大数据的发展和人工智能应用的极大需求,真正落地的解决方案才得到大规模部署 [31] 。消费类数字产品现在已经开始使用跨设备的联邦学习和联邦数据分析技术。最早提出联邦学习概念的谷歌公司,在Gboard移动键盘 [32~35] 、Pixel手机的应用和Android Messages中广泛使用了联邦学习相关技术。谷歌公司率先开发和应用跨设备联邦学习,但随着应用威力的展现,现在其他公司的应用也纷纷涌现:苹果公司在iOS 13中使用跨设备联邦学习,用于QuickType键盘和“Hey Siri”的人工智能助手;Doc.ai公司正在开发用于医学应用场景的跨设备联邦学习解决方案,而Snips已经探索了用于热点词检测的跨设备联邦学习 [36] 。跨部门的应用程序已经被提出进而落地,包括小微信贷授信、再保险的财务风险预测、药物发现、电子健康档案信息挖掘、医疗数据分割 [37] 和智能制造。

随着联邦学习的应用需求不断增加,大批以科技公司为主力的机构,还开发、公布出了许多开源工具和框架,其中包括TensorFlowFL、FATE、PySyft、Fedlearner、LEAF、PaddleFL等 [38] 。在中国的数据应用市场上,大量从事传统数据信息服务和金融科技的公司也纷纷开发与提供以隐私保护为核心概念的安全的机器学习产品及服务。 Ge80Kjtd2qzKtzVq3sE2yY5Ks8oY9v4zk4quMpEHt3eFBXLNfe9ecFAWVug4YFly

点击中间区域
呼出菜单
上一章
目录
下一章
×