购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

本书讲述在数据间彼此孤立、同时被不同组织所拥有且并不能被轻易地聚合在一起的环境下,联合构建机器学习模型的方法。我们经常可以听到,当今是大数据(Big Data)时代,而大数据正是人工智能(Artificial Intelligence,AI)应用蓬勃发展的“燃料”。事实却是,我们面对的数据常常既是小规模,又是碎片化的。例如,我们不能随意收集由移动终端设备产生的数据,这些数据都以碎片化的形式分散存在。像医院这样的机构,由于行业的特殊性,对用户数据的掌握量往往是有限的。然而,由于用户隐私和数据安全方面的需求,使得在不同机构间以简单的方式将所有数据聚合到一处并进行处理变得越来越不可行。在这样的环境中,联邦机器学习(Federated Machine Learning),或者简称为联邦学习(Federated Learning),作为一种行之有效的解决方案引起了人们的广泛关注。联邦学习既能帮助多个参与方搭建共享的高性能模型,又符合用户隐私和数据保密性的要求。

除了保护用户隐私和数据安全,联邦学习的另一发展动机是为了最大化地利用云系统下终端设备的计算能力。如果只在设备和服务器之间传输计算结果而不是原始数据,那么通信将会变得极为高效。人造卫星能够完成绝大部分的信息收集计算,并只需使用最低限度的信道与地面计算机通信。联邦学习通过交换中间计算结果即可在多台设备和计算服务器之间进行同步。

我们可以打个比方来通俗地解释联邦学习,把机器学习模型比作羊,把数据比作羊吃的草。在传统方法中,要建立机器学习模型,需要到各个草场的供应商处收购草。这就像一家人工智能公司需要到处收集数据一样,会面对很多的挑战,例如用户隐私、各个组织的利益和法律法规的约束等。联邦学习则换了一种思路,我们可以牵着羊,到各个草场去吃草,这样羊就可以吃到每个地方的草,羊可以成长,而草不出本地,就像联邦学习系统里的数据不出本地一样。羊吃了各家的草,可以逐渐长大,就像联邦模型在各个地方的数据集上都获得知识,变得越来越好,最后联邦模型可以供大家一起使用一样。这也是本书的封面所展示的意义。

如今,现代社会需要人们更负责任地使用人工智能,而用户隐私和数据完整性是人工智能系统的重要特征。在这一方向,从安全地更新移动电话上的输入法预测模型,到与多家医院一同改善医疗图像识别模型的性能,联邦学习已经产生了显著的积极影响。在计算机科学领域,有许多已有的研究成果为联邦学习技术奠定了基础。自从谷歌发布了一个名为Gboard的应用程序后,联邦学习技术在2018年左右开始迅速崛起。

谷歌的Gboard系统是一个企业对消费者(Business-to-Consumer,B2C)应用的例子。它也能够用于支持边缘计算,云系统的终端(边缘)设备可以处理许多计算任务,从而减少了通过原始数据与中央服务器通信的需要。另一个维度是企业对企业(Business-to-Business,B2B)应用。在此类应用中,多个组织联合起来搭建一个共享的机器学习模型。模型是在确保没有本地数据离开任何站点的同时构建的,而模型性能可以根据业务需求进行一定程度的定制。在本书中,我们涵盖了B2C模型和B2B模型。

为了推进联邦学习技术,需要多个学科领域的合作,包括机器学习算法、分布式机器学习、密码学与安全、隐私保护数据挖掘、博弈论与经济学原理、激励机制设计、法律与监管要求等。要同时精通如此多的学科,对一位研究者或工程师来说是一个极其艰巨的任务。目前,研究联邦学习领域的资源分散于许多研究论文和博客上,因此,我们有必要在一本书中进行全面的介绍。

本书的内容是关于联邦学习的介绍,可以作为读者入门和探究联邦学习所需阅读的第一本书。本书是为计算机科学、人工智能和机器学习专业的学生,以及大数据和人工智能应用程序的开发人员编写的。本科高年级学生或者研究生、大学的教员和研究机构的研究人员都能够发现这本书的有用之处。在课堂上,本书可以作为研究生研讨课程的教科书,也可以作为研究联邦学习的参考文献。法律法规制定者和政府监管部门也可以把这本书作为一本关于大数据和人工智能法律事务的参考书。

本书的想法来自我们在微众银行开发的一个名为联邦智能使能器(Federated AI Technology Enabler,FATE)的联邦学习平台,是第一个工业级联邦学习开源框架。FATE平台现已是Linux基金会的一部分。微众银行是一家服务于中国数亿用户的数字银行,拥有来自不同背景的商业合作伙伴,包括银行、保险公司、互联网公司、零售公司和供应链公司等。我们亲身体会到,由于数据不能轻易地共享和传输,导致合作构建由机器学习所支撑的新业务的需求正变得愈加强烈。

谷歌将联邦学习大规模地应用在其面向消费者的移动服务中。我们进一步扩大了联邦学习的适用范围,使多家企业结为伙伴关系。基于联邦学习的横向、纵向和迁移学习分类首次在我们发表于 ACM TIST ACM Transactions on Intelligent Systems and Technology )的研究论文中提出 [1] ,也于2019年在夏威夷由人工智能发展协会组织举办的AAAI(Association for the Advancement of Artificial Intelligence)会议上提出。随后,在第14届中国计算机联盟科技前沿大会等会议上,参会者们提供了许多关于联邦学习的教程。在本书的编写过程中,我们的第一个开源联邦学习系统FATE诞生了 [2] 。此外,联邦学习的第一个IEEE 国际标准正在制定中 [3] 。各种教程和相关的研究论文是本书的基础所在。

本书的结构安排如下。第1章介绍当前人工智能面临的挑战以及将联邦学习作为可行的解决方案。第2章提供面向隐私保护的机器学习的背景知识,包括常用的隐私保护技术和数据安全技术。第3章是分布式机器学习概述,包括面向扩展性的分布式机器学习和面向隐私保护的分布式机器学习,并强调了联邦学习和分布式机器学习的区别。第4章、第5章和第6章分别详细地介绍了横向联邦学习、纵向联邦学习和联邦迁移学习。第7章探讨联邦学习激励机制的设计,以便更好地激励联邦学习的参与方。第8章介绍联邦学习在计算机视觉、自然语言处理及推荐系统领域的研究和应用。第9章介绍联邦强化学习。第10章讨论联邦学习在各个领域的应用前景。第11章总结此书,并展望联邦学习的未来发展。最后,附录A中提供了当前最新的欧盟、美国和中国的数据保护法律和法规概况。

杨强,刘洋,程勇,康焱,陈天健,于涵
2020年4月,中国深圳 /ynBzFnJthxtWSRaViTF8vBYP5kl5CtO12uJdRsvn73+GqEyZLPu8lrxR44ZwE0t

点击中间区域
呼出菜单
上一章
目录
下一章
×