随着算法、算力的不断提升,以及企业不断累积的海量业务数据,人工智能正在广泛地影响着各行各业,给人们的生活带来便捷,比如自动驾驶、医疗辅助诊断和智能制造等。然而数据驱动的人工智能既推动着生产力的发展,也带来了隐私泄露等方面的隐患。很多大数据公司被曝光会非法收集用户的数据并出售用户隐私数据牟利。越来越多的人正在倡导践行负责任的人工智能技术(Responsible AI),保证人工智能技术的公平性、可解释性与隐私保护性。联邦学习正是在此背景之下发展的一项技术,主要从避免收集数据的角度出发,研究在分布式环境下全局模型的计算。与一般的分布式机器学习不同,联邦学习对各计算节点的控制权不同,计算节点对数据拥有绝对控制权,且节点的稳定性不同、不同节点上的数据特征分布也不同。这就带来了比一般分布式机器学习更复杂的系统层级优化挑战。
由于不同计算节点无须分享数据,联邦学习适用于对数据隐私敏感的系统与行业,如医疗、金融风控、智慧城市等。在这些场景中,由于商业风险、道德与法规的约束,使得这些领域的数据很难被收集到本组织以外的地方。联邦学习的开发将打破数据壁垒,实现不同组织、不同类型数据之间的隐私保护之下的价值挖掘。
此外,中共中央、国务院2020年也发布了《关于构建更加完善的要素市场化配置体制机制的意见》,首次正式将数据视为一种新型生产要素,与传统的土地、劳动力、资本等要素并列,并提出加快培育数据要素市场、加强企业间数据合作共赢、共同提升社会数据的资源价值。联邦学习预计将在数据隐私与安全计算、数据价值流转中发挥巨大的作用。
本书内容安排如下:第1章介绍联邦学习的基础知识,包括提出与发展的背景,从技术角度来讲解其定义、分类与挑战,以及相关的法律与社区。此外,为了方便人工智能的初学者更好地理解后面的内容,还介绍了机器学习与深度学习基础知识。第2章介绍了现有的一些联邦学习框架,包括其安装与部署,并且比较了不同系统的特性,给出了使用建议。第3章深入联邦学习技术本身,讨论其主要技术,包括横向联邦学习、纵向联邦学习与分割学习。第4章介绍了联邦学习建模难点与解决方案,对应于第1章提到的性能与效率挑战。第5章介绍了主流的隐私保护技术,这些技术可以与联邦学习技术互为补充。第6章介绍了联邦学习系统安全与防御算法,这是当前联邦学习研究的热点。第7章在计算机视觉方向进行联邦学习实战。第8章介绍了联邦学习与推荐系统的相关知识。之前主要讨论的学习模式是监督学习,第9章介绍了联邦学习系统与其他深度学习模式的结合(比如多任务学习、半监督学习、强化学习、联邦图学习等)。第10章介绍了联邦学习在不同行业的前景(如医疗、金融、边缘计算、物联网、区块链等)。
本书的特色与优势在于:第一,本书的作者是扎根于联邦学习前沿的研究者和从业者;第二,我们参考了近两年全新的文章和综述,紧跟学术和业界动态。第三,我们对联邦学习性能挑战、安全与隐私挑战,以及推荐系统进行了介绍。在本书的编写过程中,我们深深地感受到联邦学习及其相关领域技术的繁多冗杂,因此书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。
作者