PREFACE

前言

联邦学习到底是什么呢？

我们认为可以这样定义：它是在数据不出本地的前提下，由多个参与方联合、协作完成建模任务的分布式机器学习范式。据统计，2020年产生的联邦学习相关论文超过6000篇，是之前所有相关论文的三倍多。作为大数据时代下人工智能发展不可或缺的核心技术，联邦学习已经成为当前学术界、产业界争相研究和应用的对象。

在绝大部分的行业中，数据是以孤岛的形式存在的，即数据在不同机构或部门中独立存储、分仓管理，难以流通和利用，而人工智能的发展又往往会涉及多个领域的数据。在过去，为了打破数据孤岛，数据需求方通常会收集来自不同机构的数据信息，并统一整合到中心数据集群后进行集中处理和应用。然而，由于数据隐私泄露和数据获取成本过高，这一方法变得越来越不可取。同时，在愈发重视数据隐私安全的全球性趋势下，社会各界逐渐提升了数据所有权、资产化的保护意识，各国也逐步出台新的法律法规来严格规范数据的管理和使用。例如，2018年5月，欧盟实施《通用数据保护条例》（GDPR）来保护用户的个人隐私和数据安全，禁止数据在实体间转移、交换和交易。2020年10月，我国公布《中华人民共和国个人信息保护法（草案）》，为个人信息保护提供了强有力的法律保障。在法律法规强监管的环境下，如何在确保数据隐私安全的前提下解决数据孤岛问题，已然成为人工智能发展的首要挑战。

联邦学习成为打破人工智能发展困境的“头雁”，其核心价值是在数据安全合规的前提下提升模型效果，实现降本增效。那么联邦学习是如何做到的呢？对于联邦模型的训练而言，模型可以基于各参与方的本地数据库进行训练，训练过程中的模型参数通过加密机制在各参与方间通信，数据无须出本地，既保证了数据隐私安全合规，又间接共享了数据资源，促进了数据生产要素的流通。对于联邦模型的推理而言，由多个参与方联合共建的最优模型可以在密态基础上实现金融、医疗、政务等多个行业的赋能应用。

联邦学习能有效解决人工智能发展面临的数据隐私安全与孤岛问题，这为大数据与人工智能的健康发展和颠覆式变革奠定了基础，并为其在更复杂、更前沿、更尖端领域的应用落地创造了更多的机会和可能。

为什么要写本书

联邦学习技术一经提出，便引起了社会各界人士的广泛关注。联邦学习能够满足各方在不共享数据源的前提下进行数据联合训练的需求，帮助多方组织构建最优的机器学习模型。这一技术不仅能够推动互联网时代下海量数据的价值变现，还能助力人工智能的发展革新和应用落地。

目前，联邦学习的相关学习资源过于分散，相关图书屈指可数。为了更好地普及联邦学习知识，传递联邦学习价值，我们特写作本书，旨在系统全面地介绍联邦学习的来龙去脉，为有志于联邦学习理论研究和实践的读者提供指引和参考。希望本书能够给广大读者带来启示。

读者对象

大数据、人工智能相关产业的从业者和研究人员，包括但不局限于：

想要全面了解、探索联邦学习的读者；
想要上手实践联邦学习的读者。

本书主要内容

全书共9章，分为4部分。

第一部分基础（第1～2章）

主要介绍了联邦学习的概念、由来、发展历史、架构思想、应用场景、优势、规范与标准、社区与生态等基础内容。

第二部分原理（第3～5章）

详细讲解了联邦学习的工作原理、算法、加密机制、激励机制等核心技术。

第三部分实战（第6～7章）

主要讲解了PySyft、TFF、CrypTen等主流联邦学习开源框架的部署实践，并给出了联邦学习在智慧金融、智慧医疗、智慧城市、物联网等领域的具体解决方案。

第四部分拓展（第8～9章）

概述了联邦学习的形态、联邦学习的系统架构、当前面临的挑战等，并探讨了联邦学习的发展前景和趋势。

勘误与支持

联邦学习的概念很新，更新很快，虽然我们已尽可能使本书内容准确、全面、紧跟技术前沿，但书中仍难免存在遗漏或不妥之处，恳请读者批评指正。如果你有关于本书的任何意见或建议，欢迎发送邮件到yfc@hzbook.com，期待你的反馈。

致谢

本书的写作占用了我们大量的业余时间，在此特别感谢家人、朋友的理解和支持。另外，在本书写作过程中，机械工业出版社华章公司的编辑们给予了精心指导和大力支持，没有他们细致的工作，本书无法如此顺利地出版，特此感谢。