前言

本书讲述的是如何应用隐私保护技术来解决机器学习中的隐私问题。我们常常可以听到，如今这个时代是“大数据”的时代，而“大数据”正是人工智能、机器学习得以茁壮成长的原料。但是，我们又常常面对这样一个现实：数据是分散的、碎片化的，它们分散在用户的各个终端，如手机、平板电脑等。传统的方法是将这些数据集中到一个中心服务器，然后在该服务器上进行集中式训练。然而，这样的方法会引起严重的隐私泄露问题，引发用户对个人隐私被侵犯的担忧。随着各国相继出台隐私保护的相关法律法规，这样的做法也越发变得不可行。

为了保护隐私的安全，越来越多的隐私保护机器学习方法正在被提出，也有很多隐私保护机器学习系统在工业界落地，如谷歌的联邦学习、蚂蚁集团的Hess-XGB等。这些方案在某些特定的领域中能够解决相应的隐私保护问题，但也面临着很多挑战。例如，基于密码学的隐私保护方法，通常可以在不怎么牺牲正确性的情况下，达到隐私保护的效果，但常常面临严重的效率问题；基于扰动、加噪的方法，可能需要在准确性和隐私性之间取得平衡；基于可信执行环境的方法，有着高效率的优点，但需要所有用户都信任TEE的可信根，从而制约了其使用场景。

在这样的背景下，本书将详细介绍隐私保护机器学习的原理、方法和应用。本书的第1章是引言部分，介绍了人工智能的发展历程、相关背景。第2～4章是机器学习和隐私保护技术相关基础知识的介绍，以及对隐私保护机器学习所面对的场景的定义。第5～12章则是隐私保护机器学习的具体应用，我们将讲述隐私求交技术、安全多方计算平台，以及如何将隐私保护技术应用于线性模型、树模型和神经网络，还会介绍推荐系统、可信执行环境和MPC编译优化方法。第13章是全书的总结和展望。

处于这个时代的算法工程师和科研人员，见证着机器学习带来的最深刻、最迅猛的变革，也面临着人工智能带来的种种问题和担忧。希望本书能为对该领域感兴趣的读者提供相关知识的概述，也能帮助相关领域的从业人员构建隐私保护机器学习的框架。

本书特色

本书所涵盖的范围很广，基本包括了隐私保护机器学习的各个方面，可以为读者提供一个全面的概览。在内容深度方面，本书不仅仅是一本“概况书”。自然，书中会包含隐私保护机器学习的概况，但是在每一章里，都会深入讲解技术原理，可以作为高等院校相关专业的本科生、研究生的学习参考资料。在新颖度方面，笔者在写作每一个章节时都查阅了相关领域的最新进展，希望能将最新的研究成果呈现给读者。

本书读者

（1）工业界的相关从业者。本书涵盖了隐私保护机器学习的方方面面，希望可以给从业者提供一个了解相关技术的途径，进而在工作中选择合适的方案，扬长避短，不断改进技术点。

（2）有一定计算机基础，该领域的爱好者、高等院校的学生。本书在保证深度的同时，用尽量易于理解的方式讲解原理，可以作为本科生、研究生的参考资料。

欢迎交流

机器学习的发展日新月异，而我知识有限，难免有疏漏之处。欢迎读者将阅读时发现的问题反馈给我，或者与我讨论相关技术。

致谢

本书的写作并不轻松，由于时间仓促，在写作过程中几乎挤出了所有时间查阅相关文献、梳理技术框架、构思写作顺序，希望能以尽量通俗易懂的语言将相关内容呈现给读者。限于时间紧迫和本人的知识水平有限，书中的疏漏不当之处恳请各位读者批评指正。

在此，感谢参与编写人员：陈超超、方文静、季珂宇、卢天培、卢益彪、栾明学、王磊、王力、王志高、徐又任、殷泽原、余超凡、袁鹏程、张秉晟、张心语、张兴盟、周爱辉、周俊、周哲磊。

著者
2021年3月