



在这本书中,你将学习数学上严格的隐私定义,即差分隐私(Differential Privacy,DP)。差分隐私可以在不泄露数据集中具体个人信息的前提下,准确发布数据集的统计信息。采用这种分析方法生成的数据集信息发布,称为差分隐私数据发布。本书将向你展示如何设计敏感数据集的数据分析流程,以保证隐私。
差分隐私是满足数据隐私需求的首选和值得信赖的解决方案:
· 差分隐私保证对于拥有无限资源(如辅助数据和无限制计算能力)的攻击者而言仍然非常强大。
· 差分隐私保证可以从数据中个体面临的风险的角度进行解释。
· 随着数据发布次数的增加,差分隐私保证的隐私保护效果会逐渐减弱,而不是大幅失效。
数据隐私是一个广泛的话题。如果你以前学习过数据隐私,那么你可能了解过如何保护数据库免受黑客攻击或创建加密哈希值,你可能也研究过虚拟专用网络(Virtual Private Network,VPN)和其他防止在线追踪的工具。这些概念侧重于通过不泄露任何有关数据的内容来保证隐私。然而,本书中涉及的隐私概念与隐私保护数据发布相关。隐私保护数据发布的目标是发布关于数据集的信息,而不泄露数据集中特定个体的信息。差分隐私是一种数学上严格定义的隐私保护数据发布方法,专门用于数据集信息的受控发布。
隐私是什么?
隐私是日常生活中使用的一个术语——想想诸如院子里挂着的“私人财产”标志,或者酒店房门上“请勿打扰”的标牌。人们对于这些标志的含义有一个共识:在第一种情况下,穿过院子被认为是非法侵入(这会让你成为一个不体贴的邻居);在第二种情况下,你希望酒店工作人员不要敲门或进入你的房间,这保证了客人的隐私。请记住,你刚刚看到了两个例子,在这些例子中,一个人可以对其他人建立一个私人领域,但不能对政府这样做。院子里的“私人财产”标志或酒店门上的“请勿打扰”标志肯定不会使搜查令无效。这就引出了隐私这个术语的另一层含义——你应该问:“在什么情况下对谁保密?”
隐私的另一个方面与身份识别相关。例如,《健康保险携带和责任法案》(HIPAA)
保证患者对自己的医疗记录享有合理的隐私权利。显然,黑客入侵医院记录的数据库是对隐私的侵犯。但是,在保护患者隐私的同时,能否发布患者的综合统计信息呢?在本书中,你将学习针对此类敏感数据场景的各种相关技术。
为什么选择差分隐私?
你可能一看到“差分”这个词就立刻想到了微分方程和导数。虽然这是一个合理的猜测,但从这个意义上讲,差分隐私的概念与微积分并无关联。相反,差分隐私与“差异”的概念相关。
此处的“差分”一词实际上指的是在仅有单个个体差异的数据集之间,模糊数据发布的差异。
在学习了差分隐私的理论基础后,你将掌握多种差分隐私技术,并了解如何将它们应用于实践中。有了这些知识,你可以将数据工作流程转化为差分隐私数据工作流程,从而分析敏感数据。例如,可以通过修改知名算法以满足差分隐私的要求,从而在敏感数据集上训练机器学习模型。理解差分隐私对算法的约束机制及原因,也将帮助你识别隐私攻击的漏洞。
差分隐私的基础理论在众多算法中得以实现,而这些算法又通过易于理解的例子进行展示。本书中给出的诸多例子调查了在多种情境下有效的差分隐私数据分析技术。这不仅涉及理解相关算法,你还将深入、直观地理解支撑差分隐私的理论以及它所提供的保证。
从实现的角度来看,你还将学习如何构建常见的差分隐私数据分析流程。无论是非差分隐私还是差分隐私的数据分析流程,通常都分解为更简单的模块化部分,这些部分通常是可以互换的。尤其是差分隐私流程,通常被建模为一系列稳定的变换、一个隐私机制,然后进行后处理。
要构建此流程,你需要知道想要进行的查询、保护隐私所需的扰动以及获得最终结果所需的后处理步骤(扰动和后处理将在第2章介绍)。
在应用差分隐私时,你将面临隐私与实用性之间的权衡。虽然可以通过精心设计的算法来让这种权衡变得更加灵活,但最终你的算法需要在隐私和实用性之间找到一个适合你的具体用例的平衡点。这种隐私与实用性之间的权衡主要通过预处理(可能引入偏差)和扰动(引入方差)你发布的数据来满足差分隐私要求。直观地说,添加的噪声越多,你越难以了解统计数据的真实值。
本书的结构
本书内容自成体系,分为三部分。第一部分介绍差分隐私的定义及理论,详细解释了准备数据和执行差分隐私数据发布所需的各个概念。第二部分探讨了差分隐私的应用,包括如何查询不同的数据格式(如搜索日志)以及在机器学习算法中添加差分隐私。第三部分则关注从业者需要了解的重要主题,例如理解隐私攻击、设置隐私参数以及如何部署你的首次差分隐私数据发布。
第一部分:差分隐私的概念
· 第1章将概述差分隐私的创建背景及原因,并直观地解释了它的工作原理。
· 第2章将定义差分隐私并介绍关键概念。本章旨在帮助读者理解差分隐私背后的数学原理,以及它为何能提供强大的隐私保证。
· 第3章将定义稳定变换的概念。稳定变换是差分隐私数据分析的核心工具,因为它几乎涵盖了整个数据处理过程。稳定变换还为深入理解差分隐私机制奠定了基础。
· 第4章将介绍各种差分隐私机制。隐私机制提供了实质性的隐私保证,这也激发了人们对差分隐私的应用。本章将涵盖本地差分隐私机制、输出扰动机制、隐私选择机制以及数据流机制。
· 第5章将讨论纯差分隐私的放宽条件,以及在这些放宽条件下可能实现的多种隐私机制。本章将进一步加深你对隐私损失的理解,使你在回答众多查询时能够实现更严格的隐私保证。
· 第6章将展示如何从更简单的隐私机制构建出更复杂的隐私机制。用于组合这些机制的工具被称为组合器,它们利用了差分隐私算法中固有的模块化特性。
第二部分:差分隐私在实践中的应用
· 第7章将第一部分介绍的概念应用于端到端的数据发布。尤为重要的是,隐私单元必须具有实际意义,并且即使在无限贡献的情况下,隐私单元也必须保持受保护状态。
· 第8章将介绍如何将差分隐私应用于线性回归和分类模型。拟合模型的方法多种多样,每种方法都有它自身的优缺点。
· 第9章将探索机器学习模型的隐私训练技术和隐私推断技术。
· 第10章将介绍用于生成合成数据的差分隐私算法。本章将解释差分隐私合成数据生成算法的主要内容,以及它们的用途和局限性。
第三部分:差分隐私的部署
· 第11章将展示可用于侵犯数据集中个人隐私的隐私攻击。
· 第12章将强调差分隐私在实际应用中的重要方面,包括如何设置隐私损失参数。
· 第13章将重点阐述差分隐私数据发布部署中的重要步骤,对本书中所学的所有内容进行总结。
如果你对差分隐私完全陌生,那么我们建议你先重点学习第1章和第2章,待你熟悉相关概念后再继续深入学习。在这些章节中,你将学习差分隐私的基本术语,并为本书后续章节中更高级的概念的学习做好准备。
进一步的阅读顺序关系见图P-1。
图P-1:章节依赖关系图
本书中使用的规范
本书中使用以下排版约定:
斜体( Italic )
表示新的术语、URL、电子邮件地址、文件名和文件扩展名。
等宽字体(Constant width)
用于程序清单,以及段落中的程序元素,例如变量名、函数名、数据库、数据类型、环境变量、语句以及关键字。
等宽粗体( Constant width bold )
表示应由用户直接输入的命令或其他文本。
等宽斜体( Constant width italic )
表示应由用户提供的值或由上下文确定的值替换的文本。
该图示表示一个提示或建议。
该图示表示一条普通注释。
该图示表示警告或注意事项。
示例代码
可以从 https://oreil.ly/HODP_GitHub 下载补充材料(示例代码、练习、勘误等)。
如果你有技术问题或在使用代码示例时遇到问题,请发送电子邮件至 bookquestions@oreilly.com 。
你可以通过 ethan@lakeside.tech 联系作者。
这里的代码是为了帮助你更好地理解本书的内容。通常,可以在程序或文档中使用本书中的代码,而不需要联系O'Reilly获得许可,除非需要大段地复制代码。例如,使用本书中所提供的几个代码片段来编写一个程序不需要得到我们的许可,但销售或发布O'Reilly的示例代码则需要获得许可。引用本书的示例代码来回答问题也不需要许可,将本书中的很大一部分示例代码放到自己的产品文档中则需要获得许可。
非常欢迎读者使用本书中的代码,希望(但不强制)注明出处。注明出处时包含书名、作者、出版社和ISBN,例如: Hands-On Differential Privacy:Introduction to the Theory and Practice Using OpenDP ,作者Ethan Cowan、Michael Shoemate和Mayana Pereira,由O'Reilly出版,书号为978-1-492-09774-7。
如果读者觉得对示例代码的使用超出了上面所给出的许可范围,欢迎通过 permissions@oreilly.com 联系我们。
O ' Reilly在线学习平台
40多年来,O'Reilly Media致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。
我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O'Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O'Reilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问 http://oreilly.com 。
如何联系我们
对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商。
美国:
O'Reilly Media,Inc.
1005 Gravenstein Highway North
Sebastopol,CA 95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
本书中文版的勘误内容,请发送电子邮件至 errata@oreilly.com.cn 。
本书配套网站 https://oreil.ly/hands-on-diff-privacy 上列出了勘误表、示例以及其他信息。
关于书籍和课程的新闻和信息,请访问我们的网站 http://oreilly.com 。
我们在LinkedIn上的地址: https://linkedin.com/company/oreilly-media
我们在YouTube上的地址: https://youtube.com/oreillymedia
致谢
本书的出版离不开以下读者的反馈和宝贵意见:Salil Vadhan、Christian Covington和Anderson Nascimento。
感谢我们的O'Reilly审稿人Curtis Mitchell和Aileen Nielsen的支持。
特别感谢Jayshree Sarathy贡献她深厚的差分隐私知识,并与我们合作完成第12章。
在此写作过程中,感谢来自微软的Joshua Allen、Juan Lavista、Rahul Dodhia和Kevin White的大力支持。
感谢Mengyuan Cai女士给予的大力支持。
特别感谢Raman Prasad自始至终对本书的支持。
感谢Corbin Collins、Kristen Brown及O'Reilly的全体工作人员!