随着人工智能(Artificial Intelligence,AI)的业务体量不断增加、赋能水平不断提升,它在人类社会中的重要性日益凸显。近年来,统计机器学习、深度学习等人工智能技术在各个领域得到迅猛发展,拥有着广阔的应用场景和极高的商业价值。不过,当前人工智能的发展面临着一个重大挑战,即如何在数据流通过程中有效保护隐私安全。
首先,数据隐私是必须关注的方面。出于相关法律法规的要求,数据收集的难度大大提升,使得人工智能传统的数据处理模式受到了限制。例如,随着欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR)的颁布,用户成为个人资料的绝对拥有者,如果用户不同意,任何机构或组织都无权使用用户隐私数据。同时,我国在数据隐私保护方面的法律法规也日益完善,如《中华人民共和国民法典》明确规定信息处理者不得泄露或者篡改其收集、存储的个人信息:2020年5月,《全国人民代表大会常务委员会工作报告》就提出要制定《个人信息保护法》和《数据安全法》;2021年6月,我国正式公布了《中华人民共和国数据安全法》,自2021年9月1日起施行;同年8月,公布了《中华人民共和国个人信息保护法》,并将于2021年11月1日起正式施行。这些法律法规进一步强调了加强个人信息保护的必要性,在不同程度上对大数据的安全、合规应用提出了新的要求,同时也表明数据安全和个人信息保护已经成为国家与公民共同的迫切需求。
其次,数据流通也是一个亟待解决的问题,因为数据无法互通,不同组织形成了各自孤立的数据壁垒,限制了可用于训练的数据量。而在人工智能领域,训练人工智能应用模型所需要的数据量都是非常庞大的,用于训练的数据越多,模型质量越好,训练的效果就越接近理想状态。例如,最早的AlphaGo使用了16万套人类国际象棋数据,可以击败入门级的专业棋手;后来的AlphaGo Zero使用了286亿套人类和机器生成的国际象棋数据,可以轻松击败职业棋手;最近OpenAI的GPT-3用1750亿个参数和45TB的数据训练完成了一个强大的语言模型。此外,在一些专业程度较高的领域(如医疗行业),数据标注需要有经验的人员完成,这可能会导致有效数据的稀缺,不利于业界发展。因此,不同组织之间如何在安全合规的前提下打破数据孤岛、实现数据流通,是人工智能持续发展的又一挑战。
联邦学习(Federated Learning,FL)是一个新兴的机器学习(Machine Learning,ML)、深度学习范式,旨在确保数据隐私安全的前提下解决数据孤岛问题。它是指多个参与方(又称客户端,如移动端、PC、摄像头、IoT设备等)与一个或多个中央服务器协调,在分布式的环境中完成机器学习、深度学习任务。联邦学习最早由谷歌在2016年提出,用于在确保数据存储于本地设备的基础上预测用户在数万台安卓(Android)设备中的文本输入。首先,每个设备会下载一个通用的全局模型以用于本地训练;其次,对属于不同移动设备的本地数据进行多次边端更新,并以加密方式将相关参数信息上传到云端;然后,在云端对聚合的本地模型参数进行加权平均,并将更新后的全局模型参数分配给设备;最后,重复上述步骤,直到模型达到一定的预期性能或迭代轮数。联邦学习的出现将解决分散设备数据隐私与数据共享之间的矛盾。
由于具有不会将数据暴露给第三方中央服务器的隐私保护特性,联邦学习适用于对数据隐私保护敏感的应用程序或系统,可以从最早的边缘设备扩展并涵盖到社会的各应用场景中,如金融、医疗健康、交通出行、药物研发、智慧城市等场景,这些场景由于法律法规监管、知识产权约束而无法集中收集数据。
另外,随着《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》的颁布,我国首次将数据作为一种新型生产要素写入文件中,与土地、劳动力、资本、技术等传统生产要素并列。国内需要加快培育数据要素市场,推进政府数据开放共享,加强企业数据合作共赢,共同提升社会数据的资源价值。这也在加强数据资源流通和安全保护中为联邦学习技术提供了技术发展的原动力。
本书从联邦学习的基础出发,深入浅出地介绍和论述关于中央服务器优化和联邦机器学习的算法体系,并对联邦学习中涉及的加密通信模块进行详细阐述。同时,为了更好地评价联邦学习的应用价值,本书以定性和定量的双视角建立了联邦学习服务质量的理论体系,以及延伸介绍了服务质量的提升方法。另外,联邦学习的生态构建与激励机制密不可分。对此,本书从经济论证和商业模式的角度对联邦激励进行了详细论述,以建立起公平、公正的评估体系,吸引业界更多用户参与到联邦生态中来。目前,关于联邦学习的大多数讨论针对的是有监督学习任务,即假定联邦学习中所有数据都存在标签,而现实中许多联邦数据可能是未标记或弱标记的。因此,联邦学习的相关任务仍有较大的探索和研究空间,例如如何使用联邦学习执行一些无监督的学习任务(如探索性数据分析),如何使用联邦学习运行一些更复杂的任务(如强化学习)等等。所以,本书还对联邦学习的研究趋势进行了深入探讨与分析,如果针对这些问题的探索取得阶段性进展,人工智能应用又将会向前迈出坚实的一步。