数据合规给数字化转型中的企业带来了严峻的技术和法律挑战,使得原先可以方便获取的数据由于潜在的合规风险而不能共享。由此带来的数据孤岛效应,对数据流通带来了巨大障碍。2020年4月,根据《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》,数据作为生产要素通过市场进行配置,已成为国家的一项政策。为平衡数据共享和隐私保护这两个相互对立的需求,改善当前的数据孤岛现象,隐私计算应运而生。隐私计算可以实现数据可用不可见,从而为充分挖掘利用更多的敏感数据提供了可能。隐私计算技术通常基于密码学,对敏感数据进行加密混淆,在保障数据安全的同时实现联合机器学习。越来越多的企业将在不受信任的环境中使用隐私计算技术处理数据。这对于各种数据驱动的模型算法来说无疑是雪中送炭,有可能是数字化时代的下一个技术风口。
本书以当前流行的数据驱动的机器学习作为切入点,深入浅出地介绍了主流的机器学习算法和隐私计算相关协议(如秘密分享等),并介绍了常用的线性模型、树模型及神经网络模型等。这为机器学习领域的专家提供了一个新的视野,同时也为高校的学者系统地学习此项技术提供了途径。推荐广大非相关学者们阅读本书的前几个章节,可作为了解隐私保护机器学习的入门书籍;有兴趣的读者也可以进一步深入阅读本书。当前隐私计算技术尚不成熟,其性能表现使其较难在产业界实际应用中落地,有待进一步优化。本书的出版必将推动隐私保护机器学习技术研究的进一步深入发展。
韩伟力教授
复旦大学