通常,数据存储系统实施基于凭证的访问控制,用以限制未经授权的用户访问数据。这种简单的技术只能为基本的机器学习实现服务。在更高级的场景中,特别是当数据包含机密信息时,我们需要有更细粒度的数据访问管理方法。例如,我们可能希望模型开发人员只能访问与他们工作直接相关的特征,或以其他方式限制他们对数据子集的访问(也许只有最近的数据)。或者,我们可以在静止状态下或在访问时对数据进行匿名处理或假名处理。最后,我们有时会允许生产工程师访问所有的数据,但只有在证明他们在某次事件中需要这样做,且由一个单独的团队仔细记录和监控他们的访问时才可以。(关于这方面的一些有趣话题将在第11章讨论。)
站点可靠性工程师可以在生产中的存储系统上配置数据访问限制,允许数据科学家通过虚拟专用网络(VPN)等授权网络安全地读取数据,并实施审计记录以跟踪哪些用户和训练任务在访问哪些数据,生成报告,并监控使用模式。企业主或产品经理可以根据用例来定义用户权限。我们可能需要为这些分布并不均匀的维度生成和使用不同种类的元数据,以最大限度地提高后续阶段访问和修改数据的能力。