有价值的机器学习数据通常从私人数据开始。一些组织选择建立流程来简单地将所有PII(个人身份信息)排除在数据存储之外。这是一个非常好的方法,原因主要有以下几个方面。首先它简化了访问控制的问题,其次它消除了数据删除请求的操作负担 [5] 。而且,它还消除了存储隐私信息带来的相关风险。正如我们所讨论的,准确来说,数据不仅应被视为一种资产,还应被视为一种责任。
我们可能已经成功地从机器学习数据存储中排除了PII。但我们也许不应该指望这一点,原因有二。一方面,我们可能没有像我们认为的那样有效地排除PII。正如前面提到的,如果没有经过深思熟虑的分析,识别PII是出了名地困难,所以除非对所有添加到特征库的数据进行仔细耗时的人工审查,否则在一些数据与其他数据的组合中极有可能含有PII。另一方面,对于许多组织来说,从数据存储中合理地排除所有的PII也许根本不可行。因此,这些组织有义务与责任严格保护其数据存储。
除了对PII的关注,团队可能会发展出对于特定类型数据的特殊用途。对数据存储的合理使用将限制最可能需要和使用该数据的团队对某些数据的访问。如果模型开发者可以很容易地访问(并且只访问)他们最有可能用来构建模型的数据,那么对访问的缜密限制实际上会提高生产力。
在所有情况下,系统工程师都应该跟踪元数据,了解哪些开发团队构建了哪些模型,哪些模型依赖于特征库中的哪些特征,这实际上是一种审计跟踪。这种元数据对于操作和安全性相关的目的来说,即使不是必需的,也是有用的。