购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.5 设计数据目录

与图书馆目录类似,数据目录作为元数据清单,为投资者提供了评估数据可访问性、健康状况和位置所需的信息。Alation、Collibra和Informatica等公司推出的解决方案不仅可以监测数据,还可以与机器学习和自动化相集成,让数据更易于被发现、更具协作性,并且更符合当前组织、行业甚至政府的相关规则。

由于数据目录提供了有关公司数据源的单一真相来源,因此你可以很容易地利用数据目录来管理管道中的数据。数据目录可以用来存储元数据,让利益相关方更好地了解特定来源的沿袭,从而增强对数据本身的信任。此外,数据目录可以方便地记录个人身份信息的存放位置和下游蔓延位置,以及组织中谁有权通过管道来访问这些信息。

数据目录旨在回答以下问题:

· 我应该在哪里查找数据?

· 这些数据重要吗?

· 这些数据代表了什么?

· 这些数据的相关性和重要性如何?

· 我该如何使用这些数据?

如果你是公司中有史以来第一个设计数据目录的人,那么回答上述问题最简单的方法就是将你的所有数据信息汇集到一个巨大的电子表格中。而这就是传统上使用Excel来解决数据编目问题的方式。

不过,手动数据编目的问题很容易识别。在拥有数万表格的大型数仓中,不可避免地会出现自动化的需求。传统的数据目录和治理方法通常依赖数据团队来完成手动数据录入的繁重工作,让团队成员负责随着数据资产的变化来更新目录。这种方法不仅费时,而且还需要大量人工劳动,而自动化能够让数据工程师和分析师腾出时间来专注于真正能取得进展的项目。

此外,当前存储的大部分数据都是非结构化且高度流动的。这是一种非常适合输入机器学习管道中的数据类型,也将是存储在数据湖中的数据类型。除非你想让少数工程师全职完成这项任务,否则根本不可能维护具有这么多种形式数据的手动目录。此外,人们越来越需要根据数据的意图和目的来理解数据,而不是简单地描述消费者访问和使用的数据。数据生产者如何描述数据可能与该数据的消费者对其功能的理解方式大不相同,甚至不同的数据消费者在理解数据的含义方面也可能存在巨大差异。总而言之,手动数据编目已经不能满足需求了。

幸运的是,数据编目可以发现并组织恰当的元数据来解释你的数据管道。我们已经确定这一过程可以自动化完成。 Oma0MH+dyiSLgnyQ4rAJBnoDS4P1n4Eaw8coy3oEfR7cbE1b6s2awuYvn8oWopiN

点击中间区域
呼出菜单
上一章
目录
下一章
×