购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

4.2
数据需求解析

数据需求阶段的主要目标是明确数据资源需要满足的各类需求、约束和目标,并为数据资源架构设计做准备。为此,需要了解以下数据内容:

1)数据来源:根据不同领域的数据需求,要识别所需数据的来源(如内部系统、外部合作伙伴等)。

2)数据类型:识别所需数据源中包含的数据类型。需要识别类型广泛的非结构化数据和半结构化数据,例如文本、日志、邮件、图片、音频、视频、即时消息、论坛帖子、网页、地理位置信息、传感器数据采集记录等。需要识别主数据、交易数据、统计数据等数据的分布情况和质量情况。

3)元数据:识别上述数据源中各类数据对应元数据的情况。

同时,数据需求阶段还需要进行权威数据源识别与认证,评估每个数据源的可靠性、准确性、及时性、完整性和相关性。基于评估结果,认证哪些数据源是权威的,即它们提供的数据是符合组织标准和数据需求的。

4.2.1 数据需求

1.数据需求的定义

数据需求是指在项目、业务流程或系统开发中,为了实现特定的目标或功能,所需要的数据类型、数据量、数据质量、数据格式以及数据的获取、处理、存储和使用方式等方面的具体要求。数据需求通常包括以下几个方面:

● 数据类型:需要收集或处理的数据种类,如文本、数字、图像、音频、视频等。

● 数据量:所需的数据规模,可能涉及数据的容量、数量等。

● 数据质量:数据的准确性、完整性、一致性、及时性等。

● 数据格式:数据的存储和表示方式,如CSV、JSON、XML等。

● 数据来源:数据的获取渠道,可能来自内部系统、外部供应商、公开数据源等。

● 数据获取:收集数据,包括数据采集的方法和工具。

● 数据处理:对数据进行清洗、转换、分析等操作,以满足特定的需求。

● 数据存储:数据的存储方式有数据库、数据仓库、云存储等。

● 数据安全:确保数据的安全性,包括数据加密、访问控制等。

● 数据隐私:遵守相关的隐私法规,保护个人和敏感数据不被滥用。

● 数据使用:数据如何被利用,包括数据分析、报告生成、决策支持等。

● 数据共享和交换:在不同的系统或组织之间共享数据的需求。

● 数据生命周期管理:数据从创建、使用到销毁的整个周期的管理。

数据需求的明确和准确对于确保项目成功和业务流程的顺畅至关重要。在项目规划和执行过程中,通常会通过数据需求分析来确定和细化这些需求。

2.数据需求的主要来源

数据需求的主要来源是多元化且复杂的范畴,这些来源既涵盖企业内部运营和管理的各个方面(内部数据需求),也涉及外部合作伙伴、监管机构等外部因素(外部数据需求)。

(1)内部数据需求

● 业务部门需求:各业务部门(如市场营销、销售、客户服务等)根据其特定职能和需求,需要不同类型的数据来支持日常运营和决策制定。例如,市场营销部门需要市场趋势和消费者行为数据来优化营销策略;销售部门需要销售数据和业绩追踪来制定销售策略和预测未来趋势。

● 管理层决策支持:高层管理人员需要汇总和分析的数据来评估公司整体运营状况,以便做出战略决策。财务部门则专注于财务数据,用于预算规划、成本控制和财务分析。

● 内部流程优化:为了提高运营效率,企业内部流程改进项目通常需要数据来识别瓶颈、评估效果并推动持续改进。

● 技术研发与创新:技术团队在研发新产品、优化现有系统或测试新技术时,需要大量数据作为支撑,如用于机器学习模型训练、算法优化等。

● 安全与风险管理:安全团队需要数据来监控和识别潜在的安全威胁;风险管理团队则依赖数据来评估和减轻各种业务风险。

● 竞争对手分析:为了制定有效的市场策略,竞争情报部门需要收集和分析竞争对手的公开数据。

● 用户行为分析:产品团队通过分析用户行为数据,了解用户需求和使用习惯,以优化产品设计和提升用户体验。

(2)外部数据需求

● 合作伙伴、供应商或客户需求:这些外部实体在业务协同或合作过程中,可能需要企业提供某些数据以支持其决策或流程。例如,供应链数据共享、客户订单状态更新等。

● 法规与合规要求:外部监管机构(如政府机构、行业协会等)对特定行业或企业有严格的法规和合规要求,企业需要收集、整理并报告相关数据以满足这些要求。这些数据可能涉及财务报告、客户隐私保护、产品安全等多个方面。

● 外部监管需求:除了直接的法规合规外,外部监管机构还可能要求企业提供额外的数据以支持其监管工作,如风险监测数据、统计和调查数据等。这些数据有助于监管机构了解市场动态、评估行业风险并制定相应的政策。

3.数据需求的生命周期

数据需求的生命周期是指从识别数据需求开始,到这些需求被满足、使用、维护,直至最终退役的整个过程。这个过程通常包括以下几个主要环节:

1)需求识别:数据需求生命周期的起始阶段,涉及识别和定义业务或项目所需的数据类型、数据量、数据质量等。

2)需求分析:在这个阶段,对识别出的数据需求进行深入分析,以确定它们对业务目标的支持程度,以及实现这些需求所需的资源和技术。

3)需求规划:根据分析结果,制定满足数据需求的详细规划,包括时间表、预算、资源分配和技术选型。

4)需求定义:明确定义数据需求的具体细节,包括数据的结构、格式、来源、获取方式、存储需求等。

5)需求批准:将定义好的数据需求提交给相关利益相关者和决策者审批,确保需求与组织的目标和策略一致。

6)需求实施:在这个阶段,开始实际的实施工作,包括数据采集、数据集成、数据存储和数据管理等。

7)需求部署:将实施完成的数据解决方案部署到生产环境中,使其可以被业务流程和用户使用。

8)需求监控和维护:在数据需求部署后,需要对其进行持续的监控和维护,确保数据的质量和性能满足业务需求。

9)需求优化:根据使用反馈和业务发展,对数据需求进行优化,提高效率和效果。

10)需求变更管理:随着业务环境的变化,数据需求可能会发生变化,需要进行变更管理,以适应新的需求。

11)需求退役:当数据需求不再支持业务目标或被新的解决方案替代时,需要进行退役处理,包括数据的归档、删除或转移。

12)需求回顾和总结:在数据需求生命周期的最后阶段,对整个过程进行回顾和总结,以积累经验并改进未来的数据需求管理。

数据需求的生命周期是一个动态的过程,组织需要不断地评估和调整以适应组织内外部环境的变化。通过有效的数据需求管理,组织可以确保数据资源得到合理利用,支持业务的持续发展和创新。

4.数据需求、数据资源架构和数据资产架构的关系

数据需求、数据资源架构和数据资产架构是组织数据管理的三个关键组成部分,它们相互关联并共同支撑组织的数据战略和业务目标。数据需求、数据资源架构和数据资产架构的关系如图4-2所示。

(1)数据需求与数据资源架构的关系

● 指导和规划:数据资源架构提供了一个框架,帮助项目团队理解如何收集、存储和使用数据来满足特定的业务需求。

● 确保一致性:数据资源架构通过定义统一的数据模型和标准,确保数据需求的一致性,避免数据的不一致性和冗余。

图4-2 数据需求、数据资源架构和数据资产架构的关系

● 支持决策:数据资源架构使管理层能够访问和分析数据,支持基于数据的业务和技术决策。

● 优化资源利用:通过数据资源架构,组织可以更有效地分配和利用数据资源,满足数据需求,同时减少浪费。

(2)数据资源架构与数据资产架构的关系

数据资源架构不仅关注数据的管理和使用,还包括数据的获取、存储、维护和保护。它定义了数据流、数据存储结构和数据访问方式。

数据资产架构则侧重于数据的价值和使用,包括数据资产的类型、内部使用需求、外部流通需求,以及数据资产如何转化为业务价值。

(3)数据需求与数据资产架构的关系

数据需求推动数据资产架构的发展,因为需求定义了数据资产的使用方式和价值创造的潜力。

数据资产架构通过识别和分类数据资产,支持数据需求的满足,并促进数据的内部使用和外部流通。

数据资源架构的支撑作用如下:

● 数据质量管理:数据资源架构包括数据类型、数据质量要求和数据安全要求,确保数据的准确性和可靠性。

● 法规遵从需求:数据资源架构支持组织遵守数据保护法规和其他相关法律要求。

● 数据体系建设:数据资源架构为数据体系的建设提供指导,包括数据的收集、整合和分析。

数据资产架构的转化作用如下:

● 数据资产类型:数据资产架构识别和分类数据资产,包括其内部使用和外部流通的潜力。

● 内部使用需求:数据资产架构支持数据在组织内部的使用,提高运营效率和决策质量。

● 外部流通需求:数据资产架构还考虑数据的外部价值,如数据共享、数据销售或数据合作。

数据资源架构与数据资产架构的共同点如下:

● 两者都支持数据治理,确保数据的质量、安全和合规性。

● 两者都促进数据的集成和共享,提高数据的可用性和价值。

● 两者都适应业务需求的变化,支持数据战略的持续演进。

数据资源架构与数据资产架构的不同点如下:

● 数据资源架构更侧重于数据的管理和维护;而数据资产架构更侧重于数据的价值实现和商业利用。

● 数据资源架构定义了数据的技术基础和操作流程;数据资产架构则关注数据如何为组织带来经济利益。

通过上述关系,我们可以看到,数据需求是推动数据资源架构和数据资产架构发展的基础,而这两个架构则是实现数据需求、优化数据管理和提升数据价值的关键工具。组织需要综合考虑这些要素,以确保数据战略的有效实施和业务目标的达成。

5.数据需求与数据资产需求

数据需求和数据资产需求是数据管理和数据资产化过程中的两个关键概念,它们之间存在密切的关系。本书5.2.1节详细介绍了数据资产需求。

(1)数据需求 在项目、业务流程或系统开发中,为了实现特定的目标或功能,对数据的具体要求。数据需求的明确和准确对于确保项目成功和业务流程的顺畅至关重要。

数据需求包括数据类型、数据量、数据质量、数据格式、数据来源、数据获取、数据处理、数据存储、数据安全、数据隐私、数据使用、数据共享和交换、数据生命周期管理等方面的要求。

(2)数据资产需求 在数据资源管理的基础上,组织为了实现业务目标、提高决策效率、增强市场竞争力等,对数据资产的具体要求和期望。它通常来源于组织内部的业务部门、数据分析团队、产品开发团队等,也可能来自外部市场、合作伙伴或客户。

数据资产需求包括业务决策支持、风险管理、产品开发与创新、市场营销与销售、客户关系管理、运营效率提升、合规性与数据治理等方面。

(3)二者的关系

● 数据需求是数据资产需求的基础。在定义数据资产需求时,需要识别和理解数据需求,以确保数据资产能够满足当前和未来的业务需求。

● 数据资产需求反映了组织对数据的商业价值和战略意义的认识,它指导数据资产的管理和利用,以实现组织目标。

● 数据需求管理有助于形成和优化数据资产,数据资产的有效管理又能够更好地满足数据需求,这是一个相互促进的过程。

● 数据需求的满足情况直接影响数据资产的质量和发展,数据资产的质量和多样性又决定了数据需求的实现程度。

在实践中,数据需求和数据资产需求应该通过统一的框架和流程来管理,以确保数据资源的有效治理和数据资产的价值最大化。通过这种方式,组织可以确保数据资产的持续增值,同时满足不断变化的数据需求。

一般将数据需求与数据资产需求统一放在数据资产需求中统一管理,这是为了构建一个高效、协同且可持续的数据生态体系,确保数据作为核心资产能够被有效识别、整合、治理、利用并保护。这一做法旨在打破数据资源孤岛,提升数据资源质量,加速数据资产价值变现,同时降低数据管理和使用的成本及风险,其具体意义如下:

● 数据标准化与一致性:在数据资产管理中统一管理数据需求,能够确保数据需求与数据资产的标准一致,避免不同部门或项目间因数据资产定义、格式、质量标准的差异而导致的误解和错误使用。这有助于提升数据资产的互操作性和可比性。

● 提升数据资产可见性与可访问性:将数据需求整合到数据资产管理中可以清晰地展现哪些数据资源已被识别为资产,哪些数据还存在缺口或需要优化。这不仅提高了数据资产的可见性,还使得相关人员能够更容易地找到并访问所需数据资产,促进数据的资产共享和利用。

● 优化资源配置与决策支持:统一的数据资产管理有助于企业更准确地评估数据资产的价值、分布和利用率,从而优化资源配置,避免重复建设和浪费。同时,基于全面、准确的数据资产信息,企业能够做出更加科学、合理的决策,支持业务发展和战略规划。

● 强化数据资产安全与合规:数据资产管理中包含了对数据安全的全面考虑,制定和执行严格的数据资产访问控制、加密、脱敏等措施,可以确保数据资源在采集、处理、存储、传输和使用过程中的安全性和合规性。同时,统一的数据资产管理也有助于企业更好地遵守相关法律法规和行业标准,降低合规风险。

● 促进数据治理与持续改进:将数据需求纳入数据资产管理范畴,有助于建立持续的数据治理机制。通过对数据质量、数据生命周期、数据权限等方面的持续监控和评估,企业可以及时发现并解决问题,推动数据质量的不断提升和数据管理的持续优化。

但是需要注意,在数据资源架构设计的初期阶段,数据需求的搜集与管理是至关重要的环节。这一过程不仅涉及对业务目标、流程以及用户需求的深入理解,还需要前瞻性地预见未来可能的数据使用场景和增长趋势。数据需求的搜集工作应当是多维度、全方位的,包括但不限于数据来源的确定、数据格式的规范、数据质量的期望、数据处理的需求以及数据安全的考量等。

为了确保数据需求的有效管理,企业需要建立一套科学的数据需求管理机制。这包括明确数据需求的提出、审批、变更和验证的流程,确保每一个数据需求都经过充分的讨论、评估和批准,以减少后期因需求不明确或变更频繁而导致的资源浪费和项目进度受阻。

同时,数据资源架构设计阶段还应注重数据需求与现有数据资产的匹配与整合。通过对现有数据资产的盘点和评估,企业可以识别出哪些数据需求已经得到满足,哪些还需要进一步开发或采购。这种匹配与整合的工作有助于优化数据资源的配置,避免重复建设和数据冗余。

此外,随着业务的不断发展和变化,数据需求也会随之调整。因此,在数据资源架构设计阶段,企业就需要考虑到数据需求的灵活性和可扩展性。通过采用模块化、可配置的设计思想,企业可以更容易地应对未来数据需求的变更和扩展,保持数据资源架构的稳定性和可持续性。

4.2.2 元数据

1.元数据的定义和内容

元数据(Metadata)是关于数据的数据,它描述了其他数据的特征、上下文、质量、来源等信息。元数据在数据管理和数据分析中起着至关重要的作用,它帮助组织理解和管理其数据。可以从数据需求中提取元数据,也可以利用元数据来表达各类数据需求。

元数据的特性如下:

● 描述性:元数据描述了数据的属性和特征,如数据类型、格式、来源等。

● 结构性:元数据定义了数据的组织结构,包括数据模型、关系和层次。

● 管理性:元数据支持数据的管理和维护,包括数据的版本控制、访问控制和质量保证。

● 技术性:元数据提供了数据的技术规格,如存储要求、处理算法和系统依赖性。

在各种理论中,关于元数据的说法并不相同。如果按照元数据使用场景对元数据进行分类,可分为以下四类:

● 业务元数据:描述数据的业务含义和业务上下文,如业务术语、业务规则等。

● 管理元数据:涉及数据管理过程的信息,如数据所有者、数据管理员等。

● 技术元数据:描述数据的技术方面,如数据存储、数据库结构、数据模型等。

● 操作元数据:描述数据操作和维护过程的信息,如数据备份、数据迁移等。

如果按照针对对象的类型对元数据进行分类,则可以把元数据分为以下两大类:

●结构化元数据:与数据的结构和组织相关的元数据,如表结构、字段定义等。

● 非结构化元数据:描述非结构化数据(如文本、图片、视频)的特征和上下文的元数据。

2.元数据的生命周期

元数据的生命周期指的是从元数据的创建、维护、使用到最终退役的整个过程,这个过程对于确保数据的完整性、可访问性和一致性至关重要。元数据的生命周期通常包括以下几个关键阶段:

(1)创建(Creation)当新的数据资源或资产被创建时,相应的元数据也需要被创建。这包括数据资源或资产的定义、结构、格式、来源、创建时间、创建者等基本信息。创建阶段还涉及确定哪些元数据是必需的,以及如何捕获和存储这些元数据。

(2)维护(Maintenance)随着数据资源或资产的更新和变化,元数据也需要相应地更新。这包括修改数据资源或资产的结构、更新质量信息、添加新的属性或字段等。维护阶段还包括定期检查元数据的准确性和完整性,以确保其反映当前数据的状态。

(3)使用(Usage)元数据的主要目的是被使用,以支持数据发现、访问、集成、治理等多种活动。

● 用户在查找、理解或使用数据资源或资产时,会依赖元数据提供的信息和上下文。

● 数据治理、安全、合规性等活动也依赖于元数据来确保数据资源或资产的质量和安全。

(4)退役(Retirement)当数据资源或资产不再需要时,相应的元数据也需要被退役。这通常发生在数据被删除、归档或迁移到另一个系统时。退役阶段需要确保元数据被正确地从系统中移除或标记为过时,以避免混淆或误导。

3.各种类型的元数据举例

(1)业务元数据

● 业务术语:业务领域中的专业术语和定义。

● 业务规则:业务逻辑和规则,如定价策略、折扣规则等。

● 业务流程:业务操作的流程和步骤。

举例:对于一个销售订单,业务元数据可以包括订单状态、支付条款、客户类别等。

(2)管理元数据

● 数据所有者:负责数据的个人或团队。

● 数据管理员:负责数据维护和更新的个人或团队。

● 数据质量标准:数据质量的评估标准和要求。

举例:一份财务报告的管理元数据包括报告所有者的姓名、最后更新日期、数据质量检查结果等。

(3)技术元数据

● 数据库元数据:数据库的名称、版本、表结构、索引信息等。

● ETL元数据:数据抽取、转换、加载过程中的步骤、转换逻辑等。

● 数据模型元数据:数据模型的层次结构、实体-关系模型等。

举例:一个数据库表的元数据包括表名、列名、数据类型、主键、外键等。

(4)操作元数据

● 数据备份信息:数据备份的时间、备份类型、备份位置等。

● 数据迁移记录:数据迁移的时间、源系统、目标系统等。

● 系统维护日志:系统维护的时间、维护内容、维护人员等。

举例:一个数据仓库的操作元数据包括上次数据加载的时间、数据来源系统、加载频率等。

(5)结构化元数据

● 数据库架构:数据库的架构设计,如模式、表、视图等。

● 字段属性:字段的长度、精度、是否允许为空等。

● 关系信息:表之间的关系,如一对多、多对多等。

举例:一个客户信息表的结构化元数据包括表中的字段名、字段类型、字段长度等。

(6)非结构化元数据

● 文件属性:文件的创建时间、修改时间、文件大小等。

● 内容描述:对文件内容的描述或摘要。

● 来源信息:文件的来源或作者信息。

举例:一张图片的非结构化元数据包括图片的拍摄日期、分辨率、使用的相机型号等。

元数据的管理对于确保数据的可访问性、可理解性和可用性至关重要。通过有效的元数据管理,组织可以提高数据质量,促进数据共享,并支持更好的决策制定。

4.元数据的作用

元数据的作用非常广泛,它在数据管理和数据分析中扮演着至关重要的角色。以下是元数据的一些关键作用:

● 数据理解:元数据提供了数据的上下文和含义,帮助用户理解数据的内容、来源和用途。

● 数据定位:通过元数据,用户可以快速定位到所需的数据资源,无论是在本地系统还是远程数据源。

● 数据访问控制:元数据记录了数据的访问权限和安全要求,有助于实施数据访问控制和保护数据隐私。

● 数据质量管理:元数据包含数据质量标准和数据质量评估结果,有助于监控和改进数据质量。

● 数据集成:元数据定义了不同数据源之间的映射和转换规则,支持数据集成和数据交换。

● 数据治理:元数据支持数据治理活动,提供了数据管理所需的信息,如数据所有者、数据责任、数据政策等。

● 数据维护:元数据记录了数据的维护历史和维护活动,有助于数据的持续维护和更新。

● 数据备份和恢复:元数据提供了数据备份和恢复所需的信息,如备份时间、备份位置、数据版本等。

● 数据生命周期管理:元数据记录了数据从创建到退役的整个生命周期,支持数据生命周期管理。

● 数据分析和报告:元数据提供了数据分析和报告所需的关键信息,如数据指标定义、数据计算方法等。

● 数据合规性:元数据记录了数据的合规性要求和合规性状态,有助于确保数据的合规使用。

● 数据可审计性:元数据提供了数据操作的审计线索,支持数据的可审计性和可追溯性。

● 数据共享和交换:元数据定义了数据共享和交换的规则和标准,促进了数据的共享和交换。

● 数据可扩展性:元数据支持数据资源架构的可扩展性,记录了数据模型的扩展规则和方法。

● 数据监控:元数据提供了数据监控所需的信息,如数据使用情况、性能指标等。

● 数据创新:元数据支持数据驱动的创新,提供了创新所需的数据信息和数据洞察。

● 技术选型和优化:元数据提供了技术选型和优化所需的信息,如技术性能、技术限制等。

● 沟通和协作:元数据促进了不同团队和部门之间的沟通和协作,通过共享元数据来达成共识。

总之,元数据是数据管理的基石,它为数据的获取、使用、维护和治理提供了关键的信息和支持。通过有效的元数据管理,组织可以提高数据的可用性、可理解性和价值。

5.元数据与数据资源架构/数据资产架构

元数据定义了数据资源架构中的关键信息,它为数据资源/资产架构提供了丰富的细节和上下文,帮助组织理解和管理其数据资源/资产,如图4-3所示。

图4-3 元数据与数据资源/资产架构

(1)元数据与数据资源架构的关系

● 定义和描述:元数据提供了数据资源架构的定义和描述,包括数据的结构、格式、来源和处理方式。它帮助组织理解数据资源的组成和特性。

● 资源目录:元数据是构建和维护数据资源目录的基础,该目录是组织内数据资源的索引,允许用户发现和访问数据。

● 数据治理:在数据资源架构中,元数据支持数据治理活动,如数据质量控制、数据安全和合规性管理。

● 数据集成:元数据定义了不同数据源之间的映射和转换规则,是实现数据集成和互操作性的关键。

● 技术基础:元数据为数据资源架构提供了技术基础,包括数据模型、数据流和技术接口等。

(2)元数据与数据资产架构的关系

● 资产识别:元数据帮助识别和分类数据资产,明确资产的业务价值和使用场景。

● 资产评估:通过元数据,组织可以评估数据资产的质量、风险和合规性,为数据资产的管理和优化提供依据。

● 资产跟踪:元数据记录了数据资产的创建、变更和使用历史,支持数据资产的跟踪和审计。

● 资产利用:元数据提供了数据资产的上下文信息,帮助用户更好地理解数据资产的使用方式和潜在价值。

● 资产生命周期管理:元数据支持数据资产从创建到退役的整个生命周期管理,包括数据资产的登记、发布、使用、退役等操作。

元数据是数据资源架构和数据资产架构的基石,它为数据的识别、描述、管理和利用提供了必要的信息和上下文。有效的元数据管理对于确保数据资源和资产的价值实现、风险控制和合规性至关重要。通过元数据,组织能够更好地理解和利用其数据资源,从而在数据驱动的决策和业务创新中获得竞争优势。

元数据管理是数据资源/资产架构管理不可或缺的一部分,它通过提供必要的信息和上下文,支持数据资源/资产的定义、识别、描述、管理和利用,确保数据资源和资产的价值实现、风险控制和合规性。 I4dHLysMbihgfnYE8VYJmotySo0IpuRvc1WtkTMAiRnws8tqL8ls5H0sH8I25Yyd

点击中间区域
呼出菜单
上一章
目录
下一章
×