购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.6 数据资源质量

在数据产品开发中,数据资源的质量至关重要,它直接影响产品的决策准确性、用户信任度、性能效率和市场竞争力。高质量的数据可以降低错误和风险,减少维护成本,同时促进产品创新和用户体验的提升。此外,它还有助于确保法律合规性,支持数据的可共享性和互操作性,为自动化和智能化功能提供坚实基础,从而推动数据产品的可持续发展和长期成功。

2.6.1 数据资源质量问题的来源

数据资源质量问题的来源多种多样,主要来源于数据录入时的疏漏、数据在不同系统间传输时的不一致性、缺乏统一的数据定义和格式标准,以及数据的安全性和隐私保护措施不足。这些问题可能独立存在,也可能相互交织,共同影响数据的准确性、完整性和可靠性等,进而对组织的决策制定和业务流程产生负面影响。因此,识别并解决这些质量问题对于确保数据资源的有效利用至关重要。

数据资源质量问题的来源可以从多个角度进行分析,以下是一些常见的问题来源:

● 人为错误:数据录入时的疏忽、误解或缺乏培训都可能导致数据资源质量问题。

● 系统设计缺陷:未执行参照完整性、唯一性约束,数据模型不准确,数据映射或格式不正确,主数据管理薄弱等都可能引起数据资源质量问题。

● 数据处理错误:引用的数据源错误或变更、系统文档不完整或过时、业务规则过时、数据结构变更等,均可能导致数据处理错误。

● 数据输入缺乏标准:缺乏数据质量管控导致输入数据不一致和混乱,业务流程规则变更、业务流程执行混乱等导致数据错误。

● 数据过时:数据未能及时更新,导致数据老化,失去时效性。

● 数据不一致性:数据在不同系统或数据库中存在差异,可能是由于缺乏统一的数据模型或同步机制不完善。

● 缺乏数据素养:由于缺乏数据素养,员工可能存储错误的信息,不理解数据属性的含义,或不了解数据更新的影响。

● 技术问题:如数据存储问题、数据迁移错误、数据安全措施执行不力等,都可能导致数据资源质量问题。

● 管理问题:领导层对数据管理不重视,企业缺乏数据管理层面的资源投入,未建立企业级数据质量管理闭环。

● 数据质量问题的识别不足:缺乏有效的数据质量监控和反馈机制,导致问题不能被及时发现和解决。

2.6.2 数据资源质量的关键要素

数据资源质量的关键要素集中在构建一个综合性的管理框架,这个框架涵盖人员、度量、流程、技术和框架五个核心部分。人员要素强调专业团队在数据质量管理中的作用,度量要素关注数据质量的评估标准和指标,流程要素确保数据从采集到维护的每个环节都有明确的操作步骤,技术要素则依赖于先进的工具和系统来支持数据管理,而框架要素提供了组织内部遵循的策略和方法。这些要素共同构成了数据资源质量管理的核心,它们相互依赖并协同工作,以确保数据在整个组织中被高效、有效地管理,满足特定的业务需求和合规要求。

(1)人员

涉及数据质量管理的专业团队,包括首席数据官、数据分析师、数据管理员、数据治理专家以及其他人员,任命不同资历和级别的数据专业人员,以确保对数据质量计划的投资得到回报。

(2)度量

指用于评估数据质量的指标和标准,如准确性、完整性、一致性、及时性等,这些指标和标准帮助组织了解数据的当前状态并确定改进方向。

(3)流程

包括数据质量管理中涉及的一系列活动和步骤,从数据的采集、存储、清洗、分析到维护,确保数据在整个生命周期中的质量和合规性。

(4)技术

涉及用于支持数据质量管理的工具和技术,包括数据质量监测工具、数据清洗和处理软件、数据仓库和数据库管理系统等。

(5)框架

指的是组织内部实施的系统化方法和政策,用于指导数据质量管理的实践,包括数据治理政策、数据质量标准和数据使用指南。

2.6.3 数据资源质量评估

数据资源质量评估是一个动态的、用户驱动的过程,它允许用户根据自己的需求和标准来定义和实施数据质量检查计划。这些计划针对不同的数据资源,执行定期或实时的数据质量检验任务。通过这种方式,可以生成全面的数据质量监控报告,该报告不仅提供了整个组织的数据资源质量概览,还深入展示了各个维度的详细质量情况。

1.数据资源质量评估维度

大体上,组织可以通过准确性、完整性、一致性、唯一性和时效性五个维度构建数据质量指标体系,实现对数据质量的量化评估。通过这些维度的评估,组织可以更好地理解自己的数据资源并提升其质量,从而提高数据的可靠性和有效性,支持更准确的业务决策。

(1)准确性(Accuracy)

定义:准确性是指数据值与确定的正确信息源的一致程度。

数据应正确反映其代表的实体或事件,避免错误或偏差。例如,一个员工的姓名在人事系统中应该是准确无误的,没有错误或近似值。

(2)完整性(Completeness)

定义:完整性用于度量哪些数据丢失了或者哪些数据不可用。

数据应包含所有必要的信息,没有遗漏关键字段或记录。例如,客户数据库中每个客户的联系电话和电子邮件地址都应被记录,没有空白字段。

(3)一致性(Consistency)

定义:一致性用于度量哪些数据的值在信息含义上是冲突的。

数据在不同来源和系统中应保持一致的格式和定义。例如,如果公司内部所有数据库都使用相同的国家代码格式(如ISO 3166-1 alpha-2),则可以保证数据的一致性。

(4)唯一性(Uniqueness)

定义:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。

确保数据集不包含重复记录,每条数据在数据集中都是独一无二的。例如,在学生信息系统中,每个学生的身份证号应该是独一无二的,以避免混淆或错误地累计信息。

(5)时效性(Timeliness)

定义:时效性指信息相对于真实实体而言的新鲜程度。

数据应及时更新,以反映最新的信息状态。例如,库存管理系统需要实时更新,以反映最新的产品销售和补给情况。

2.数据资源质量评估步骤

数据资源质量评估的实操步骤是将理论维度落实为具体行动计划的关键,能够更系统地审视和量化数据质量,而且能够确保数据在整个生命周期中满足业务需求和合规标准。以下是数据资源质量评估的步骤。

(1)需求分析

明确评估的目的和业务需求,了解数据将如何被使用以及业务对数据质量的具体要求。

(2)确定评价对象及范围

明确将要评估的数据集的范围和边界,包括数据集在属性、数量、时间等维度的具体界限。

(3)选取质量评估维度及评价指标

根据业务需求选择适当的质量评估维度(如准确性、完整性、一致性、唯一性和时效性)和评价指标。

(4)确定质量测量方法和工具

为每个评价指标确定合适的测量方法和工具,可以是定性的或定量的,或者是两者的结合。

(5)实施质量评估

根据前面步骤确定的评估方案,对数据集进行实际的评估,收集数据并进行分析。

(6)结果分析并报告

对评估结果进行分析,确定数据集是否满足预定的质量标准,并编写评估报告,报告中应包括评估结果、分析以及改进建议。

(7)制订数据质量改进计划

根据评估结果制订数据质量改进计划,包括技术改进、流程优化和人员培训等。

2.6.4 数据资源质量评分

数据资源质量评分是一个系统化且细致的过程,旨在通过评估数据的多个关键维度来确定其整体质量。不同组织、行业或应用需求可能会采用不同的评分方法和标准。以下是一种广泛推荐的数据资源质量评分方法。

首先,通过加权平均的方式,对数据的父级对象(如库对表、表对字段)进行评分。在单个规则对象(如库、表、字段)的评分中,依据5个核心质量维度进行划分,每个维度的权重可能会根据不同的应用场景进行调整。

数据资源质量评分的计算公式为:∑维度权重×维度分数/维度总数(加权取平均值)。

在评分的初级阶段,可以采取正向加分机制,即当规则运行通过时,对应维度即获得加分。而在后期阶段,可以转换为负向减分机制,即规则未通过时,对应维度将被减分。最终的得分可以通过softmax算法进行归一化处理,得到一个介于0到1之间的小数,随后根据用户设定的满分进行放大,以适应不同的评分标准。

以数据库A为例,假设它包含两张表,每张表有两个字段,且对数据库A执行了完整性扫描。如果在扫描中发现每张表各有一个字段为空,那么:在正向加分机制下,空字段的完整性得分为0,非空字段的得分为1;在负向减分机制下,空字段的完整性得分为1减去1,即0,非空字段保持得分为1。据此,可以计算出单张表的完整性得分为(0+1)/2=0.5。进一步地,数据库A的库完整性得分为两张表得分的平均值,即0.5。

若其他维度尚未进行评分,则暂时假定它们的得分为满分。最终,结合每个维度的得分和相应的权重,可以计算出数据资源的综合质量评分。 Op+oo/UZlabpHjPGb4R0SWR/ZdMZJByxjttql9IDtrWFEoHPUS1yrxNZ2F6Br+XT

点击中间区域
呼出菜单
上一章
目录
下一章
×