关于数据质量,国际数据管理协会的《数据管理知识手册》中规定:“数据质量(DQ)既指与数据有关的特征,也指用于衡量或改进数据质量的过程。”
针对基于大数据的数据采集、分析、关联这套流程,如果从数据分析的角度来看数据质量,那么衡量指标应是确认当前数据特性能否满足我们进行数据分析或数据挖掘的需求。
基于这个视角,数据问题很有可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会对数据质量产生影响。
除此之外,数据的后续加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。
大数据分析是企业决策、风险偏好的“风向标”,如果数据质量无法满足企业的实际需求,那么大数据分析的结果就不准确,可能给企业带来严重影响甚至毁灭性打击。因此也可以说,数据质量决定了数据价值,数据价值与数据质量成正比,而企业收益则与数据价值正相关。
为避免出现企业经过上述一系列操作后却获得低质量数据的情况,企业需要制定明确的数据质量评估方法。
评估数据质量,可以从如下四个方面来考虑。
有了评估方向,还需要使用可以量化、程序化识别的指标来衡量。有了量化指标,管理者才有可能了解当前的数据质量,以及采取修正措施之后数据质量的改进程度。对于海量数据,由于数据量大、处理环节多,获取质量指标的工作不可能由人工或简单的程序来完成,因此需要程序化的制度和流程来保证,故而数据质量指标的设计、采集与计算必须是程序可以识别和处理的。
数据的完整性可以通过记录数和唯一值来衡量。比如,某类交易数据中,每天的交易量应该呈现出平稳的特点,平稳增加、平稳增长或保持一定范围内的周期波动。如果记录数量出现激增或激减的情况,则需要追寻出现这种情况的原因和环节,最终定位是数据出现了问题还是服务出现了问题。对于属性的完整性考量,可以通过空值占比或无效值占比进行检查。
数据一致性检验主要是检验数据与数据定义是否一致,可以通过合规记录的比率来衡量。比如,取值范围是枚举集合的数据,其实际值超出范围的数据占比;又比如,存在特定编码规则的属性值不符合其编码规则的记录占比;还有一些存在逻辑关系的属性之间的校验,比如,属性A取某特定值时,属性B的值应该在某个特定的数据范围之内等。以上情况下的数据一致性都可以通过合规率来衡量。
准确性问题可能存在于个别记录中,也可能存在于整个数据集中。准确性和一致性的差别在于一致性关注合规,表示统一,而准确性关注数据错误。因此,同样的数据表现,比如,数据实际值不在定义的范围之内,可能会有如下两种情况:如果定义的范围是准确的,则数据实际值完全没有意义,那么这属于数据错误;如果数据实际值是合理且有意义的,那么可能是范围定义不够全面的原因,因此不能认定为数据错误,而应该去修改数据范围定义。
数据及时性代表了数据世界与客观世界的同步程度。数据在不同的时间里在性质上具有很大的差异性,这个差异性影响着数据质量,随着时间的推移,数据质量会快速下降。数据的及时性,主要与数据的同步和处理过程的效率相关,数据及时性的评价方法一般为用技术手段获取每个数据处理节点过程的数据链路时间,通过抽样,计算统计指标,衡量时效,作为时效基准,并以此为基础衡量持续监控流程中的数据同步和处理过程的效率波动,对有显著波动的数据处理事件或过程节点进行优化,使数据从产生到可以查看的时间间隔持续处于业务可接受范围之内。
建立数据质量评价体系,可以对整个流通链条上的数据质量进行量化指标输出,以及后续进行问题数据的预警,使得问题一旦出现就会暴露出来,进而可以定位和解决问题,最终达到问题在哪个环节出现就在哪个环节解决的目的,避免将问题数据带到后端,导致数据质量问题扩大。
数据质量管理贯穿数据生命周期的全过程,覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等各个方面。数据源在不断增多,数据量在不断加大,新需求推动的新技术也在不断诞生,这些都给大数据下的数据质量管理带来了困难和挑战。在这里,我们仅针对基于大数据的数据采集、分析、关联部分进行相关论述。
通过有效的数据质量评估,辅以上述完整的大数据采集、分析和关联能力,即可实现对大数据流动的有效利用,以及获取高数据价值的数据集合所带来的商业分析及变现利益。因此,企业、机构和政府等可以通过收集、挖掘并利用这些庞大的数据完成看似不可能的事情。在这一领域技术力量、文化进步和利润收益的相交之处,有一件事情是可以确定的:数据越大责任越大,当大数据的体量越发庞大,通过技术能力我们能够持续从中获取高质量、高价值的知识和情报时,如果这些数据遭到不当利用甚至泄露,那么其造成的危害往往也是极大的,第2章将就此类案例进行举例论述。