在当今这个数据驱动的时代,数据已成为企业运营、决策制定乃至社会发展的重要驱动力。而数据分类作为数据管理领域的核心环节,不仅是优化数据存储、提升数据访问效率的关键,更是保障数据安全、促进数据价值挖掘的前提。
根据国家标准GB/T 38667—2020《信息技术 大数据 数据分类指南》,数据可以从技术选型、业务应用和安全隐私保护三个维度进行分类。
(1)技术选型维度
● 按产生频率可划分为:每年更新数据、每月更新数据、每周更新数据、每日更新数据、每小时更新数据、每分钟更新数据、每秒更新数据、无更新数据等。
● 按产生方式可划分为:人工采集数据、信息系统产生数据、感知设备产生数据、原始数据、二次加工数据等。
● 按结构化特征可划分为:结构化数据,如零售、财务、生物信息学、地理数据等;非结构化数据,如图像、视频、传感器数据、网页等;半结构化数据,如应用系统日志、电子邮件等。
● 按存储方式可划分为:关系数据库存储数据、键值数据库存储数据、列式数据库存储数据、图数据库存储数据、文档数据库存储数据等。
● 按稀疏程度可划分为:稠密数据和稀疏数据。
● 按处理时效性可划分为:实时处理数据、准实时处理数据和批量处理数据。
● 按交换方式可划分为:ETL(Extract-Transform-Load,提取、转换、加载)方式、系统接口方式、FTP(File Transfer Protocol,文件传输协议)方式、移动介质复制方式等。
(2)业务应用维度
● 按产生来源可划分为:人为社交数据、电子商务平台交易数据、移动通信数据、物联网感知数据、系统运行日志数据等。
● 按业务归属可划分为:生产类业务数据、管理类业务数据、经营分析类业务数据等。
● 按流通类型可划分为:可直接交易数据、间接交易数据、不可交易数据等。
● 按行业领域分类可划分的类别见GB/T 4054—2017。
● 按数据质量可划分为:高质量数据、普通质量数据、低质量数据等。
(3)安全隐私保护维度
按数据安全隐私保护维度可划分为:高敏感数据、低敏感数据、不敏感数据等。
但是要注意,在实际的组织(政府、企业、机构等)中,常见的数据分类方法可能有所不同。下面介绍几种组织中常见的数据分类方法及其分类结果。
组织的数据按结构化特征可以分为以下几类:
● 结构化数据:具有固定格式和模式的数据,易于存储在数据库中,如数字、日期等。这类数据常见于金融交易记录、客户数据库等。
● 非结构化数据:没有固定格式的数据,如文本、图像、音频和视频。这类数据内容丰富,但处理和分析难度较大。
● 半结构化数据:介于结构化和非结构化数据之间,具有一定的格式但不够规范,如XML、HTML等。这类数据需要特定的解析方法来提取有用信息。
组织的数据按使用场景可以分为两大类:
● OLTP(OnLine Transaction Processing,联机事务处理)系统中的数据,即企业业务运营及管理过程中产生的数据,一般为实时数据,支撑业务运行使用。一般可以把OLTP系统叫作业务域。
● OLAP(OnLine Analytical Processing,联机分析处理)系统中的数据。企业为了满足内部决策需求或者数据流通需求,将OLAP等系统中的数据汇聚、整合、治理、建模,供数据分析或者数据挖掘使用。一般可以把OLAP系统叫作分析域。
OLTP系统主要用于处理日常业务操作,如订单处理、库存管理、财务交易等。OLTP系统的设计重点在于快速响应用户请求,支持高并发的事务处理,确保数据的一致性和完整性。OLAP系统主要用于数据仓库和决策支持系统,支持复杂的分析查询和报告生成。OLAP系统的设计重点在于快速读取大量数据,支持数据的多维分析和聚合计算。两者的区别如图1-3所示。
图1-3 OLTP和OLAP的区别
简而言之,OLTP系统关注事务处理的速度和效率,而OLAP系统关注数据分析的深度和广度。两者在数据库设计、查询处理和性能优化方面有明显的区别。
组织的数据按权利所属可以分为内部数据和外部数据两类,这两类数据构成了组织进行数据分析和决策的基础,如图1-4所示。这两种数据各有特点和价值,对组织的数据战略和业务发展都具有重要影响。
图1-4 组织的数据按权利所属分类
内部数据是组织在日常运营和管理活动中自然产生的数据。这类数据紧密关联组织的业务流程、客户互动和管理决策,通常包括以下内容:
● 人力资源数据:员工的个人信息、职位、薪酬、绩效评估、培训记录等,这些数据有助于人力资源管理和决策。
● 财务数据:会计记录、预算、财务报表、审计报告等,这些数据对于财务管理和合规性至关重要。
● 库存数据:记录库存水平、库存流动、供应链状态等信息,对于库存管理和物流优化至关重要。
● 生产数据:生产过程中的产量、质量控制、设备运行状态等数据,有助于生产效率和产品质量管理。
● 营销数据:市场活动、广告效果、促销活动的数据,以及市场调研和分析结果,对于市场策略和营销决策非常重要。
● 研发数据:新产品开发过程中的设计文档、测试结果、研发进度等,对于产品创新和研发管理至关重要。
● 合同数据:与供应商、客户、合作伙伴等签订的合同条款、履行情况等,对于合同管理和风险控制非常重要。
● 通信数据:电子邮件、电话记录、会议记录等,这些数据有助于了解组织内部和外部的沟通情况。
● 合规性数据:组织遵守法律法规、行业标准的数据,如合规性检查报告、许可证信息等。
● 知识产权数据:专利、商标、版权等知识产权的相关信息,对于保护组织的创新成果和竞争优势至关重要。
● IT基础设施数据:组织IT系统的配置、性能、安全等数据,对于IT管理和系统优化非常重要。
● 员工反馈和满意度数据:通过调查问卷、反馈系统收集的员工反馈和满意度数据,有助于了解员工的需求和改进组织文化。
● 项目管理数据:项目计划、进度、资源分配、风险管理等数据,对于项目管理和资源优化至关重要。
● 销售和分销数据:销售渠道、分销网络、销售团队绩效等数据,有助于优化销售策略和分销网络。
内部数据的特点是与组织运营紧密相关,能够直接反映组织的业务状况和市场表现。通过对内部数据的深入分析,组织可以优化业务流程,提高运营效率,增强客户满意度,并发现新的业务机会。
外部数据是组织从外部环境获取的数据,这些数据来源多样,通常包括以下内容:
● 市场研究数据:行业报告、市场趋势分析、消费者行为研究等,帮助组织了解市场动态。
● 社交媒体数据:从社交媒体平台收集的数据,包括用户评论、情感分析、话题趋势等,可以洞察公众情绪和偏好。
● 经济指标数据:如GDP增长率、失业率、通货膨胀率等宏观经济数据,对经济环境的评估至关重要。
● 竞争对手数据:竞争对手的市场份额、产品信息、营销策略、财务状况等数据。
● 供应商数据:供应商的信誉、产品价格、供应能力、质量控制等信息。
● 政府和公共数据:政策变化、法规更新、公共统计数据等,对组织的战略规划和合规性有重要影响。
● 地理空间数据:如地图信息、地理位置、交通流量等,对于物流、零售业和城市规划等领域非常有用。
● 环境数据:气候变化、自然资源使用、污染水平等数据,对环境影响评估和可持续发展战略很重要。
● 人口统计数据:如人口数量、年龄分布、教育水平、收入水平等,对市场细分和产品定位有指导作用。
● 科技趋势数据:新兴技术的发展、科技创新、专利申请等,有助于组织了解技术进步和创新机会。
● 金融市场数据:股票价格、汇率、利率、投资趋势等,对金融决策和风险管理至关重要。
● 健康和医疗数据:如疾病流行率、医疗保健使用情况、健康指标等,对医疗保健行业和相关产品开发很重要。
● 教育数据:学生表现、教育政策、学术研究等,对教育机构和教育产品开发有指导意义。
● 国际数据:国际贸易、跨国公司的运营数据、国际关系等,对跨国经营和全球战略规划有帮助。
● 第三方数据服务:专业数据提供商提供的定制化数据服务,如消费者信用评分、市场调研结果等。
外部数据的特点是客观性和多样性,它们不受组织内部因素的影响,能够为组织提供更广阔的视角和信息。利用外部数据,组织可以更好地理解市场趋势,预测行业变化,制定战略规划,并进行风险评估。
组织的日常运作中会产生很多数据,按照组织的价值链条,这些数据可以分为两大类:核心业务活动产生的数据以及其他活动(例如人力、财务等)产生的数据。
一般来说,组织内部业务人员和管理人员会从自身的业务视角去看数据,会认为组织内部全都是业务和管理相关的数据。而从数据管理视角去看组织内部的数据,数据管理者会看到不一样的数据:对“物”的记录、对“事”的记录、对“事物”的计算、数据定义、数据规范取值等。业务视角与数据管理视角的数据分类如图1-5所示。
图1-5 业务视角与数据管理视角的数据分类
从数据管理视角看,组织中最常见的数据通常分为面向关系数据库的数据和面向时序数据库的数据两大类,如图1-6所示。
面向关系数据库的数据通常包括以下内容:
● 参考数据:用于将其他数据进行分类或目录整编的数据,规定参考数据值是几个允许值之一,如客户等级分为A、B、C三级。
● 主数据:关于业务实体的数据,描述组织内的“物”,如人、地点、客户、产品等。
● 交易数据(也称事务数据、业务数据):描述组织业务运营过程中的内部或外部“事”,如销售订单、通话记录等。
● 指标数据(也称统计分析数据):对组织业务活动进行统计分析的数值型数据,如客户数、销售额等。
● 元数据:描述数据的数据,帮助理解、获取、使用数据,分为技术元数据、业务元数据等多个种类。
图1-6 从数据管理视角看组织数据分类
在本书中,我们秉持一种包容而全面的数据管理观念,不特别突出某一类数据的管理优先级,因为无论元数据、主数据、参考数据、交易数据还是指标数据,都是组织宝贵的数据资源,它们共同构成了组织数据生态的基石。这些不同类型的数据虽各具特色,但在管理方法上却存在共通之处,其核心目标在于提供合规、高质量的数据,以促进数据在组织内部的高效使用与顺畅流通。
值得注意的是,尽管有些组织倾向于将元数据作为独立的管理对象,视其为数据管理的核心工具,但本书更倾向于将元数据的定义、管理与使用融入数据资源架构与数据资产架构的整体框架之中。这是因为元数据不仅是数据资源与数据资产的描述性信息,更是它们的定义、设计、理解和管理的基石。通过将元数据管理与数据资源架构、数据资产架构管理紧密结合,组织能够更系统、更全面地把握数据的全貌,从而实施更为精准和高效的数据管理策略。
此外,虽然主数据因其跨业务、跨流程的共享特性而常被单独管理,但本书强调,在数据管理的广阔视野下,主数据、参考数据、交易数据以及指标数据等各类数据均应被视为组织不可或缺的资源。它们各自承载着不同的业务价值,共同支撑着组织的运营决策与战略发展。因此,实施统一的数据管理策略,不仅能够简化管理流程,降低管理成本,还能促进各类数据之间的无缝对接与高效协同,为组织创造更大的数据价值。
面向时序数据库的数据通常是设备运行监测类数据、安全监测类数据、环境监测类数据等,如各类传感器定时发送的监测数据、定位数据。
说明:本书只讨论了结构化数据的分类和管理,至于非结构化数据与半结构化数据,由于其管理目前尚不成熟,常见的做法是:把非结构化数据转化为半结构化数据,利用提取的元数据,将半结构化数据按照结构化数据的管理方法进行管理。这就使得现在非结构化数据、半结构化数据的管理与结构化数据的管理类似。
上面的描述比较抽象,下面看一个具体的数据分类的例子,如图1-7所示。
图1-7 数据分类案例