数据资产通常是指那些可以通过分析来揭示价值、支持企业决策制定、优化企业流程、预测行业的未来趋势或产生更大的经济价值的数据集。这些数据可能是由企业自身产生的,也可能是从外部获取的(如社交媒体、第三方数据提供商、网络爬虫等),而且这些数据的格式多样,可能是结构化数据、半结构化数据或者非结构化数据,如图1-1所示。
图1-1
数据资产的关键特性是其可用性、可访问性、完整性、可靠性和安全性,通常这些特性共同决定了数据的质量和价值,如图1-2所示。
图1-2
· 可用性:指的是数据资产需要能够被使用。如果无法被使用,那么数据资产就无法体现其核心价值,而数据资产的可用性需要依赖数据质量、数据监控等很多关键要素的支撑。
· 可访问性:指的是数据资产需要能够被数据的使用者访问。如果无法被访问,那么数据资产会显得没有任何价值,因为只有能被访问,才能挖掘出数据的更多价值。
· 安全性:指的是数据资产需要保障其数据的安全性,防止数据被泄露、丢失或者被黑客攻击篡改等。
· 可靠性:指的是数据资产一定是可靠的,否则无法用于企业的决策和判断。如果数据不可靠,那么通过数据做出来的决策肯定也不会可靠,从而会给企业带来巨大的损失。
· 完整性:指的是数据资产中的数据一定是完整的。如果数据不完整,那么获取到的信息也不会完整,不完整的数据是无法用于数据分析、数据决策的。
但是在现实生活中,数据资产的价值往往不会立即显现。相反,它们通常需要适当的管理和分析,才能转换为实用的价值或带来直接的经济回报。如图1-3所示,例如,一个顾客在京东的商品订单数据,在原始形态下可能是一系列购买商品的交易记录,但是当通过数据分析揭示出消费者的行为模式和偏好时,这些数据就转换为有助于推动销售和制定营销策略的宝贵数据资产。
图1-3
除用于内部决策支持外,数据资产还可以成为一种可以对外出售或交换的商品。随着数据市场的发展,越来越多的公司认识到通过共享或出售其数据资产可以获得额外的经济收入,或者与合作伙伴交换数据以获取共同价值。
随着技术的进步,尤其是大数据以及人工智能和机器学习的发展,数据资产的潜在价值正在急剧增加。通过数据挖掘以及机器学习的模型训练,可以进一步发掘数据的更高价值。
以下是数据资产的几种常见类型。
· 结构化数据:这类数据通常存在于预定义的数据模型中,它们格式清晰、易于搜索和组织。结构化数据通常存储在关系数据库中,如SQL数据库,这类数据库支持复杂的查询、报告和分析。例如,客户信息、销售记录、库存数据和金融交易数据等,都可以以结构化的形式存储。通常它们以表格形式存在,每一列代表一个数据字段,每一行代表一个数据记录,如图1-4所示。
图1-4
· 非结构化数据:非结构化数据没有预定义的格式或组织,因此更难以处理和分析。这类数据包括文本文档、PDF文件、电子邮件、视频、图像和音频文件,如图1-5所示。虽然处理起来更复杂,但非结构化数据通常提供更丰富的信息和见解,在机器学习和自然语言处理等领域尤其有价值。
· 半结构化数据:半结构化数据介于结构化数据和非结构化数据之间,它们可能不符合严格的数据库模型,但包含标签或其他标记来分隔语义元素,并使元素的层次结构可识别。XML和JSON是半结构化数据的典型例子,它们被广泛用于网络数据交互。
· 实时数据:实时数据是指需要立即处理的数据,以便快速做出响应或决策。这类数据在金融交易、网络分析、物联网(Internet of Things,IoT)设备监控和在线广告投放中非常常见。实时数据处理通常要求具有较高的技术能力,以便快速捕捉、分析和响应数据流。
· 时间序列数据:时间序列数据是按照时间顺序收集的数据信息,通常用于分析数据的趋势、周期性和季节性变化等,如图1-6所示。例如股票价格、气象记录和监控数据等都是时间序列数据的典型例子。
· 地理空间数据:地理空间数据含有关于地理位置的信息,这类数据在规划、物流和位置分析中非常关键。例如地图数据、卫星图像和GPS追踪数据都属于这一类型。
· 元数据:元数据是描述其他数据的数据,如图1-7所示,它可以包括文件大小、存储路径、创建日期、作者信息等。元数据有助于组织、管理和检索数据,通常是数据管理、数据仓库、数据湖中不可或缺的核心组成部分。
图1-5
图1-6
图1-7