购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 结构化和非结构化数据

2.1.1 结构化、半结构化与非结构化数据

在数字化世界中,所有的数据归根结底是离不开应用的,没有投入实际应用的数据不是真正意义上的数据,脱离应用去谈数据分类有纸上谈兵之嫌。从数据的应用来讲,数据主要可以分为结构化数据、半结构化数据和非结构化数据。根据IDC的报告《2021—2025年全球数据及存储领域结构化和非结构化数据预测(2021年7月)》,超过90%的现有数据是非结构化数据,并且在过去十年中这一比例大体保持不变。然而,随着元数据的增加,越来越多的非结构化数据被“驯服”并进入结构化数据范畴。

其中有一个关键的驱动因素,那便是新型软件的出现,它使得非结构化数据的内容能够得到分析并提供背景信息。举例来说,视频分析软件可以对文件中的图像进行标记,并赋以特定的索引以便存储和搜索。这听起来也许稀松平常,实现起来却有诸多挑战,不过这意味着非结构化数据会变得极具价值。

下面先来更具体地了解结构化数据和非结构化数据的定义。结构化数据是高度组织和整齐格式化的数据,它是可以放入表格和电子表格中的数据类型。与非结构化数据相比,结构化数据是两者中人们更容易使用的数据类型。非结构化数据是指原始格式的信息,它通常驻留于采集的源头或附近。非结构化数据代表着采集的所有原始数据类型,包括尚未编目或分析的数据。而结构化数据则是有组织的定量数据,其中最为常见的是数字数据和文本数据,它们以某种标准格式存在于文件或记录的固定字段中,电子表格或关系数据库中驻留的信息是结构化数据的典型例子。这种类型的结构使得我们在查找特定数据或信息组时能够更为简捷、迅速。

非结构化数据也称为定性数据,也就是说它只是观察或记录的信息。举例来说,工厂的物联网(IoT)传感器采集设备性能方面的数据,然后,这些信息被发送至服务器,并以非结构化的格式进行存储,例如PDF和视频文件。

非结构化数据的其他例子还包括卫星照片、地理位置信息、天气报告、患者生物信号数据,以及尚未以有组织的方式标记或编目的视频图像。它们的共同点是数据均为被动采集和传输,没有预定义的组织格式。当非结构化数据作为海量数据集的一部分进行审查和理解时,它非常有助于发现大规模的发展趋势和构建预测模型,但为了业务目的而进行搜索和分析却比较困难。

还有另外一种数据,游离于结构化数据和非结构化数据之间,称为半结构化数据,它并不符合关系数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,数据的结构和内容混在一起,没有明显的区分。简单地说,半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据,例如,HTML、JSON、XML文档和一些NoSQL数据库等就属于半结构化数据的范畴。

2.1.2 结构化数据和非结构化数据的差异

结构化数据和非结构化数据之间的主要区别在于格式。非结构化数据以其原生格式存储,例如,PDF、视频和传感器输出。结构化数据严格以预定义的形式呈现,或者带有描述它的预定义的内容,以便轻松置入表单、电子表格或关系数据库。

非结构化数据通常存放于数据湖。所谓数据湖本质上是一个以各种格式存储原始数据的存储库。结构化数据则驻留于数据仓库,这种存储库只接受按照预定义规范格式化的数据。数据湖是一个存储非结构化数据的存储库,但它也可以存储结构化数据,而数据仓库只能存储有组织和格式化的结构化数据。

无论是在数据湖中还是在数据仓库中,信息都是存储于某种类型的数据库。其主要区别在于:结构化数据存储在关系数据库中,以结构化查询语言(SQL)、PostgreSQL、MongoDB等组织格式按行列进行存储。这些格式使得用户或机器搜索、整理和处理结构化数据变得非常简便。相比之下,非结构化数据则存储在NoSQL这样的非关系数据库中。

2.1.3 数据的处理工具

在分析方式以及处理和操作所需的工具和人员方面,结构化数据以及非结构化数据也有所不同。非结构化数据通常借助数据堆叠、数据挖掘等技术进行分析,这些技术可以处理元数据并得出较为一般性的结论。结构化数据则多采用数学方法进行分析,例如,数据分类、聚类和回归分析。在工具和技术方面,结构化数据比较便于管理和使用分析工具。用于处理结构化数据的工具包括关系数据库管理系统(RDBMS)、客户关系管理(CRM)、联机分析处理(OLAP)和联机事务处理(OLTP)等。而能够处理多种格式的大型数据集的软件,通常用于管理和分析非结构化数据。用于管理非结构化数据的工具包括NoSQL数据库管理系统(DBMS)、AI驱动型数据分析工具以及数据可视化工具等。

非结构化数据通常需要由训练有素的专家进行管理,并且相较于结构化数据,其软件处理工具也须具备更高级的AI和预测建模功能。机器学习便是用于分析非结构化数据的技术策略之一。

2.1.4 结构化与非结构化如何转换

结构化数据和非结构化数据并非对立的。两者之间有差别,但也是可以相互转换的。非结构化数据可以转换为结构化数据,这不是偶然性的,而是数据应用的必然性、现实性的过程,这对于挖掘数据潜能、实现数据的应用价值意义非凡。非结构化数据不是那么容易组织或格式化的,收集、处理和分析非结构化数据也是一项重大挑战。

根据IDC预测,2026年全球数据圈将达到221ZB,而这些数据中大部分是非结构化数据,非结构化数据的治理以及应用已经成为决定企业数字经济发展速度的重要因素。因此,非结构化数据向结构化数据的转变成为很多企业孜孜以求的攻关重点,许多机构也投入这项研究中,很多企业竭力保留了各种客户数据、业务数据、内部流程以及运营数据等,但是它们的数据科学家发现将这些裸数据进行清理以及分类,然后变成商业智能以及分析平台处理的内容却并非易事,需要使用高深的技术和昂贵的工具,并且非常耗时耗力。

中国互联网行业正处于高速发展期,释放非结构化数据背后的价值成为国内互联网企业角逐的目标。随着越来越多的非结构化数据进入结构化IT环境,尤其是来自于大量物联网设备的流媒体数据和大量的标记视频数据,机构有机会将这些数据转换为信息和知识。具有远见卓识的国家和企业机构可以从中获取全新的、创新的洞察力,以推出新产品和新服务,从而充分挖掘这口蕴藏丰富的智慧之井。 JEZZmcOgdsCmlmc8zpWldbxZP3FGCQ2Iiz7WeH7iqSAqL2Mbp8y8wppFvoNws0wV

点击中间区域
呼出菜单
上一章
目录
下一章
×