购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

非结构化数据

【导读】 非结构化数据就是除结构化数据之外的一切数据。

相对于结构化数据而言, 非结构化数据 (unstructured data)的数据结构不规则或不完整,它不符合任何预定义的模型。简单地说,非结构化数据就是字段可变的数据。

非结构化数据

非结构化数据无法使用数据库的二维逻辑表来表现,也没有像结构化数据那样统一的查询语言。事实上,每一种存储非结构化数据的系统都有自己特有的查询语言。非结构化数据可以是人为生成的也可以是机器生成的,可以是文本的也可以是非文本的。

典型的人为生成的非结构化数据一般来自如下渠道。

■文本文件:文字处理文件、电子表格文件、演示文稿、日志等。

■社交媒体:来自新浪微博、微信、QQ、脸书、推特、领英等平台的数据。

■网站:YouTube、Instagram、照片共享网站等平台的数据。

■移动数据:短信、位置等。

■通讯:聊天、即时消息、电话录音、协作软件等。

■多媒体:MP3、数码照片、音频文件、视频文件等。

■业务应用程序:MS Office文档等生产力应用程序。

典型的机器生成的非结构化数据一般来自如下渠道。

■卫星图像:天气、地形、军事活动等数据。

■科学数据:石油和天然气勘探数据、空间勘探数据、地震图像数据、大气数据等。

■数字监控:监控照片和视频等。

■传感器数据:交通、天气、海洋传感器等。

世界上大多数的数据都是以非结构化数据的形式存在的,如何收集、处理和分析这些非结构化数据是一项重大挑战。例如,在很多知识库系统中,为了查询大量积累下来的文档,需要从PDF、Word、Rtf、Excel和PowerPoint等格式的文档中提取描述文档的文字信息,这些描述性的信息包括文档标题、作者、主要内容等,这就是非结构化数据的采集过程。

目前,对结构化数据的处理存在成熟的分析工具,但用于挖掘非结构化数据的分析工具仍处于萌芽和发展阶段。结构化数据和非结构化数据的区别,除了应分别存储在关系型数据库和非关系型数据库中之外,还在于分析的便利性不同。

半结构化数据

在结构化数据和非结构化数据之间,还存在一种半结构化数据类型,其处理的便利性介于结构化数据与非结构化数据之间。

半结构化数据 ,虽不完全符合关系型数据库的模型结构,但包含相关标记,可以用来分隔语义元素以及对记录和字段进行分层。半结构化数据常见的类型有日志文件、XML文档、JSON文档、电子邮件(Email)等。比如,Email由于其元数据具有一些稳定的内部结构,存在一定程度的结构化,但是其消息字段是非结构化的,传统的分析工具无法解析它。因此,我们可将其称为半结构化数据。

一起来看下为什么电子邮件属于半结构化数据。

圣诞节快到了,小美妈妈决定给认识的小伙伴们都发一封祝福的电子邮件。每封电子邮件都必须填写邮箱名称、收件人、发件人等信息,这些信息都有固定的格式。例如,收发邮箱名称中都必须有@符,这些就是结构化的信息。然而,针对每位朋友,小美妈妈想送去的圣诞祝福是不一样的,需要用不一样的文字语言进行表达,这些文字就写在邮件的正文部分。这些洋洋洒洒的文字相较于前面的内容,形式是比较自由的,属于非结构化数据。

事实上,数据是结构化的还是非结构化的,并没有非常严格而明确的界限,取决于使用者要怎么去分析和使用这个数据。以电子邮件来看,如果使用者并不关心邮件的正文内容,即把正文都看成是文本,那么整个邮件都可以认为是结构化的。但如果是想从邮件正文中挖掘出某些有用的信息,正文文本就是非结构化的。

【扩展概念】

非关系型数据库: 它的出现是为了弥补关系型数据库因为事务等机制带来的对海量数据、高并发请求的处理在性能上的欠缺。具有如下优点。

■易扩展。虽然非关系型数据库种类繁多,但由于去掉了关系型数据库的关系特性,数据之间无关系,这样就非常容易扩展,无形之间也在架构层面带来了可扩展的能力。

■大数据量与高性能。非关系型数据库都具有非常高的读写性能,在大数据量下也表现优秀,这同样得益于它的无关系性,数据库结构简单。 cG1XP/VUfyQSsCVi8obXxLD8ol35f/L6zZmQry/JkcyJsf1kzMR6qeuTD/htB0OB

点击中间区域
呼出菜单
上一章
目录
下一章
×