购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1-6 大量的数据是宝藏

大数据、3个V

3个V

数据科学之所以如此引人注目,是因为数据越来越多,已经超过了人类的处理极限。随着互联网的发展,许多人开始发送信息,而随着物联网等技术的发展、传感器的出现,各种设备也开始传播信息(图1-10)。

这种大量的数据被称为“ 大数据 ”。普通计算机难以处理大数据。大数据所具有的“Volume”“Velocity”“Variety”的特点被称为“ 3个V ”。

Volume顾名思义就是大量的意思。数据更新频繁,不能堆积,必须实时加以处理(Velocity)。Variety是多种多样的意思,那是因为所要处理的数据不仅有结构化数据,也有非结构化数据(表1-2)。

人们通过对这样的大数据的分析,有可能获得以往未知的知识与见解。

4个V、5个V

当然,现在也有在“3个V”的基础上加上“Veracity”(正确性)的“4个V”、再加上“Value”(有价值的)的“5个V”(图1-11)。Veracity一词所要表达的是,仅仅只有大量的数据是没有意义的,摈弃无用数据,将具有高度可信性的数据聚集在一起才有意义。Value一词所要表达的是, 仅仅拥有数据是没有意义的,通过数据分析等手段解决社会问题,创造新的价值才有意义

未来,我们需要再加上“Virtue”(道德)这个V,也就是说,考量处理数据的伦理观的时代已经到来。

图1-10 数据不断增加的原因

表1-2 支撑3个V的技术

图1-11 5个V的示意

要点

大数据不仅容量大,而且处理速度快,数据种类繁多。

如今,除数据量以外,人们对大数据的准确性、价值等方面也开始有了追求。 JAbBsZA1z3MaPej3PCYNTqz7BEEYzBgaId4rlXmbUyms4Lb5tiVgp9wYPPLK8JKJ

点击中间区域
呼出菜单
上一章
目录
下一章
×