购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

原材料

在数据的价值链中,我们从最原始的材料开始,这里的原始材料就像在如今的商业场景中,任何来源于自然的有价值的产品一样。我们的原材料包括两方面:“数据”和“大数据”。

理解数据

在所有这些术语中,“数据”这个词通常是最容易理解的术语。韦氏词典简单地将数据定义为“作为推理、讨论或计算的基础的事实信息(如测量数据或统计数据)”。

数据自古以来就存在;它以各种形式存在于我们周围。屋外树的颜色就是数据;刮风的时候,你感觉到的拂过脸颊的风的速度就是数据;海滩上水的温度就是数据。

所有这些都是由我们大脑存储和处理的数据形式。大自然也会储存和记录数据,记录过去发生的关键事件。树木年代学,即对树木年轮生长数据的研究,就是一个例子。最终,人类也开始存储和记录数据,从洞穴壁画、木雕和象形文字开始,迅速发展到书籍。最终,我们开始用数字的方式存储数据。

虽然捕捉数据的旧方法并没有消失,但今天的大多数数据都是以字节的形式被记录并存储在计算机中的,由二进制数字1或0组成的字节表达。计算机可以存储一系列类型的数据,如视觉图像、声音、文本和加密信息。正是这种数字组合带来的信息数据化,导致了数据获取量的大幅增加以及存储成本的迅速下降,进而导致了现在通常被称为“大数据”的爆炸式增长。

理解大数据

我们很难为“大数据”找到一个一致的定义。这个术语似乎已经演变成与数据相关的一切内容,包括收集、存储、分析或使用数据的一系列过程——因此你认为你能“制作”大数据。从我的角度来看,你不需要成为一名学者才知道你能不能“做”。

《牛津英语生活词典》( English Oxford Living Dictionary )与我的想法一致,相对来说也更值得信赖。它将大数据定义为“可以通过计算分析来揭示模式、趋势和关联,尤其是与人类行为和互动有关的超大数据集”。尽管字典上有明确的定义,但由于“大数据”被滥用为营销流行语,该词词义被混淆的情况仍然盛行。

加州大学伯克利分校信息学院(UC Berkeley School of Information)的一个团队进行了一项简单的实验,这就是一个明显的例子。该实验旨在一劳永逸地回答这个问题:“什么是大数据?”

人们本希望该领域的专家们能就数据的定义达成一致,然后大家都可以采用确定下来的定义,但遗憾的是,他们并未成功。我分析了43位专家的答案,发现了一些令人惊讶和有趣的事实。

大约10%的答案是相当有哲理的。例如,加州大学伯克利分校信息学院的迪尔德丽·穆里根(Deirdre Mulligan)将大数据描述为“无限的可能性或从摇篮到坟墓的枷锁,并取决于我们所做的政治、道德和法律选择”。来自佛罗里达的数据项目负责人德鲁·康威(Drew Conway)是这样定义的:“大数据起初是分布式计算领域的技术创新,现在是一个文化运动,通过它,我们可以继续探索人类与世界之间的互动——人类彼此之间的互动——而且还是大规模的互动。”

笼统来说,研究结果表明,关于大数据究竟是什么,通常存在两种观点。一些人将大数据描述为一种活动、一种方法或一个过程,而另一些人则将其描述为一个事物、一个项目或一个实体。

约33%的定义将大数据描述为一种活动。我举了几个例子,首先是企业家,领英(LinkedIn)前首席执行官彼得·斯科莫洛奇(Peter Skomoroch),他写道:“大数据最初描述的是消费互联网行业将算法应用于越来越多的不同数据中,以解决用较小的数据集无法获得最佳解决方案的问题。”

数据工作者菲利普·阿什洛克(Philip Ashlock)说:“虽然数据这个词的使用是相当模糊的,常被用于其他目的,我理解的‘大数据’是混乱的分析数据,或者你根本都不知道如何提出正确的问题或怎么提问——分析可以帮助你找到模式、异常或存在于原本混乱或复杂数据点中的新结构……”

最后一个例子来自希拉里·梅森(Hilary Mason),她是机器学习研究公司Fast Forward Labs 的创始人,她将大数据描述为,“收集信息和查询信息的能力,这样我们就能够了解世界上以前我们无法了解的事情”。

对于这些专家来说,大数据是一个过程,包括数据的收集和分析以及算法的应用。用这种方式描述大数据是没有用的,因为人们可能会问:“如果大数据是一个过程,那么分析、机器学习和数据科学又是什么?”

剩下53%的专家对大数据的描述是表面化的:大数据就是数据,只不过是大量数据组合在一起而已。谷歌的首席经济学家将大数据描述为“标准关系数据库无法轻易容纳的数据”。加州大学伯克利分校信息学院讲师安妮特·格雷尼尔(Annette Greinier)将大数据描述为“包含了足够多的观测数据,由于其庞大的规模,我们需要非常规的处理方式”。

我的观点与加州大学伯克利分校的研究中53%的专家观点是一致的。大数据不可能是一个过程,它仅仅是大量的数据——关于活动、事件、环境或情况的过量数据。销售数据、事故记录和温度都是数据。它可以包含一直存在的定性或定量的可变因素,只是如今有更多的可变因素被捕捉和存储。

“数据”和“大数据”是唯一可以互换使用的术语,因为它们实际上是同一个意思。“大数据”一词能与现在可用的海量数据相对应。因此在本书中,你会看到我更多地使用“大数据”,而不是“数据”,因为数据量将不可避免地继续增长。然而,“大数据”一词不仅仅强调产生的数据量。为了抓住大数据的真正本质,我们必须承认如今数据的其他“大”的属性。

大数据的三个属性

高德纳(Gartner)咨询公司分析师道格拉斯·莱尼(Douglas Laney)对大数据进行了更多维度的描述,近年来引起了广泛关注。他用三个词来描述大数据的属性:

●数据量 ,数据的数量;

●数据类 ,数据类型和来源的范围;

●数据速 ,数据输入输出的速度。

自从他定义了这些属性之后,一系列其他的属性也被引入,但它们只是增加了本应简单而简明的定义的复杂性。因此我将专注于理解莱尼最初定义的三个属性。

数据量

数据的量,指的是产生的数据的量。当今世界上90%的数据都是在近几年产生的。各个组织都充斥着数据,很容易积累成万亿字节的数据,这些数据无法放入标准的机器或传统的数据库中,也无法像十几年前那样被分析。今天,由于各种因素的综合作用,包括数据存储成本的下降、容量的不断增加(根据克拉底定律,全球数据的量每两年翻一番)、新的应用和技术,以及人类一般行为的变化,越来越多的数据正在被捕获。我们几乎所有的日常活动和彼此之间的一般互动都是通过某种处理器进行的。

在此基础上延伸,随着物联网的发展——日常事物具备的网络能力,使它们能够发送和接收数据。无处不在的设备,如安全摄像头、手持扫描仪、平板电脑、移动电话、无线传感器和许多其他设备正在捕捉大量的数据。随着捕获和存储数据的负担为技术所减轻,我们将继续看到传输和存储的数据量的爆炸式增长。这种不断增长的数据量包括不断增长的各种数据。

数据类

对我来说,我们现在可以获取的各种数据是大数据最令人兴奋的方面之一。它以非结构化文本文档、图像、音频和视频的形式出现——这意味着我们现在可以获得很多以前无法获得的东西。捕捉范围的扩大从根本上改变了行业,颠覆了传统商业,甚至挽救了生命。

以普普通通的尿布为例。它的功能一直是让婴儿在不弄脏他们的外套或污染外部环境的情况下小便。关于婴儿尿液的频率、颜色和气味的数据(或事实、信息和证据)已经在医疗环境中被应用,但很难在家中实时捕捉。随着当今传感器技术的进步,这些数据可以被收集,从而通过分析尿液实时诊断婴儿的疾病,告知他们的父母婴儿的水合水平和肾脏健康等情况。

通常,像这样的数据属于“机器生成的数据”的范畴:工业设备的数据,例如,最新一代飞机在一次跨大西洋的飞行中产生的几万亿字节的数据,或来自你的智能手机或心率监测器的传感器上面的实时数据,更不用说从数以百万计的闭路电视摄像头和网络日志跟踪用户的网上行为的数据。

而且,我们将越来越多地利用这些数据。我们使用设备来监视我们的一举一动——身体锻炼、开车,甚至吃饭和睡觉。我们跟踪这些数据,并比以往任何时候都更容易地分享它们。我们也在分享我们的感受和生活中的关键时刻。

我们捕捉和共享各种各样的数据十分频繁,结果是我们为大数据的第三大属性——数据的速度做出了贡献。

数据速

最后的属性也就是数据的速度。这包括脸书用户每天上传的超过9亿张的照片,或者海量的推文、状态变化、上传视频、即时消息,甚至是在任何给定时期内发生的信用卡交易数量。

在任何时刻,全世界数百万人都在生成数量惊人的数据。我发现,IBM(美国国际商用机器公司)在2013年做出了最好的估计。他们声称,每一天,我们创造超过2.5艾字节(exabytes)的数据——19位数的天文数字!这还只是几年前的统计数字。这应该会让你对数据创建的速率有一个很好的了解。

我们所做的很多事情,以及我们与他人的许多互动,都是通过某种形式的技术、数字过程或社交媒体上的交流来产生数据的。数据以惊人的速度产生,数量惊人。

尽管在之前提到的研究中,许多专家将大数据描述为一种捕捉、处理和分析数据的方法,但我依旧认为,大数据是必不可少的原材料,是一种在“收集、处理和分析”的过程中使用的原材料。

为了处理这些原材料,我们需要新的技术对其消化、存储、加工、归档,并在某个时候重新检索它们。 uPGEAs0TLWqHGlDr0cEVQ4JDLkayvarLkmvGHkCvF+ZlDHE0xLcC5Fu8SKKbQ+3q

点击中间区域
呼出菜单
上一章
目录
下一章
×