购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

大数据,开启重大的时代转型

大数据开启了一次重大的时代转型。与其他新技术一样,大数据也必然要经历硅谷臭名昭著的技术成熟度曲线 :经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当然,不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要性。

就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解世界的新方法我们现在才意识到。本书旨在如实表达出大数据的内涵,而不会过分热捧它。当然,真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

大数据先锋

天文学,信息爆炸的起源

只有考虑到社会各个方面的变化趋势,我们才能真正意识到信息爆炸已经到来。我们的数字世界一直在扩张。以天文学为例,2000年斯隆数字巡天(Sloan Digital Sky Survey)项目启动的时候,位于新墨西哥州的望远镜在短短几周内收集到的数据,已经比天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.4×2 42 字节。不过,预计2016年在智利投入使用的大型视场全景巡天望远镜(Large Synoptic Survey Telescope)能在五天之内就获得同样多的信息。

天文学领域的变化在各个领域都在发生。2003年,人类第一次破译人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后,世界范围内的基因仪每15分钟就可以完成同样的工作。在金融领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的。这些程序运用海量数据来预测利益和降低风险。

互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍字节 [1] 的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。Facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢”(Like)按钮或者写评论大约有三十亿次,这就为Facebook公司挖掘用户喜好提供了大量的数据线索。与此同时,谷歌子公司YouTube每月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传。Twitter上的信息量几乎每年翻一番,截止到2012年,每天都会发布超过4亿条微博。

从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度,甚至超过了我们的想象。

我们周围到底有多少数据?增长的速度有多快?许多人试图测量出一个确切的数字。尽管测量的对象和方法有所不同,但他们都获得了不同程度的成功。南加利福尼亚大学安嫩伯格通信学院的马丁·希尔伯特(Martin Hilbert)进行了一个比较全面的研究,他试图得出人类所创造、存储和传播的一切信息的确切数目。他的研究范围不仅包括书籍、图画、电子邮件、照片、音乐、视频(模拟和数字),还包括电子游戏、电话、汽车导航和信件。马丁·希尔伯特还以收视率和收听率为基础,对电视、电台这些广播媒体进行了研究。

大数据的力量

据他估算,2007年,人类大约存储了超过300艾字节 [2] 的数据。下面这个比喻应该可以帮助人们更容易地理解这意味着什么了。一部完整的数字电影可以压缩成一个GB的文件,而一个艾字节相当于10亿GB,一个泽字节 [3] 则相当于1024艾字节。总之,这是一个非常庞大的数量。

有趣的是,在2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据 ,其余全部是数字数据 。但在不久之前,情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念,但实际上,这些概念仍然是相当新颖的。甚至在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。

早期数字信息的数量是不多的。对于长期在网上冲浪和购书的人来说,那只是一个微小的部分。事实上,在1986年的时候,世界上约40%的计算能力都被运用在袖珍计算器上,那时候,所有个人电脑的处理能力之和还没有所有袖珍计算器处理能力之和高。但是因为数字数据的快速增长,整个局势很快就颠倒过来了。按照希尔伯特的说法,数字数据的数量每三年多就会翻一倍。相反,模拟数据的数量则基本上没有增加。

大数据的力量

到2013年,世界上存储的数据预计能达到约1.2泽字节,其中非数字数据只占不到2%。

这样大的数据量意味着什么?如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果将之存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以伸到月球。公元前3世纪,埃及的托勒密二世竭力收集了当时所有的书写作品,所以伟大的亚历山大图书馆可以代表世界上所有的知识量。 但当数字数据洪流席卷世界之后,每个地球人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。

事情真的在快速发展。 人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。 难怪人们会抱怨信息过量,因为每个人都受到了这种极速发展的冲击。

把眼光放远一点,我们可以把时下的信息洪流与1439年前后古登堡发明印刷机 时造成的信息爆炸相对比。历史学家伊丽莎白·爱森斯坦(Elizabeth Eisenstein)发现,1453—1503年,这50年之间大约有800万本书籍被印刷,比1200年之前君士坦丁堡建立以来整个欧洲所有的手抄书还要多。换言之,欧洲的信息存储量花了50年才增长了一倍(当时的欧洲还占据了世界上相当部分的信息存储份额),而如今大约每三年就能增长一倍。

这种增长意味着什么呢?彼特·诺维格(Peter Norvig)是谷歌的人工智能专家,也曾任职于美国宇航局喷气推进实验室,他喜欢把这种增长与图画进行类比。首先,他要我们想想来自法国拉斯科洞穴壁画上的标志性的马。这些画可以追溯到一万七千年之前的旧石器时代。然后,想想一张马的照片,再想想毕加索的画也可以,看起来和那些洞穴壁画没有多大的差别。事实上,毕加索看到那些洞穴壁画的时候就曾开玩笑说:“自那以后,我们就再也没有创造出什么东西了。”

他的话既正确又不完全正确。你回想一下壁画上的那匹马。当时要画一幅马需要花费很久的时间,而现在不需要那么久了。这就是一种改变,虽然改变的可能不是最核心的部分——毕竟这仍然是一幅马的图像。但是诺维格说,想象一下,现在我们能每秒钟播放24幅不同形态的马的图片,这就是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区别! 大数据也一样,量变导致质变。 物理学和生物学都告诉我们,当我们改变规模时,事物的状态有时也会发生改变。

我们就以纳米技术为例。纳米技术专注于把东西变小而不是变大。其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,你就可以用同样的原料来做以前无法做的事情。铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了。银离子具有抗菌性,但当它以分子形式存在的时候,这种性质会消失。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,我们就可以做很多在小数据量的基础上无法完成的事情。

有时候,我们认为约束我们生活的那些限制,对于世间万物都有着同样的约束力。事实上,尽管规律相同,但是我们能够感受到的约束,很可能只对我们这样尺度的事物起作用。对于人类来说,唯一一个最重要的物理定律便是万有引力定律。这个定律无时无刻不在控制着我们。但对于细小的昆虫来说,重力是无关紧要的。 对它们而言,物理宇宙中有效的约束是表面张力,这个张力可以让它们在水上自由行走而不会掉下去。但人类对于表面张力毫不在意。

对于万有引力产生的约束效果而言,生物体的大小是非常重要的。类似地,对于信息而言,规模也是非常重要的。谷歌能够几近完美地给出和基于大量真实病例信息所得到的流感情况一致的结果,而且几乎是实时的,比疾控中心快多了。同样,Farecast可以预测机票价格的波动,从而让消费者真正在经济上获利。它们之所以如此给力,都因为存在供其分析的数千亿计的数据项。

大数据洞察

大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。

尽管我们仍处于大数据时代来临的前夕,但我们的日常生活已经离不开它了。垃圾邮件过滤器可以自动过滤垃圾邮件,尽管它并不知道“发#票#销#售”是“发票销售”的一种变体。交友网站根据个人的性格与之前成功配对的情侣之间的关联来进行新的配对。具有“自动改正”功能的智能手机通过分析我们以前的输入,将个性化的新单词添加到手机词典里。然而,对于这些数据的利用还仅仅只是一个开始。从可以自动转弯和刹车的汽车,到IBM沃森超级电脑在游戏节目《危险边缘》( Jeopardy )中打败人类来看,这项技术终将改变我们所居住的星球上的许多东西。


[1] 拍字节,一般记作PB,等于2 50 字节。——译者注

[2] 艾字节,一般记作EB,等于2 60 字节。——译者注

[3] 泽字节,一般记作ZB,等于2 70 字节。——译者注 5r50/XbVvlFDB5xxR3EzLBu2OE96ssiii3lYooeFXRWZvCP7/HKXEbqeSWzrYAwz

点击中间区域
呼出菜单
上一章
目录
下一章
×