数据是指对客观事物的性质、状态以及相互关系等进行记载的符号组合。除了数字之外,文字、图像、声音、视频等也都是数据,只不过在历史上由于技术手段的限制很难做进一步的分析利用罢了。
数据是人类文明传承的重要媒介。通过对各种人类活动的数据化(例如,利用语言和文字加以记录)和世世代代的累积,文明得以被继承和发展,人类活动得以不断地精细化。
那么,为什么在长达数千年的人类文明史上,却一直没有所谓的大数据什么事呢?这里,我们把数据分析得到大规模应用之前的漫长年代称为大数据的史前时代。
史前时代的时间跨度很长,在此期间虽然对数据的分析利用进展非常缓慢,但也逐渐出现了一些变化。史前时代可以大致分为以下几个阶段。
远古时代
远古时代是指文字系统尚未出现的时期,信息交流主要依靠口耳相传,如某种技能的师徒传承。虽然在后期逐步出现了结绳记事之类的简单记录方法,但总体而言,数据的准确记录都无法得到保证,就更无法考虑数据分析利用的问题了。
文字时代
文字是客观记录人类互相交流信息的一种方式,而不是一般认为的仅仅是记录语言的符号。文字的产生在人类文明史上起着至关重要的作用,它的出现意味着前人得到的知识有可能被准确无误地传承下去。目前世界上公认出现最早的文字是距今5000~6000年前两河流域的楔形文字。此后,世界各地的不同文明分别发展出了各自使用的文字,如古埃及象形文字、美洲玛雅文字、中国甲骨文、古印度印章文字、腓尼基字母、希腊字母、拉丁字母、斯拉夫字母等。文字的出现初步解决了数据信息的保存问题,也使数据信息的交流变得可行和可靠。但是,由于各个文字体系并不相同,跨文明间的交流仍然是非常困难的。例如,对数字的记录和计算方式,中国古代采用的是十进位制的算筹记数法,这在历史上非常先进,也使古代中国的数学取得了许多卓越的成就;古罗马的数字系统没有位值制,只有七个基本符号,如需记录稍大一点的数目就相当繁难;古美洲玛雅人倒是懂得位值制,但用的是20进位;古巴比伦人用的则是60进位。缺少统一且高效的数学语言,使在文字时代对数据信息做有效挖掘仍然是非常困难的。
阿拉伯数字时代
一般认为是公元3世纪,印度科学家巴格达发明了阿拉伯数字,并在大约公元9世纪传入阿拉伯地区,随后传入欧洲,大约在公元13——14世纪传入中国。由于阿拉伯数字笔画简单、书写方便,加上使用十进位制便于运算,逐渐在各国流行起来,最终成为世界各国通用的数字。数学语言,特别是计算进制的统一,终于使各个文明之间能够对数据的分析利用进行有效的交流。此时,数据记录、存储、分析、交流的前提条件都已具备,数据的分析需求逐渐产生,小数据时代开始逐步向人类文明走来。
除非人工特意记录,否则不会自动产生和保留数据信息。 这一时期并不存在对数据进行自动观察和记录的仪器,除非有人站在十字路口计数,否则就无法得知当日通过该路口的人数。而这个数据如果不被记录下来,也很快就会被遗忘。显然,数据在这一时期是异常匮乏的。
严重缺乏对数据信息进行加工利用的技术和工具。 数据分析高度依赖统计学,而统计学是数学发展到一定阶段才会产生的分支。在阿拉伯数字尚未普及的年代,罗马和希腊的数字用于计算加减都非常困难,计算乘除更是难如登天。
严重缺乏数据信息交流的工具和手段。 在文字出现之前,数据信息的交流只能靠口耳相传,如祭司师徒之间的知识传承或者游吟诗人的世代传唱。而印刷术出现之前,则只能靠手抄文字加以流传。直到印刷术出现之后,信息才有了大规模普及和交流的基础。但这种印刷层面的媒介尚远远不能满足知识本身的传播需求,更不要说加以二次分析利用了。
以上客观条件的限制,使有意识地采集数据并利用数据达成某种分析目标几乎不可能。传统文学作品中所称颂的日出而作、日落而息、男耕女织的生活,其本质就是完全靠天吃饭,没有足够的信息可以依靠,很难提高生产力水平。
信息蕴含着宝贵的价值,如果信息交流不畅,知识无法共享,就会导致各地的文明之间不能互相学习和借鉴。勾股定理就是个典型的案例,它被各个人类文明独立地重复发现,从而有了毕达哥拉斯定理、商高定理、百牛定理、驴桥定理和埃及三角形等多个名称。
文明总是在不断进步,人们逐步开始意识到信息的意义。即使是在大数据史前时代,也确实存在采集数据、分析数据的需求,这方面以作为社会管理者出现的政府的需求最强烈。据说古埃及就进行过人口普查,古罗马在拥有数十万人口的时候规定每5年普查一次。然而,普查所需要的能力远远超越了当时人类社会的上限,以至于随着国家人口越来越多而最终只能粗略计数。1086年,英国国王威廉一世对全国进行人口普查。结果到1087年他去世时,这项工作也还未完成。实际上直到19世纪为止(此时已经入小数据时代),即使这样不频繁的人口普查依然是很困难的。美国在1880年进行的人口普查耗时8年才完成数据汇总,因此他们获得的很多数据都是过时的。
虽然非常漫长,但史前时代终将过去;虽然非常困难,但数据的价值终将显现。到了近代,随着上述几大障碍的逐渐弱化,数据信息的价值逐步显现,人们开始针对特定研究问题有意识地进行数据信息的采集,并最终进入了开始利用数据的一个新时代。
根据技术、工具和理念的进化过程,小数据时代也可以大致分为两个阶段。
古典小数据时代
这个时代的特征是人类开始形成完整的数据分析方法论并加以实践,但是缺乏强有力的工具(如计算器或者计算机)来协助完成整个流程。
实际上,很难界定史前时代和古典小数据时代的分界时间,或许最早的时间点可以被界定在开普勒进行数据分析这一代表性的事件前后。很有才干的天文学家第谷·布拉赫(1546——1601年,丹麦人)用持续20年的时间观察记录了750颗行星的运行数据,位置误差不超过0.67°,却没有对这些数据做深入分析。而能力相对一般的开普勒(1571——1630年,德国人)则花了16年(1596——1612年)对第谷的观测数据进行分析研究,得到了开普勒三定律。这个研究项目持续了将近40年才得到结果。
在古典小数据时代,上述几个数据应用障碍坚不可摧,人类几乎只能赤手空拳地应对所出现的数据分析利用需求。
计算机时代
这个时代的持续时间并不长。1951年,世界上第一台商品化批量生产的计算机UNIVAC-I投产,计算机从此从实验室走向社会,由单纯为军事服务走向为社会公众服务。这一年被认为是计算机时代的真正开始。
计算机的出现首先受益的是数据存储(虽然可能是用最原始的打孔纸片来记录数据)和共享,而20世纪60年代数据库系统的出现更是大大提升了计算机在这方面的能力。1961年,通用电气公司的查理斯·巴克曼(Charles Bachman)成功开发出的世界上第一个数据库管理系统——集成数据存储(Integrated DataStore,IDS),可算是这一领域的开山之作。其次,随着软件体系的逐步完善,计算机也开始提供越来越强大的数据分析和展示功能。1968年,全球最早的统计分析软件SPSS的问世,意味着数据分析的计算机时代已经初露曙光。随着工业领域、商业领域开始大规模使用计算机控制和计算机数据采集,越来越多的数据开始经由传感器-计算机这样一个体系被自动或半自动获取,加速了数据采集领域的变化。
显然,在计算机时代,整个数据价值被发掘、利用的体系都越来越依赖于计算机,但是由于方法论上仍然遵循着古典小数据时代的基本逻辑,因此仍然属于小数据时代。然而,各方面的不断进化都意味着传统的分析方法论已经过时,一个新的时代即将到来。
在小数据时代,数据的价值逐渐被充分认识。随着科学的进步,对数据进行加工利用的技术和工具被系统地发展起来,最终形成了针对数据收集、整理、分析、利用的一整套方法论。
具体而言,研究一个问题一般需要经过以下基本步骤。
确定研究目的
在整个数据分析流程开始之前,研究者必须首先明确自己希望解决的问题究竟是什么。随后的整个流程都需要围绕达成这个目标而展开,不相关的因素则被剔除。
研究设计
由于数据的采集需要成本,因此研究设计的基本目的就是尽可能高效地使采集到的数据信息能够集中反映所希望研究的问题。研究设计中会充分考虑如何尽量去掉不必要的样本量,有哪些需要控制的影响因素,并采用各种精巧的设计方案来对非研究因素的作用加以控制,如配伍、完全随机抽样、随机分组等。
数据采集
数据在研究设计完毕后开始采集。如果可能,则整个试验过程会在尽可能理想的情况下进行,从而在试验或数据获取过程中也会对无关因素的作用加以严格控制。例如,毒理学实验中可以对小白鼠的种系、周龄、生活环境、进食等作出非常严格的设定。当然,尽量严格的试验条件控制也意味着每个原始数据的成本都非常高昂。
数据准备
采集到的原始数据往往存在一些错漏,也不一定符合随后的统计分析需要。因此,首先要对数据进行清理,对变量进行转换,对异常值、缺失值等进行必要的处理。
数据分析
数据分析的目的就是基于研究设计,采用恰当的分析方法将样本中蕴含的有效信息提取出来,用于回答最初的研究假设。针对如何高效地发掘样本数据信息,统计学已经发展出了一整套方法体系。其中的很多概念或方法,如方差、百分比、回归分析、相关性分析等,都已经成为了普通人熟悉的词汇。
结果报告/应用
基于分析结果给出研究结论,并提出可供操作的业务改进建议,如对人群进行戒烟宣传、要求在食用盐中加入碘元素等。
相比史前时代,小数据时代已经开始了对数据信息的大规模利用。但是,史前时代的三个障碍中只有分析技术得到了解决,数据产生和数据流通上的障碍仍然存在。具体而言,在实际操作中会发现以下问题。
数据采集成本高昂
在小数据时代,由于绝大部分数据需要专门采集,并且整个流程都需要专业统计人员的参与,导致数据获取成本很高。因此,必须采用抽样的方式来控制样本量,以使用尽量少的样本得到对研究总体尽量好的代表性。但是,抽样方式的使用意味着或许对于整个总体而言,统计信息是充足的;而一旦细分到某个亚群体,相应的统计信息很可能就不够充分,导致无法得到有价值的结论。
数据共享和重复利用困难
高昂的数据采集成本会促使原始数据信息被严加保护,数据分享变得异常困难。不仅如此,由于每个研究的具体目的不同,样本选择的标准以及具体采集的信息也并不相同。因此,相应的数据几乎都只能为所对应的研究项目服务。除非在研究设计上专门做过考虑,否则将不同研究项目的数据互相打通加以重复利用几乎是不可能的。这也是为什么循证医学、meta分析等数据二次分析的理念兴盛一时,但最后又归于沉寂的重要原因。
得出分析结论越来越难
在小数据时代,由于数据的来之不易,并且都是针对某个研究目的加以收集,因此研究假设的设定就要非常准确,这自然使研究结论会尽量往有因果确认关系的方向靠近。而随着研究的不断深化,比较简单明确的因果关系,诸如吸烟会导致肺癌之类的事情大都已被研究完毕。找到明确的因果规律变得越来越困难,经常要反复经历“假设-求证-推翻-再假设-再求证”这样一个漫长的多次循环。再加上已有的数据信息很难被重复利用,这又进一步直接导致了研究成本的飞速上升。
分析结果的应用成本高昂
数据采集的障碍也使研究结论应用到个案上的成本很高。“我在广告上的投资有一半是无用的,但问题是我不知道是哪一半。”广告营销界广为流传的这句话反映的就是这种困惑。也许数据分析报告显示,某个保险产品的定位非常明确,目标客户就是“40岁以上,年收入30万元以上,喜欢外出旅游,在海外有投资账户,且为A型性格”的特定人群,但是由于数据的缺失(有的涉及个体隐私,有的必须专门采集,在营销上实际无法实现),使目标客户在营销时无法精确定位,只能采用低效而浪费的广告方式加以营销。
数据的产生
近几十年来飞速发展的IT技术,特别是互联网技术,对催生大数据理念起到了至关重要的作用。长期以来,数据的采集成本始终居高不下。如今,这个障碍已随着多个自动数据来源的出现而渐渐消失。
数据的第一个来源是“电脑”。人类生产、生活的数字化让几乎每个使用电能的设备都有了至少一个核心处理器,此处称之为“电脑”。过去绝大部分系统运行的数据并不能被记录下来,而有了“电脑”之后,这些设备中内置的处理器、传感器和控制器在运行时的情况都能以某种数据形式展现。最基本的运行情况会被自动以日志的方式加以记录,而更复杂一些的数据记录则可能是控制状态、异常事件报告等。
这种“电脑”带来的广泛数据化,使原本被舍弃的次要信息也能保存下来。例如,在电话需要人工转接的年代,话务员只会记录和费用有关的通话时长、电话号码等信息,而在现代的电信系统中,包括起止时间、通话内容在内的所有控制信息都能被自动记录。有了这样的数据基础,运营商对客户通话行为的把握就更准确,提供针对性的、个性化的服务也才有了可能。
数据的第二个来源是各种传感器。实际上,传统的摄像头也可以被看成是一种原始的传感器。传感器的特点是拥有一个唯一的识别ID,同时它会根据外界提供的信号进行必要的信息处理,并发送返回信息。例如,摄像头会自动记录响应范围内的视频信息,并储存或回传至服务器;现在广泛应用的射频识别芯片(RFID)则会接收阅读器(扫码器)发出的无线电波,并反馈储存在芯片内部的信息给阅读器。传感器可以被用于大量的工作和生活场景:零售业结算、物流跟踪、仓储管理、可穿戴设备等,而现在被热议的物联网在数据采集端的实质就是各类传感器的大规模应用。
数据的第三个来源是将过去已经存在的以非数字化形式存储的信息数字化。例如,各种古籍文献,还有在过去不被认为属于“数据”的语音磁带、图片、视频录像带、历史档案、病历资料、设计图纸等。这些资料都以非数字的媒介形式存在,实际上很难加以分析利用。因此,对这些资料进行分析的第一个基础工作就是将其全部转为数字形式。这一部分数据在未来所占的比例可能会逐渐下降,但在现阶段仍然是数据的一个主要构成部分。
数据的第四个来源就是蓬勃发展的个性化互联网数据。在互联网时代之前,前述三个数据来源实际上也是存在的,但其实施主体是企业。而在互联网时代,每个人都是数据的制造者,在微博上发送的文字和图片信息,在优酷土豆上传的视频及其讨论,在微信中的各种分享、聊天和互动,几乎全部都是由个体提供。这一部分数据占总数据量的比例正在迅速上升,在未来很有可能超过企业数据的总量。
还有很多传感器通过互联网实时采集来自个体的信息。例如,手机已经成为了个人信息中心,通过手机采集个体信息非常精确。现代的手机集成了GPS、声音、光照、运动、平衡等多个传感器,这些传感器所采集的信息(以及利用这些信息的各类App)在带给用户方便的同时,也精确记录着机主全天的详细行为信息,而这些信息的创造者就是机主本人。除了手机之外,日益发展的可穿戴智能设备也会提供越来越多维度的数据信息。
数据的传输
计算机软硬件的飞速发展解决了数据产生的问题,同时也提供了海量数据的存储方案。但数据本身其实是没有价值的,只有当数据流动起来,能够和其他数据或资源关联起来时,才会产生相应的价值。如果要让这些已产生的数据“活”起来,让其内部蕴含的信息得到发掘,则还需要解决如何传输分享这些数据的问题。
互联网技术的飞速发展最终冲破了这道壁垒。仅从网络传输速度来看,从20世纪90年代的拨号上网到现在的光纤入户,以及从有线网络到无线网络乃至于3G、4G的进一步扩展,这些技术进步无一不在拆除着数据传输分享的技术壁垒。
数据传输问题的解决不仅使数据分享变得可行,也在数据采集和数据应用两个方面拓展了领域。例如,诸多无线传感器之所以能被用于数据采集,都有赖于射频识别技术和后续近场通信技术的长足发展。这些技术的诞生也使很多业务场景能够实现,诸如仓储自动管理、电子支付、身份认证、票务管理等,而这些应用也反过来进一步促进了更多、更详细的数据得到采集。
不同于小数据时代需要针对具体的研究目的特意去采集数据,大数据会在各种人类活动中从很多不同的来源自动采集进来。这些数据在生成时常常彼此独立,并未针对某种研究目的而刻意地去加工或者采集,完全处于自然采集的原生状态。
从统计抽样的角度讲,这些数据因其未遵循概率抽样原则,因此可能不具有很好的代表性。但是统计学也告诉我们,当样本量迅速增加时,样本对总体的代表性会自然增加(虽然相应的增幅会越来越小)。而大数据时代的一个显著特征就是海量数据,其数据量在理论上甚至可以逼近整个总体数据,如网民留下的网络行为数据。此时,人们会惊讶地发现,他们面对的不再是精巧设计之下的抽样样本,而是开始接近于研究总体的完整数据。
更重要的是,在小数据时代,样本只能对总体的一致特征具有代表性,而无法覆盖到各种亚群体的罕发事件(小概率事件)。随着大数据的出现,丰沛的数据量使研究者几乎可以将数据集任意细分到任何所关心的维度和深度,而仍然有充分的样本信息可被利用。这使得分析结果显然比小数据时代有了更好的代表性。
除了充沛的数据量之外,数据的多维度也使其代表性进一步增强。当不同来源的数据彼此孤立时,可能并无任何分析价值。但是,当它们能够通过某些关键点(如个体ID)连接起来时,实际上就会从更多的侧面对目标个体或群体进行立体画像,使基于这些维度对相应目标的推断更准确。
数据的代表性还体现在数据能够被多次重复使用。历史数据实际上就是对个体某种行为规律的记录,这些数据在采集时可能并无其他用途,但是累积到一定程度,特别是在和其他维度的数据相结合时,就可能揭示出更深入的用户信息。例如,移动电话运营商的数据库中会自动基于基站“握手”信息收集到用户的位置信息,这些数据当时只是用来传输电话信号,并无其他用途。但是,当它积累到一定程度时,显然就会揭示出该个体的日常行动规律。如果再进一步结合其通话业务量、通话行为特征等数据,就能够更加精确地定位出用户的消费特征,从而可以被一些发布个性化位置广告服务和促销活动的公司再次利用。事实上,滴滴打车等公司之所以要砸下几亿元来争抢用户出行的入口,其核心目的也就是为了获取这些有价值的用户行为数据。