大数据之所以产生,正如美国咨询大师托马斯·H·达文波特(Thomas·H·Davenport)所言,是因为今天无处不在的数字化的传感器和微处理器,比如物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据生成、承载和传输的方式。我们正在迈进数字化时代。其实,人类的所有实践活动经过形式各异的机器或电子设备的作用都可以留下数据痕迹,这些痕迹记录了它的特征、位置或状态。这些设备和使用它的人们,通过网络之间交流和链接,“嫁接”出来了一个个庞大的数据源。这些品性各异的数据集在互联网的连接下构成了对于人类社会动态发展中个体与群体最为丰富、充分和翔实的数据描述。
传统社会科学研究的视域中,将问题进行要素抽绎是一种基本的人类认识的积淀方式,它试图从千差万别的社会个体现象中找出共性进而形成对于特定问题的所谓“解释模型”,并作为一种社会“定理”在后续的实践中进行社会意义的再阐释、再修正乃至于再生产。这种认知逻辑和认知框架虽然在一定程度上提升了研究者认识和把握社会的能力,但也导致了这种社会认识片面和简单化的问题。这种减法法则对于社会存在的把握力和解释力,在当下变量繁多、有机化程度越来越高的社会变得越来越捉襟见肘,从而使文明对于现实世界越来越陷于无所措手足的境地。将认识世界的场景重置于繁复驳杂的现实联系中去,在繁复驳杂的变量中重新认识世界,已然成为社会实践的迫切要求和社会科学研究的共识,这也是大数据的概念一经提出便引起学界乃至于社会各实践部门热情高涨地高度关注的社会基础。
当大数据作为一个新兴概念被大家热捧时,很多人用一种急功近利的庸俗眼光在打量和面对这样一种本质上要求用更高的智慧和技术含量去面对、处理和加工的新生事物。正如一个段子所调侃的:“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are.”(大数据相当于青少年谈性,每个人都在谈论,但没有人知道怎么做,又以为大家都在做,所以只好宣称自己也在做。)概言之,大数据不是一个用传统的思维模式和技术手段便可以处理加工并取得效益的数据对象,它有着不同于传统的结构性的小数据的诸多特性,对于这些特性认识的深刻程度决定着我们利用大数据的能力、框架、逻辑及有效性程度。
大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。但是,究竟多大的数据才能称为“大”,并没有普遍适用的定义。事实上,对于数据多大能称为“大数据”,业界并没有统一的认识,通常认为100TB(太字节)是大数据的门槛,简而言之,传统方法无法处理的数据即为大数据。而麦肯锡全球研究所认为,我们并不需要给“什么是大”定出一个具体的“尺寸”,因为随着技术的进步,这个尺寸本身还在不断地增长。此外,对于各个不同的领域,“大”的定义也是不同的,无须统一。正如传播学研究中“新媒体”的定义,“新”与“大”都是一个相对的概念,广播相对于报纸属于新媒体,同样手机代表的移动互联网相对于PC端代表的万维网则是新媒体。
大数据的真正价值不在于它的大,而在于它的全——空间维度上的多角度、多层次信息的交叉复现;时间维度上的与人或社会有机体的活动相关联的信息的持续呈现。
以数据的交叉复现对于还原真相的价值为例:一位家住北京的男人借去杭州出差的机会到上海与情人幽会,回到北京后怕被老婆发现把相关的短信、微信、通话记录统统都删除掉,但他老婆如果掌握了大数据分析方法的话便很容易获得真相:查询酒店的开房记录、刷卡消费的记录,甚至在上海期间一不留神转发的一条微博都可能透露出你的位置信息。正如《大数据时代》中所引述的,一个孕妇的口味及消费模式等是有一定规律的,单一一条信息并不足以判定你的状态,但关于你的不同来源的数据集合一旦与孕妇特型(如果我们掌握了这个分析模型的话)高度相关,人们便很容易对你的真实状态进行一种准确的判断而不管你自己承认或者不承认。
因此,大数据的“大”有点像媒介融合时代的“大媒体”的概念(在我国通常称之为“全媒体”),这个“大”更准确的涵义在于它是由源自于生活实态的多层次、全方位的数据集合构成的。大数据分析的价值和意义就在于,透过多维度多层次的数据,以及历时态的关联数据,找到问题的症结,直抵事实的真相。
一般而言,业界人士普遍将大数据的特点概括为4个“V”(Volume, Velocity, Variety, Veracity)。第一,数据体量巨大。从TB级(太字节,240)跃升到PB级(拍字节,250,1PB相当于全美国图书馆50%的藏书量)。第二,数据类型繁多,囊括网络日志、视频、图片、地理位置信息等。第三,价值密度低,转化为商用或其他种类的价值利用的智力含量要求颇高。大数据多为非结构化和半结构化的数据,传统的分析手段对其分析利用时会呈现时间和经费成本花费过高、难以利用的问题。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,如何进行有效性的筛选和加工处理就成为能否利用大数据的技术关键。第四,大数据所要求的处理速度必须极快。海量的数据处理、大海捞针式的价值筛选,需要不同于传统数据处理的手段和方法。因此大数据的处理与云计算、“分布式”技术的使用紧密相关,适用于秒级定律,一般要求在秒级时间范围内给出分析结果,时间太长就失去可用的价值。这是与传统的数据挖掘技术有着本质不同的地方。
大数据的“4V”特征告诉我们的一个最为直接的道理:执迷于精确性是信息缺乏时代和模拟时代的产物。就现实而言,有研究表明,只有5%的数据是有框架的,能适用于传统数据库的数据处理技术和价值挖掘框架。如果不接受混乱,剩下95%的非框架数据都无法被利用;只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。已有的大数据研究实践表明,大数据的模糊算法比小数据的复杂算法在对于实际状况的解释力和把握力方面更有效、更全面、更深刻。
小数据是根据有限资源和主观目标而人为设定的数据类别和采集框架而生成的。由于每项研究的经费成本和计算能力都是有限的,设定哪些指标、数据量、范围与时段等都带有极为明显的局限性,并且数据的采集多是项目制、临时性和横断面截取的方式,是一种被动的数据采集方式,因此,总体上说,小数据对于描述和把握现实的能力是显得“单薄”的。而大数据一般是源于自然发生、实时记录的数据,原则上,任何人上的任何网站、做的任何事情,都会被今天的数字化装置记录下来。所以大数据的种类和视角对于描述和把握人类的行为就显得客观而丰厚。
与传统数据采集不同,大数据的参与者不再是有意识地参与,而是无意识地参与,是为自己的利益在做事情。用户每用一次搜索、点击、转发、点赞等,都参与了谷歌、百度、微博、论坛等数字平台的大数据采集,因为用户的每次点击就是一个数据来源。但在传统数据采集中,如果让人参加一个市场调研,据统计80%的情况下人们会拒绝,15%的情况下人们可能会要求某种意义上的补偿,很少有人愿意主动参加市场调研或其他类型的数据采集的工作,因为很多人把这种数据采集当作一个负担或者对其隐私的侵犯。但是线上的大数据对绝大部分人来说,完全是一个无意识的、自利的行为。上淘宝是为了买东西,上微博是为了看新闻,上百度是为了搜索,都是为了自己的利益而触发的一个无意识的行为,但这个无意识的行为,都构成了大数据的丰富来源并为大数据的各类数据集的形成做出了客观的贡献,因此数据的真实性、有效性便是顺理成章的。
传统意义上的数据分析都是先假定一个研究框架,根据研究框架去采集数据、分析行为,这是一个单向的过程,是在人的强烈的主观框架之下对于数据的一种不免失之偏颇的采集和分析。大数据本质上是一种双向数据,进行搜索时,需要在搜索框内输入数据,搜索的结果是搜索用户与搜索引擎之间的一一互动,两者是一种双向沟通——搜索引擎为你提供了数据,而你也为搜索引擎贡献了数据,两者是一种双向互动的正循环过程,双方都给对方贡献了数据价值。任何大数据应用,如果在设计时没有这种双向、互利的正循环的话,是运行不起来,本质上就不是大数据。
反应速率也是大数据和传统数据的差别。大数据必然要求高反应速率,最好是实时和在线的,只有这样大数据的数据价值才会更大,比如谷歌的搜索,此时输入一个关键字看到的结果,跟一个小时以后再输入同样的关键字得到的结果,很可能已经不一样了。因为谷歌已经把一个小时内全球所有的点击重新计算了一遍,然后把信息做了结果优化再反馈给用户。所以大数据的反馈速度越快,创造的价值越大,使用者参与的动机就越强。数据越跑越大、反应越来越快、结果越来越好,用户参与会越来越多,才能变成一个黑洞效应。传统的小数据虽然也孜孜以求反应速率,但和大数据的实时速率是存在天壤之别的。