世界观对应着方法论,5G大数据在给人类思维带来巨大改变的同时,对实际研究也将产生深远的影响,而丰富的5G大数据应用场景正是基于思想和方法的共同改变,使得大数据成为数字经济中不可或缺的重要成员。
大数据催生的研究范式
“范式”是个颇具哲学意义的概念,最初由美国著名科学哲学家托马斯·库恩在1962年出版的《科学革命的结构》一书中提出。简单来讲,“范式”就是一种行为规范,我们经常听到的科学范式、研究范式等,其实就是科学家群体所共同遵从的行为方式 。当然,研究范式也不是一成不变的,不同时期、不同背景、不同科技发展程度,范式都有着不同的含义,最新的所谓“数据密集型”其实就是“大数据”范式。
2007年1月,在加利福尼亚州山景城召开的NRC-CSTB (National Research Council—Computer Science and Telecom-munications Board)大会上,图灵奖得主、关系型数据库的鼻祖吉姆·格雷(Jim Gray) 发表了重要演讲:《第四范式:数据密集型科学发现》(The Fourth Paradigm:Data-Intensive Scientific Discovery),提出科学研究的第四类范式,之后数据密集型这个概念开始为人所熟知。
现在,让我们回顾过往,比较一下5G大数据时代范式的变化细节。人类历史上公认经历了四类研究范式,分别是经验科学、理论科学、计算科学以及今天的数据密集型科学。经验科学也称为“实验科学”,是通过对现实事件的观察,对经验事实进行描述归纳而形成的科学,其基本过程为观察—假设—实验,最为人熟知的便是以伽利略为代表的文艺复兴时期的科学研究,大家还记得中学课本上伽利略在比萨斜塔上做的那个实验吗?
理论科学则更进一步,开始逐渐脱离现实实验,其产生的原因也很简单,随着科学的不断发展,经验科学所要求的现实实验越来越难以完成,因实验条件严重滞后于理论发展,导致很多理论的实验条件受到限制,理论难以被证实。为此,人类按照已有的实证知识、经验、事实、法则、认知去验证假说,而非去证实假说。一些假说后续随着人类科学技术的发展相继得到验证,而那些最终与现实相悖的假说则被新的理论所取代。最著名的代表便是物理学大厦上的那两朵乌云:量子力学和相对论 。
计算科学则离我们更近了,简单来说,它就是利用电子计算机对科学实验进行模拟仿真,进而对复杂现象进行模拟仿真,推演出越来越多的复杂现象,典型案例有模拟核试验、天气预报等。
这三种范式都有共同的特点,那便是都没有摆脱实验科学的模式,都经历了观察—假设—实验这一过程,无非是最初观察的手段和方法、假设的提出以及最后的实验设计有所不同。实际上,千百年来,人类的研究都同属因果导向问题研究,直至大数据的出现,研究范式终于出现了重大变革。发现问题的方法不再是通过人类的观察,而是基于科学数据的探索,这在前文讲模糊预测时也有所提及。
人类开始从集提问者和解答者于一体变为单纯的解答者,甚至在未来会变成一个外在的观察者。产生这个现象最主要的原因是,人类的数据处理能力已经满足不了人类自身的求知欲望了,我们能够提出A—B之间的关系,但我们还想知道B—C 和C—D之间的关系,当数据量扩大,内部包含的问题越来越丰富,而我们很难将所有存在的问题都一一提出,通过数据发现问题可能会成为常态。
相应地,无法感知的问题的出现,也依赖于利用数据去解决,更具体的工作我们留待下文解释。
样本还是整体
所谓的科学研究,通俗来讲就是一个证明的过程,数据密集型不仅改变了发现问题的方法,同时也对解决问题,即证明这个过程给出了新的办法。
我们先来看一个简单的证明。宏观经济学上有很多结论都建立在特定的消费理论上,而经济学发展到今天,经济学家对消费的认知并没有达成统一的意见,围绕着消费理论的讨论依然是经济学研究的一个重点,不少观点在直觉上看来都有合理性,但现实是否如此,研究者需要用到现实的数据。从理论上来说,当我们搜集到了全国范围内所有人的消费数据,那么我们就能够得出影响居民消费较为确切的决定因素,但很遗憾,我们的数据来源并没有那么详尽,更多的是来自随机调查,这也是当前众多研究运用的数据来源。而且,为了使成本最低,研究者总会在进行调查前确定好想要的数据,有针对性地进行调查。而人类的认知毕竟有限,理论更多是建立在已有的知识基础之上,有目的性的调查意味着结果也会有所偏颇,这也解释了为什么经济学家经常就某一问题发生争论,一些人会得出这个结论,而另一些人会得出那个结论。当然,我们不能说这种多样性的结果是有害的,相反,正是学界对于某理论长时间的争论才推动了学术向前发展。
那么,5G大数据时代这个过程有什么变化呢?最大的变化当属我们不需要为了成本和效率去向样本的选择妥协,在大数据时代,样本即整体。低廉的存储成本,爆炸式的数据增长,更透明的信息披露,使得数据不再像之前那样难以获取。与此同时,数据挖掘、清洗和处理技术的诞生,也让人类有能力进行大数据层面的分析和研究,从而实现“以大见小”。这样的方式还会对研究生态产生影响,香港大学林晨教授在谈及论文写作时曾说:论文的创新一是选题,二是机制,三是数据。
很显然,大数据时代研究所用的数据有可能会趋于同质化,因此,更多的创新会下沉到知识层面,或许这也是技术提升带来的研究层次的上升。当然,大数据还可能已经超越了整体,也就是说,我们可以用全球消费者的数据去研究某一地区消费者的行为,随着更多相关数据的加入,我们不但可以从内部入手研究,还能以一个全局的视角去观察、研究事物的变化。
平等对待数据不代表数据同等重要
随着大数据时代的到来,人类开始接受混杂的数据,开始倾向于模糊的预测,开始放弃直来直去的因果关系和整体与部分的关系。而这一切让我们能够站在全局的高度,不必为了成本和效率去忽略细节,甚至忽略不可知的关键因素。在5G大数据时代,通过数据的储存、分析和处理技术对全体数据进行分析,不仅让我们更准确地把握了事物的规律,同时也让我们发现了事物的更多细节,深度和广度都得到了拓展。
大数据的“大”并不是绝对意义上的大(虽然大多数情况下是这个意思),我们应当明白的是,大数据的“大”意味着能够完全概括整体的数据,但并不一定是所有的数据。它是一个系统或者一个整体的反映,甚至超出一个整体的反映,但它不是无止境的。因此,我们看待大数据并不是越大越好,而是越全越好,我们希望的是,透过数据能看到更多零碎事物之间存在的联系,而这种联系正是构成众多商业价值的关键因素。这是大数据赋予人类的能力,也是人类应该继续努力的方向,大数据让我们看清世界、让我们的预测更贴近事实,也让我们有更新和更有效的工具,从而更深入和更有效地将以往研究的碎片进行整合和融合。
不过,必须要提醒的是,我们还需回过头来审视大数据时代对人类社会的改变过程,确保我们不至于陷入过度兴奋的情绪当中。
首先,大数据并不只在于规模 。我们讲数据即世界,但并不代表我们需要能够得到的全部数据。诚然,在摩尔定律规则下,集成电路的发展呈指数级增长,并且随着设备的存储和计算能力的不断提升,价格不升反降,这在很大程度上推动了大数据的快速发展。但成本的下降不能视为没有成本,在大数据的运用过程中,我们依旧需要保持经济学的头脑,用最低的成本来换取最大的收益。大数据看似是“大”在规模,实际上是“大”在价值,重视意义永远比重视规模更加重要。比如,在一个天气晴朗的上午,用于农业气候检测的传感器,使用者并不要求它汇报每秒钟的数据,对于较为平稳的天气状况,每分钟的数据就已经完全够用了,甚至有时还可以只采集每小时的数据。而以秒、分钟、小时分别收集的数据之间却差了60~3 600倍,这种差距对于设备而言,负担是巨大的。强调衡量数据收集处理上的成本收益也给了我们这样的启示:大数据的运用给予我们的是一个近乎无限收集处理的能力,但究竟怎样用,需要结合具体的应用场景。比如,在金融市场上,即使以秒为单位进行数据处理,也会让我们损失惨重。
其次,平等对待数据并不代表数据同等重要。平等对待数据是一个从未知向已知的过程,而对数据的价值发现,是一个由浅入深的过程。5G大数据时代给了我们发现和处理问题的新范式,因而我们尽可能地收集详尽的数据,以察觉其中的蛛丝马迹。但若从另一个视角来看这个问题,我们就会发现,如果是以已知的理论进行数据搜集,我们一定会赋予数据不同的权重。还是拿农业气候检测的数据来举例:在一个多晴朗天气的地区,使用者对晴朗天气数据的渴求就会明显低于其他天气,使用者更希望得到多样的数据,以支持农业更好地发展,因此,如果一年当中80%的时间都是晴天,那么其他天气数据的重要性就显得格外重要。其实,价值不平等是大数据一个非常重要的特点。大数据的6V描述中有一个特点叫价值稀疏性,指的是在巨量的数据当中,仅有部分数据是具有研究意义的,但想要得到其中有意义的数据,就必须把所有的数据都拿到才可以,至于如何筛选和赋权,那就得交给专业人员了。
最后,当相关关系替代了因果关系,理论的重要性更为凸显。很多时候,人们强调,大数据时代让我们摆脱了因果关系,但其表达的意思是相关关系具有更简易的使用方法、更直接的商用价值。比如,那个沃尔玛“啤酒与尿布”的著名案例,假如沃尔玛的决策团队遵循的是以往超市摆放商品的方式,如此经典的案例很可能就不会出现了。很显然,从直觉上来说,男性购买婴儿尿布和购买啤酒这两种行为之间并不存在明显的关系,因此,按照理论分析得出两者相关是一件很困难的事。但既然数据显示了两者的相关性,那么一定存在一个并未观测到的现象,使得男性在购买婴儿尿布时会购买啤酒。只不过,在探究这个问题的内在关联时,不如按照大数据揭示的那样来赚钱更有吸引力。
因此,一个简单的观点认为,在5G大数据时代,从商业应用的角度来看,大数据分析的结果已经成为企业制定生产经营策略的重要参考,而企业的核心目标是实现利润的增长,所以,企业在分析和挖掘数据时的核心任务,是找出哪些经营策略与利润增长具有更强的相关性,至于这些经营策略为什么能使得利润增长,两者之间的因果关系怎样,并不是企业特别关心的问题。
但必须指出的是,这样的想法是不对的,或者说是短视的,及时利用数据显示的相关关系进行价值创造固然无可厚非,但完全抛开背后的理论知识,则有可能让企业在下一轮浪潮中处于下风。即使我们跳出了实验证明理论的固有思维,也并不意味着理论对价值的指导作用不存在。对于尿布和啤酒的研究,或许可以得到对男性消费的更深层次的理论,不仅可以更好地指导超市的经营,也可能会改变相关产品的设计生产环节,从而带来更大的价值。因此,大数据确实实现了“从数据到价值”的直接的商业范式,但也仅仅是在应用上跨过了形成理论这个步骤,人类发展的一切成果,最终还是要沉淀为承载知识的理论。