购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

为什么大数据对科学有害

汤姆·齐格弗里德

如果《星际迷航:下一代》在21世纪搬回荧幕的话,中将指挥官的昵称将会是“大”。

毕竟“大数据”是新世纪最流行的科技词汇。它出现在各个领域,从基因学、仿生学以及其他学科,到美国国家安全局关于一些特殊作者的数据库,这些作者在他们的博客上提到了美国国家安全局。社交网络、金融网络、生态网络都包含极大数量的数据,这些数据已经不能忍受当前计算机硬盘的存储能力。科学家们正在充满无尽信息的超级海洋里面游泳,这满足了他们对于数据天堂的狂热梦想。

这真是一场噩梦!

正如你看到的,科学家通常会看好大量数据的有效性,而且他们中的大部分都赞赏这些大量的数据给他们提供了研究机遇。但这或许是因为大家没有看到整个数据的概况。你会发现一些专家给出警告:大数据有着自己的缺陷。

普林斯顿大学的统计学家范建清以及他的同事们写道:“科学进步越来越多地依靠数据驱动。”他们还指出:大数据既带来了机遇,也对数据分析带来了新的挑战。

首先,巨大的数据集是极具诱惑力的。他们吸引大家进行挑战性的分析,以期待能够挖掘出更加有益的科学发现。但是有些时候,大数据意味着不好的数据。从大数据中汲取智能的见解是向计算机科学、统计推断方法甚至科学方法本身提出的极艰难的挑战。

当然,计算机科学家们通过开发超常的计算性能以及信息存储技术,已经使得大数据的累积存储成为可能。但是,收集数据而且存储信息并不等同于理解信息。弄清楚大数据意味着要理解大数据,这和解释少量数据并不一样,正如理解鸟类的群体行为并不能解释一只孤单海鸥的叫声。

规范的统计测试方法以及计算程序已经被设计出来用以分析从大量群体中取出的少量样本,进而得出科学结论。但是大数据提供了极其大量的样本,在一些情况下样本可能包含所有或者大部分的群组数据。这项任务的量级将会为计算过程的具体实现带来问题。

加州大学伯克利分校的迈克尔·乔丹称,大部分的统计程序要么拥有不确定的运行时间,要么拥有致使在大规模数据上不可用的运行时间。面对这种情况,大规模数据的收集者通常被强制使用特定程序,这些程序可能会有较差的甚至灾难性的统计特性。

听起来很糟糕,但实际却变得越来越糟糕。不仅大数据取样需要花费更多的时间进行分析,而且,他们通常也包含大量关于同一事物的不同类型的采样信息,这意味着他们是统计意义上的高维数据。更多的维数提升了找到伪相关的风险:即表面上很重要的关系实际上仅仅是巧合。例如,一项医学研究可能将一种药物和病人体重联系起来。但是,那或许是因为大数据包含了各项数据,这些数据从身高体重到眼睛颜色、鞋码大小以及喜爱的棒球队等。因为有着这么多维度的信息需要考虑,某种信息看起来很重要可能仅仅是偶然。

范建清以及他的合作者说道:“高维度可能会带来错误的统计推断以及错误的科学结论。”除此之外,他们还指出:“大数据的获取工作常常包含多种来源的、不同时间的、使用多种技术和方法采集的信息。这带来了诸多问题,包括异构问题、实验差异以及统计偏差等,要求我们开发更加合适的以及鲁棒的程序。为了应对大数据带来的挑战,我们需要新的统计学思维和计算方法。”

许多计算机科学家和统计学家已经意识到了这些问题,而且为了解决它们,很多工作已经开展。但是我们要做的不仅是聚合一些更为精细的统计学方法,我们可以做得更多。科学家们也需要面对一些偏差,这些偏差来源于每日的稀疏数据中,关于什么是科学以及科学应该怎样工作。

实际上,大数据的到来驱使科学家们应对这样一个事实:自然本身是一个终极的大数据数据库。传统的科研方法在由实验获取的稀疏数据中寻找潜在的简单原理,进而解决自然的复杂性问题。但是,大数据驱使科学家们面对自然界中所有的细微差别以及所有的复杂性事物。

例如,在医学研究中,无数因素都能够影响一种药物是否能够治愈一种疾病。传统的医学实验已经能够同时研究这些因素中的一些。经验科学的方法(观察、描述、推断)不能够可靠地处理多于这样一些因素的情况。现在,大数据的出现使得实际收集极大数量的相关信息成为可能,因而传统的经验科学方法已经不能胜任这些工作。

但是事实比那些还要糟糕。新英格兰复杂系统研究所的巴哈彦在一篇最近发表的论文中指出:“不管获取的大数据如何之大,他都不足够大,使得能够真正包含所有相关的信息。”

他写道:“对于任何有状态系统,描述自身所需要信息的数量不能够在任何合理时间内被传播,也不能够在任何合理的媒介中被写入。”

因此,科学不能够依靠严格的经验研究方法来解答复杂系统的问题。有着太多可能影响系统的因素,也存在着太多对于任意给定条件下系统可能做出的响应。为了更有效地使用大数据,科学家或许需要更多研究,才能让理论和实践达到一致。 y9rsn6diAobmuedTtqVLE3GaTzcSYqsoMR/d8vUH2o0lUmn2QF+cCdpSQb1HgA3e

点击中间区域
呼出菜单
上一章
目录
下一章
×