购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

大数据的发展凸显科学研究对理论的需求

汤姆·齐格弗里德

弗朗西斯·培根是一位科学哲学家,在他生活的时代,并没有太多真实的科学技术被用来进行哲学探讨。

四个世纪以前,也就是在牛顿确立运动定律和万有引力定律之前,培根打算总结科学研究的一般规律。培根将科学研究对于观察和实验的需求明确地表达出来,这也是获取知识的经验主义方法。他批判了亚里士多德的追随者们对于古老权威的盲目肯定。

培根宣称,只有记录所有观察到的现象,并对所有可能进行经验主义的解释,才能使科学发现自然的真理。例如,如果你想要了解热量特性的真正解释,你需要记录各种热量相关现象的所有观测数据,并进行实验来排除错误的解释。换句话说,培根是大数据的爱好者。

随着当前大量数据化的、包含从微博分享到分子医学的海量数据的集合,培根的梦想已经实现,除了经验主义方法在实际大数据上没有太起作用。培根向西方文化意识中灌输了一种对于实验根深蒂固的痴迷,然而这带来了一个问题。

事实上,理论已经拥有了他的拥护者,尤其在物理学领域。因为在物理学领域,自然潜在的简单特性会导向简洁数学表达式的产生。根据那些数学理论,科学家能够建立真实世界的模型,并且能够和观察结果进行比较,验证理论的正确性。但是,新英格兰复杂系统研究所的巴哈彦在一篇最近发表的论文中指出:“当前盛行的观点是,生活和社会的复杂性决定了描述它们的理论模型并不容易建立。”

目前的理论不能够描述类似人类行为,或者药物对于疾病的作用这类事情的复杂性。如果能够描述的话,我们只需要通过实验就可以查明大脑工作的原理,并找到治疗疾病的方法。

但是,巴哈彦强调,实际上经验主义方法不能够处理复杂系统带来的所有事实,因而理论方法是必不可少的。

他写道:“在对由实验获取的信息进行分析的基础上,理论对于理解复杂系统变得更加重要。”

为什么会这样呢?因为大数据并没有大家想象的那样大。

巴哈彦使用信息理论中的培根归纳法进行观察和实验,并通过分析、理解系统的行为,得到了上述结论。首先,你必须指定需要观察的系统、所有能够影响到系统的条件以及所有对于这些条件可能的响应;然后,信息理论能够告诉你需要多少数据,才能判断系统在各个可能的情况下将要做什么。

对于任何具有相当高复杂度的系统,答案是不存在足够的数据。

例如在临床试验中,研究人员使用经验主义方法判断一种药物是否能够治愈一种疾病。在最简单的层次下,系统(病人)只接受一种状态(服用药物或者不服用药物),并且只回应两种可能的输出(治愈和没有治愈)。但是在现实生活中,实际存在更多条件,也存在更多可能的输出。疾病可能非常严重或者有点严重,也有可能和其他疾病一起发生。病人在年龄性别上不同,大量遗传变异方面也存在不同。结果也不限于治愈或者没有治愈。一些症状可能缓解,也有一些症状可能加重。和疾病无关的副作用可能对一些病人很常见,对其他病人却不常见。

增添病人参与实验会进一步增加可能的条件和结果,导致问题变得更加混乱。结果,经验主义方法的真实性还需要独立的群体验证每一种条件,而且每一个群体样本需要足够大来包含所有可能的结果。但这种条件是很难达到的。

当然,这并不是说拥有数据是坏事。没有获取大量数据的情况下,想掌握复杂系统是不可能的,因此,大数据有它的优势。但是想要大数据足够大,大到可以用当前经验主义方法获取合理结论,还是不太现实。

巴哈彦指出:“‘大数据’的到来对于解决复杂系统的问题极其关键,但是在潜在非常丰富的数据集中没能挖掘数据稀疏性的情况下,我们能取得的进步非常有限。”

因为即使是大数据,也不能看作是足够的数据,因此,使用严格的经验主义方法来解决复杂系统是不合适的,必须要有一个理论模型。巴哈彦断言称:“对于高度复杂的生物和社会系统,要想取得科学进步,必须建立理论模型。”

模型也有它们的缺陷,而且并不是任何一个模型都会起作用。巴哈彦还指出,一些模型仅仅是描述一些已经完成的观察报告。另一方面来讲,一个有用的模型能够对系统的信息进行数据压缩,挖掘出没有被直接观察到的规律和结果。毕竟,科学的首要价值是预测未来将要发生什么事情,而不是描述那些已经发生的事情。

但是,在当前技术条件下,大数据本身,对于进行精确分析数据量很大,对于保证结果准确性数据量却不足够大。为了得到关于现实世界可靠的知识,对于经验主义科学的热爱必须让步于提升理论建模的地位。

巴哈彦坚持说道:“经验观察值并不会比对于未来的直接观测值更有用。只有通过一些形式模型或者理论的泛化形式,才能帮助我们利用过去的信息来预测未来的情况。”

良好的科学不会不可思议地从大量数据集中主动出现,而是需要从大量无用信息中提取出有价值的信息。大数据本身并不能很好地区分以上两者,而这正是理论模型可以做的事情。

巴哈彦宣称:“最终,不确定性知识必须依赖根据重要性区分不同信息的能力。实验观察也必须侧重于这部分信息,而不是其他信息。因此,理论的必要性在于其能够鉴别那些重要部分的信息。”

弗朗西斯·培根已经领会到了这些。他是一位大数据的粉丝。他认为真正哲学的建立是对事实的存储,是一个包含所有相关信息的自然和实验的历史。但是他也相信,理论应该寻求物理成因相关的潜在实验,以便能够预测生成理论数据中没有包含的结果,这也是哲学家彼得·乌尔巴赫所指出的。

培根认为理论和实验应该相辅相成,科学家们为了社会的利益共同探索形成可靠的科学。巴哈彦强调了类似的观点。如果大数据将要造福人类,那么他们的风险以及经验主义的限制也必须被我们认识到。

巴哈彦写道:“实际应用于医学、管理以及政治领域的方案需要一个更好的关于我们如何有效理解生态和社会系统的框架。认清那些经验主义方法不能很好地扩展到复杂系统,因而理论和实验必须齐头并进,这也是往正确科学方向前进重要的一步。” z5wl/TpffSKRmt41pBIWBiLG2bBoKmdwItsp0Xx/0/bUbGMPMQDXDSLqgeasRapV

点击中间区域
呼出菜单
上一章
目录
下一章
×