为了阐明本书的主题,描述大数据如何影响社会中的个人,本章介绍了大数据及其对个人权利和自由的影响。本书是关于大数据的研究,但是大数据这个术语是不确定的。它是一个流行的、无法自证其明的表达,“能够将所有不符合常见定义的数据都涵盖在内”。 [1] 它的确切含义因使用的语境而异,大数据项目中使用的概念和技术早于其定义本身。 [2] 总之,大数据很难描述,对其定义也尚未形成共识,但大数据至少意味着思考和处理数据方式的转变。由于大数据对个人和社会已经产生和可能产生的影响,它体现了值得密切审视的社会技术发展。
本章从文献综述开始,概览对大数据的种种描述及其影响。随后详细阐述了大数据的一般概念,并解释了本书给出的大数据定义。第三节以三个不同领域的大数据为例,这些例证可以作为大数据理论探讨的实践补充,也可以作为贯穿全文的有关大数据功能的例证,尤其是有关大数据后果的解释。第四节通过对大数据流程的审视,详细阐明了大数据的定义。这种大数据流程的三阶段模型使得随后的章节可以从法律角度分析大数据的不同方面。第五节首先解释了大数据的积极影响,然后将重点转向大数据对个人权利和自由的负面影响。
普遍认为信息技术研究公司高德纳(Gartner)在2001年提出了大数据的基本要素,咨询公司麦肯锡(McKinsey)在2011年引入了大数据这一术语。 然而,有关大数据的表达与其通常内涵都并不新鲜。 最重要的是,研究从(大型)数据库中提取知识的概念已经持续多年,并被冠以数据科学、数据挖掘、数据库中的知识发现等。 [3] 从2001年到2011年的变化是,公司试图处理的数据集对于传统数据处理系统来说过于庞大,需要海杜普(Hadoop) 等新的技术解决方案来处理海量数据。 [4] 人们对这些技术发展寄予厚望,大数据成为一个流行术语(尤其是在商业领域)。因此,出现了大量关于大数据的技术文献。 这类文献在本书中基本没有使用,因为它无助于从法律角度理解大数据。
随着大数据成为一个更加流行和普遍的概念,以及其实际应用的增加,该术语的内容也随之扩大,因为它的使用环境越来越多样化。互联网上有关大数据的“快餐文献”人气高涨:这些著述看上去丰富了既有的知识和论辩,但实际上只是使用大数据这一术语吸引大众以实现商业目的或挑战必须遵守的既有数据保护原则。 大数据也越来越多地出现在学术和科普文献中, [5] 这些出版物经常关注大数据对社会的影响(无论是积极的还是消极的)。大数据受到人文学科知名学者的特别关注,他们研究了数字化对社会和个人的影响。 法律文献中关于大数据的讨论也有所增加, [6] 亦出现了社会科学和法学的交叉研究,特别是在更通俗的科学文献中。 [7] 在法学文献中,大多数文章关注信息隐私,通常讨论当前数据保护范式(或部分范式)在多大程度上被大数据打破或将要被打破,或需要重新概念化。 相关文献还涵盖了数据所有权和数据获取等主题,另有文献侧重于与大数据相关的更广泛主题,如伦理问题。 大量文献在提及大数据的同时并未对其进行定义,似乎倾向于将大数据与一般的个人数据处理相等同。 也有越来越多的政策文件讨论与大数据相关的机遇和风险。 本章所提及的很多文献并没有专门提到大数据,而是针对本章所定义的大数据(或部分内容)以解释大数据是如何工作的,或者大数据流程的特定特征有哪些影响。