购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二节
大数据的实质

如本章引言所述,大数据的含义取决于其使用的语境;对它的定义没有共识。然而,我们可以在文献和政策文件中找到普遍特征,这也是本节所采用的界定大数据的方法。概念分析首先对为引入该术语奠定基础的研究进行描述性总结,然后分析得到学术界、决策者和行业专家大力支持的有关大数据的阐述。通过分析这些观点的共通之处,形成对大数据的通常认识,这也正是本书将要使用的大数据概念。

大数据最重要的发展动因当然是数字计算机的发明。近年来,数字计算机及其存储和处理能力的进步稳步提升了数据处理的可能性。 同时,存储和处理数据的成本大为降低。随着互联网和万维网在20世纪早期的兴起,数字数据的“生产”开始呈指数级增长。互联网和数字技术在人们日常生活中的地位日益重要,数字信息的创造和共享不断发展壮大,很难计算数字领域的所有数据 (但已有估计)。根据北欧2013年的研究,世界上90%的数据是在该研究前两年产生的。 思科(Cisco)在2013年预测,2016年全球年度IP流量将超过1泽 [8] 字节。 据国际数据公司估计,“数字宇宙”目前的大小超过4.4泽字节。 近年来,现代科技和社会发展推动了数字数据量的空前增长,量化自我运动就是例证。 通过佩戴在身体上(甚至体内)的传感器,人们能够持续跟踪自己的身体状况。 自动跟踪器持续收集和分析数据,例如他们的体重、睡眠时间、心率和卡路里摄入量;这些数据也被跟踪软件的提供商传输和使用。 与量化自我相关但更广泛的是物联网的发展;有体物在没有人工干预的情况下在线。 [9] 通过电子设备、传感器和RFID标签, 各种各样的“物品”都可以连接到网络上,比如家用电器、消费品,甚至是家畜。 [10] 所有不同的设备、对象和传感器都在传输连续的数据流。这些数据可能与社会中的个人有关,比如前文提到的健康数据,但也可以是与个人或人类无关的数据,如在生产过程中由传感器测量的数据,或收集的某些关于自然现象或天文学的数据。

总而言之,自从数字时代开始以来,数字数据的创造一直在增加,今天的数据量在第一台数字计算机问世时是始料未及的。这进一步导致大量的数据需要存储。存储的信息为替代用途创造了可能性;从中可以分析数据并收集可能有用的知识。因此,数字数据的生产和可用性的增加激发了一种新的思维,即认为数字数据是一种洞察、解决问题和提高流程效率以及有效性的资源。私主体和公共机构都认识到从原始数据中可以获得的潜在价值,并试图实现相应价值。

这种新的思维方式,以及随之而来的数据生产等社会变化,刺激了大数据定义中的技术创新。为实现对数据价值的利用这一新的思路,需要数据存储和分析方面新的技术解决方案。为了从技术角度讨论这些发展,大数据通常被描述为三个V:体量(volume)、速度(velocity)和多样性(variety)。 体量指的是数据量,也就是存储和处理大量数据的能力。没有固定的定义或最小的字节量来决定数据是否为“大”。某数据集是否属于大数据以个案判断为基础,通常由常用的软件工具管理。 大数据环境下的速度指的是整个流程中各个方面的速度:输入数据的速度、输出数据的速度、反馈回路的最小化,等等。 [11] 多样性是指数据的种类,其中包括不同的内容、不同的数据格式以及来自不同源头的数据。处理各种(非结构化)数据并将它们组合起来进行分析,这给计算机科学带来了新的挑战, [12] 速度和体量也是如此。这一需求刺激了创新,比如分布式计算和云计算。随着对数字数据的利用和获取价值的新方法的出现,需要新的存储和分析解决方案。这种循环还在继续:对利用数据越来越感兴趣的文化现象与计算机科学发展相互促进。

大数据也被描述为超过传统数据库系统存储和处理能力的数据, 因此是一个需要新的技术解决方案的数据存储和处理问题。然而,这不是一个站得住脚的结论性定义。它指的是当前的标准和技术现状,从捕获信息开始,这就是一个以不同形式不断出现的问题。同样,产生的数据量本身不能成为大数据的决定性因素。 [13] “大”是相对的,不是绝对的; [14] 它是一个形容词,其意义由其所处的语境决定。将大数据描述为存储大量数据的新近问题是不准确的,并且忽略了与“大数据”这种通俗说法相关的其他许多非技术现象。在法律框架和保护个人权利和自由方面,重要的是收集和处理个人数据,并根据数据作出影响个人生活的决定。某些软件或方法, 抑或专注于相关性而非因果关系, [15] 如作为定义的一部分,都将对本书的研究形成不必要的限制,分析的目的或方法在判定大规模数据的分析是否影响个人私生活方面既非经久不衰,也不是决定性的。

综上所述,大数据可以用许多不同的方式来定义, 但在本书中,大数据被认为是由计算机科学的技术发展所引起的社会技术现象的总称。这与大数据在社会中的用法是一致的。从法律角度来看,大数据的关键要素是将(个人)数据视为原始数据的观点,为了多重和不确定的目的而保存和收集大量数据的意图,以及使用计算分析作为决策的基础。虽然这不是大数据定义的必要前提,但本书仅关注收集的数据是个人数据 和/或相关决策影响个人权利和自由时的数据。大数据的定义在第四节中有更详细的解释,并对作为一个流程的大数据进行了更深入的分析。 Ubf2+wz9sbA3q5U4sLB0KyTikpE8aEFuQBWHYL/ybLI62FCmiVglF0XdDznyAXOh

点击中间区域
呼出菜单
上一章
目录
下一章
×