购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

存储和处理

我们面临两个挑战:在哪里存储如此大量的数据,以及如何对其进行计算。因此,下一类要谈论的术语是与存储和处理相关的术语。

数据流以前所未有的速度涌入,必须及时处理。传统的静态方法无法管理速度如此之快的数据。构建生产系统来捕获和存储这些数据需要一套不同的技术,以及一套新的系统来检索这些数据并在复杂的实时计算中使用它们。射频识别标签(RFID)、传感器和智能计量满足了实时处理数据洪流的需求。

在20世纪70年代,我们需要大型的中央主机系统来进行计算和存储数据。当个人计算机开始流行时,我们可以聘请数据处理公司提供服务,他们有自己昂贵的专门从事“数字运算”的计算机系统。今天,我们可以自己完成许多大型机的工作。计算、探索和分析都可以在我们的桌面上用现成的软件轻松完成,而且存储大量数据的工具每年都变得越来越便携。支持阿波罗无人登月计划的工具的计算能力还不及一台袖珍计算器,想想都让人害怕。如今,手表的功能要比原来强大得多。

然而,仅仅依靠台式机存储和运行大数据规模计算的能力,我们已经不能应对互联网的崛起和数据的指数级增长。对于在哪里存储和处理数据这两个挑战,今天的答案分别是云计算和分布式计算。

云计算

云计算对不同的人意味着不同的东西。对一些人来说,这只是“IT外包”的另一种说法。有些人使用这个术语来指代通过网络提供的任何计算服务,还有一些人将其定义为防火墙之外的、任何买进的计算机服务。云计算很简单,它不是把所有的计算机、硬件和软件都存储在你的计算机或你公司的网络上,而是由另一家企业通过互联网以一种朦胧的“云”形式为你提供服务。

云计算的目标是在现收现付或订阅的基础上交付托管服务,节省资源和成本。通常,你购买云计算服务的方式与购买电力、电话服务的方式并无差别——同样地,你也可以购买尽可能多或尽可能少的云计算服务,以满足每天的需求。如果你的需求是不可预测的,这很好:你不必购买自己的巨型计算机系统,当你不使用它的时候,可以让它待在那里什么也不做。你不必担心需要购买无数的许可来处理软件并使它们保持最新。你也不需要担心病毒会感染你的电脑,或者备份你创建的文件。

云计算使你能有效地存储和处理大量数据,因此你可以只专注于你的工作,而将提供可靠的计算支持交给其他人来处理。

一般来说,有三种不同的云计算。

基础设施即服务(IaaS) 指把IT基础设施,如服务器或存储器,作为一种服务通过网络对外提供,并根据用户对服务器的实际使用量或占用量进行计费。换句话说,这就是按需购买,随用随付,所以通常也被称作效用计算。

软件即服务(SaaS) 指平台供应商将应用软件统一部署在自己的服务器上,用户可以在他人系统上运行应用程序。如谷歌分析(Google Analytics)、Kissmetrics和Mix Panel等分析软件都是著名的软件即服务提供商,提供各种在线分析的应用程序。

平台即服务(PaaS) 指把服务器平台作为一种服务提供。供应商提供基于网络的应用程序开发工具,并在其提供的系统软件和硬件上运行。您可能会创建自己的电子商务网站,但整个服务,包括但不限于购物车、支付机制和售后服务,都在商家的服务器上运行。比如博客系统(WordPress)、苹果云(App Cloud)和谷歌应用引擎(Google App Engine)等服务器都是平台即服务的例子。

分布式计算

如今处理大量的数据带来了与存储大量数据相同的挑战——传统方法已经无法解决。根据不同的数据量,对计算机上的大量数据进行计算可能需要数天甚至更长时间。一种解决方案是减少计算中使用的数据量。然而,更多的数据会增加大多数算法的效率和效力,因此,这种方法并不可取。

于是我们就需要找到更智能的解决方案,比如利用多台计算机的能力。从最简单的意义上说,这就是分布式计算。

分布式系统由两台或两台以上的自定向计算机组成,它们通过网络进行联系,利用每台计算机的本地存储器来实现一个共同的目标。这些计算机可以联合起来解决一个大问题,把它分解成几个任务,让每台计算机单独处理某部分工作。

对于普通用户来说,分布式计算系统是一个单一的系统。然而,内部分布式系统连接到几个节点,每个节点执行指定给自己的计算任务。

让我们从用户的角度来考虑谷歌浏览器。当用户提交一个搜索查询时,他们登录谷歌浏览器并搜索所需的词条,显然使用的是一个单一的系统。然而在幕后,几个系统正在一起工作来完成这项任务。谷歌拥有分布在不同地理位置的多个服务器,它们在几秒甚至几毫秒内提供搜索结果。这就是分布式计算技术。

其优势显而易见:分布式计算系统的计算能力超过中央计算机,甚至超过大型中央计算机。此外,它们保证了增量增长,使得企业可以根据需要添加软件、增强计算能力。反过来,它提供了比中央计算机更好的性价比,因为添加微处理器比购买大型机更经济划算。然而,许多组织并没有通过购买一系列计算机来创建一个分布式网络来运行计算,而是选择利用云计算及其提供的一切,这使其成为当今数据的“首选”存储和处理平台。

现在,你可以在基于云计算的基础设施上存储大量数据。你可以使用软件即服务程序对这些数据进行一系列计算,还可以构建自己的产品,比如营销人员使用平台即服务访问客户数据的工具。 pesYc+IFTSoqwpQvYAY+8b6YuztGnToe2MOUEo0Xr1nzmS0A/NKHdJ5EWGJfQ0zX

点击中间区域
呼出菜单
上一章
目录
下一章
×