购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 云计算

云计算应运而生,它在处理海量数据方面有着技术固有的优势,其中开源云计算平台正受到知名互联网公司和数据库厂商的支持;云计算技术越来越受到国内外研究者们的关注,成为海量数据处理技术研究热点。

3.1.1 云计算的概念

云计算(cloud computing)是在2006年出现的新概念,但却在出现之后短短半年内,得到了各大公司和研究机构的高度关注,且关注热度一直居高不下。它是继20世纪80年代大型计算机到客户端—服务器的大转变之后的又一种巨变,同时也是分布式计算(distributed computing)、并行计算(parallel computing)、效用计算(utility computing)、网络存储(network storage technologies)、虚拟化(virtualization)、负载均衡(load balance)、热备份冗余(high available)等传统计算机和网络技术发展融合的产物。

云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法,过去往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让用户体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过台式电脑、笔记本电脑、手机等方式接入数据中心,按自己的需求进行运算。

对于到底什么是云计算,至少可以找到100种定义。现阶段广为接受的是美国国家标准与技术研究院的定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

云计算是通过分布在大量的分布式计算机上,而非本地计算机或远程服务器进行计算,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。好比是从古老的单台发电机模式转向了电厂集中供电的模式,这意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便、费用低廉,不同之处在于,它是通过互联网进行传输的。被普遍接受的云计算的特点如下。

(1)超大规模。“云”具有相当的规模,谷歌云计算已经拥有100多万台服务器,亚马逊、IBM、微软、雅虎等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。

(2)虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解,也不用担心应用运行的具体位置;只需要一台笔记本电脑或者一部手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。

(3)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。

(4)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。

(5)高可扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。

(6)按需服务。“云”是一个庞大的资源池,你按需购买;“云”可以像自来水、电、煤气那样计费。

(7)极其廉价。由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。

(8)潜在的危险性。云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前被垄断在私人机构(企业)手中,他们仅仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)在选择云计算服务时应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。另一方面,云计算中的数据对于数据所有者以外的其他用户是保密的,但是对于提供云计算的商业机构而言却毫无秘密可言。所有这些潜在的危险,是商业机构和政府机构选择云计算服务,特别是国外机构提供的云计算服务时,不得不考虑的一个重要前提。

3.1.2 云计算的历史和现状

云计算是多种技术混合演进的结果,其成熟度较高,又有大公司推动,发展极为迅速。谷歌、亚马逊、IBM、微软和雅虎等大公司是云计算的先行者。云计算领域的众多成功公司还包括Salesforce、Facebook、YouTube、MySpace等。

云计算的历史可以回溯到1983年,当时太阳电脑提出“网络是电脑”的概念,可以算作云计算的雏形。2006年3月,亚马逊推出弹性计算云服务。

2006年8月9日,谷歌首席执行官埃里克·施密特在搜索引擎大会首次提出“云计算”的概念;谷歌“云端计算”源于谷歌工程师克里斯托弗·比希利亚所做的“Google101”项目。

2007年10月,谷歌与IBM开始在美国大学校园,包括卡内基梅隆大学、麻省理工学院、斯坦福大学、加州大学伯克利分校及马里兰大学等,推广云计算的计划,这项计划希望能降低分布式计算技术在学术研究方面的成本,并为这些大学提供相关的软硬件设备及技术支持(包括数百台个人电脑及Blade Center与Systemx服务器,这些计算平台将提供1 600个处理器,支持包括Linux、Xen、Hadoop等开放源代码平台);而学生则可以通过网络开发各项以大规模计算为基础的研究计划。

2008年1月30日,谷歌宣布在中国台湾启动“云计算学术计划”,将与台湾大学、台湾交通大学等学校合作,将这种先进的云计算技术大规模、快速地推广到校园。

2008年2月1日,IBM宣布将在中国无锡太湖新城科教产业园为中国的软件公司建立全球第一个云计算中心(cloud computing center)。

2008年7月29日,雅虎、惠普和英特尔宣布一项涵盖美国、德国和新加坡的联合研究计划,推出云计算研究测试床,推进云计算。该计划要与合作伙伴创建6个数据中心作为研究试验平台,每个数据中心配置1 400~4 000个处理器。这些合作伙伴包括新加坡资讯通信发展管理局、德国卡尔斯鲁厄大学Steinbuch计算中心、美国伊利诺伊大学香槟分校、英特尔研究院、惠普实验室和雅虎。

2008年8月3日,美国专利商标局网站信息显示,戴尔正在申请云计算商标,此举旨在加强对这一未来可能重塑技术架构的术语的控制权。

2010年3月5日,Novell与云安全联盟共同宣布一项供应商中立计划,名为“可信任云计算计划(trusted cloud initiative)”。

2010年7月,美国国家航空航天局和包括Rackspace、AMD、英特尔、戴尔等支持厂商共同宣布“OpenStack”开放源代码计划,微软在2010年10月表示支持OpenStack与Windows Server 2008R2的集成;而Ubuntu已把OpenStack加至11.04版本中。

2011年2月,思科系统正式加入OpenStack,重点研制OpenStack的网络服务。

2012年4月,OpenStack发布了Essex版本,Ceph拥抱OpenStack,进入Cinder项目,成为重要的存储驱动。

2013年,IBM收购SoftLayer,提供业界领先的私有云解决方案。Docker发布,使用了LXC,同时封装了一些新的功能,是一种成功的组合式创新。

2014年3月,微软正式宣布云平台Microsoft Azure在中国正式商用;同年4月,微软Office 365正式落地中国。

2015年4月,Citrix宣布以企业赞助商的方式加入OpenStack基金会,不久后的7月,谷歌也加入了OpenStack基金会。

2016年1月,软公司首席执行官萨提亚·纳德拉在达沃斯论坛上宣布了一项全新的计划——Microsoft Philanthropies,将在未来三年为7万家非营利组织以及高校科研机构提供价值10亿美元的微软云计算服务。

2017年8月,在VMworld 2017大会上,VMware和Amazon Web Services共同宣布VMware Cloud TM on AWS初步可用。

在我国,云计算发展也非常迅猛。2008年,IBM先后在无锡和北京建立了两个云计算中心;世纪互联推出了CloudEx产品线,提供互联网主机服务、在线存储虚拟化服务等;中国移动研究院已经建立起1 024个服务器的云计算试验中心;解放军理工大学研制了云存储系统Mass Cloud,并以它支撑基于3G的大规模视频监控应用和数字地球系统。作为云计算技术的一个分支,云安全技术通过大量客户端的参与和大量服务器端的统计分析来识别病毒和木马,取得了巨大成功。瑞星、趋势、卡巴斯基、McAfee、Symantec、江民、Panda、金山、360安全卫士等均推出了云安全解决方案。2008年11月25日,中国电子学会专门成立了云计算专家委员会。2009年5月22日,中国电子学会隆重举办首届中国云计算大会,1 200多人与会,盛况空前。2009年11月2日,中国互联网大会专门召开了“2009云计算产业峰会”。2009年12月,中国电子学会举办了中国首届云计算学术会议。2010年5月,中国电子学会举办了第二届中国云计算大会。2010年10月,我国国家发展和改革委员会、工业和信息化部联合发布了《关于做好云计算服务创新发展试点示范工作的通知》,在北京、上海、深圳、杭州、无锡五个城市先行开展云计算创新发展试点示范工作。2015年12月,中国国家标准化管理委员会正式下达17项云计算国家标准制修订计划。2016年3月,阿里巴巴集团发布物联网战略,阿里首次对外推出包括阿里云、阿里智能、YunOS等事业群中国首个国家级大数据综合试验区正式获批开建。2017年4月,中国工业和信息化部信息化和软件服务业司发布了《云计算发展三年行动计划(2017—2019年)》,旨在促进云计算在各行业的快速应用,推动各领域信息化水平大幅提高。2017年3月,腾讯云以1分钱中标预算达495万元的厦门政务外网专有云平台;同年4月,华为宣布发力公有云市场,成立二级部门云业务部Cloud BU。

随着国内外云计算应用及研究的不断推进,其研究的技术要点也日益丰富,主要包括:虚拟化技术,云计算存储结构研究,云数据管理的研究,云编程模式的演示,云网络的研究以及云安全的研究。在云计算系统的后端,有成千上万的服务器,如何将如此大量的服务器有效地组织是云计算系统高效稳定运行关键问题之一。云计算系统后端的网络拓扑有别于一般的网络拓扑特性:它的服务器节点分布广泛,数据流量大,服务等级区分度高,扩展性和可靠性要求较强,拓扑结构相对复杂,因此具有重新研究的必要性。Hadoop作为目前最为广泛应用的开源云计算软件平台,成功地设计了分布式存储和计算对使用者透明的框架,在短短的一两年时间内,已经在多家网络公司的云计算平台上面得到了应用,但由于其发展时间短,还有较多需要改进的地方,比如其中MapReduce的任务调度就是一个亟待解决的问题。

3.1.3 云计算的实现机制

云计算可以分为基础设施即服务(InfrastructureasaService,IaaS)、平台即服务(PlatformasaService,PaaS)和软件即服务(SoftwareasaService,SaaS)三种类型,目前还没有一个统一的技术体系结构。综合当前的主流云计算方案,图3-1所示的云计算技术体系结构较全面地概括了重要的云计算技术。

我们将云计算技术体系结构分为四层:物理资源层、资源池层、管理中间件层和面向服务(SOA)架构层。

(1)物理资源层,包括计算机、存储器、网络设施、数据库和软件等。

(2)资源池层,是将大量相同类型的资源构成同构或接近同构的资源池,如计算资源

图3-1 云计算技术体系结构

池、数据资源池等。构建资源池更多是物理资源的集成和管理工作,例如研究在一个标准集装箱的空间如何装下2 000个服务器,解决散热和故障节点替换的问题并降低能耗等。

(3)管理中间件,负责对云计算的资源进行管理,并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务,安全管理提供对服务的授权控制、用户认证、审计、一致性检查等功能。服务组合提供对有云计算服务进行组合的功能,使得新的服务可以基于已有服务创建时间。

云计算的管理中间件负责资源管理、任务管理、用户管理和安全管理等工作。资源管理负责均衡地使用云资源节点,检测节点的故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计;任务管理负责执行用户或应用提交的任务,包括完成用户任务映像的部署和管理、任务调度、任务执行、任务生命期管理等;用户管理是实现云计算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等;安全管理保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等。

(4)面向服务(SOA)架构层,它是一个组件模型,将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种各样的系统中的服务可以以一种统一和通用的方式进行交互。将云计算能力封装成标准的Web Services服务,并纳入SOA体系进行管理和使用,包括服务注册、查找、访问和构建服务工作流等。管理中间件和资源池层是云计算技术的最关键部分,SOA架构层的功能更多依靠外部设施提供。

基于上述体系结构,以IaaS云计算为例,简述云计算的实现机制,如图3-2所示。用户交互接口向应用以Web Services方式提供访问接口,获取用户需求;服务目录是用户可以访问的服务清单;系统管理模块负责管理和分配所有可用的资源,其核心是负载均衡;配置工具负责在分配的节点上准备任务运行环境;监视统计模块负责监视节点的运行状态,并完成用户使用节点情况的统计。IaaS执行过程并不复杂:用户交互接口允许用户从目录中选取并调用一个服务;该请求传递给系统管理模块后,它将为用户分配恰当的资源,然后调用配置工具来为用户准备运行环境。

图32 IaaS实现机制

3.1.4 云计算的发展趋势

1)虚拟化技术

虚拟化,是一种资源管理技术,它将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部分是不受现有资源的架设方式、地域或物理组态所限制。虚拟化使用软件的方法重新定义划分IT资源,可以实现IT资源的动态分配、灵活调度、跨域共享,提高IT资源利用率,使IT资源能够真正成为社会基础设施,服务于各行各业中灵活多变的应用需求。

云计算的基础是虚拟化,云计算是在虚拟化出若干资源池以后的应用,虚拟化助推了云计算的发展,未来中国大多数X86企业服务器将实现虚拟化。随着服务器等硬件技术和相关软件技术的进步、软件应用环境的逐步发展成熟以及应用要求不断提高,虚拟化由于具有提高资源利用率、节能环保、可进行大规模数据整合等特点成为一项具有战略意义的新技术。随着各大厂商纷纷进军虚拟化领域,开源虚拟化将不断成熟,软硬协同的虚拟化将加快发展。在这方面,内存的虚拟化已初显端倪;同时,网络虚拟化发展迅速。网络虚拟化可以高效地利用网络资源,具有节能成本、简化网络运维和管理、提升网络可靠性等优点。

2)数据中心

目前传统数据中心的建设正面临异构网络、静态资源、管理复杂、能耗高等方面问题。云计算数据中心与传统数据中心有所不同,它既要解决如何在短时间内快速、高效完成企业级数据中心的扩容部署问题,同时要兼顾绿色节能和高可靠性要求。高利用率、一体化、低功耗、自动化管理成为云计算数据中心建设的关注点,整合、绿色节能成为云计算数据中心构建技术的发展特点。

数据中心的整合首先是物理环境的整合,包括供配电和精密制冷等,主要是解决数据中心基础设施的可靠性和可用性问题。进一步的整合是构建针对基础设施的管理系统,引入自动化和智能化管理软件,提升管理运营效率。还有一种整合是存储设备、服务器等的优化、升级,以及推出更先进的服务器和存储设备。艾默生公司就提出,整合创新决胜云计算数据中心。

兼顾高效和绿色节能的集装箱数据中心出现。集装箱数据中心是一种既吸收了云计算的思想,又可以让企业快速构建自有数据中心的产品。与传统数据中心相比,集装箱数据中心具有高密度、低PUE、模块化、可移动、灵活快速部署、建设运维一体化等优点,成为发展热点。国外企业如谷歌、微软、英特尔等已经开始开发和部署大规模的绿色集装箱数据中心。

通过服务器虚拟化、网络设备智能化等技术可以实现数据中心的局部节能,但尚不能真正实现绿色数据中心的要求,因此,以数据中心为整体目标来实现节能降耗正成为重要的发展方向,围绕数据中心节能降耗的技术将不断创新并取得突破。数据中心高温化是一个发展方向,低功耗服务器和芯片产品也是一个方向。

3)区块链技术

区块链技术(block chain technology,BT)也被称为分布式账本技术,是一种互联网数据库技术,其特点是去中心化、公开透明,让每个人均可参与数据库记录。区块链技术最早是比特币的基础技术,目前世界各地均在研究,可广泛应用于金融等各领域。如果我们把数据库假设成一本账本,读写数据库就可以看作一种记账的行为,区块链技术的原理就是在一段时间内找出记账最快最好的人,由这个人来记账,然后将账本的这一页信息发给整个系统里的其他所有人。这也就相当于改变数据库所有的记录,发给全网的其他每个节点,所以区块链技术也称为分布式账本。

作为第一个用于商业和个人交易的点对点全球平台,区块链的出现可以说是近年来最令人兴奋的技术突破之一。区块链是一个可信任的、由最先进的加密技术加密的分布式账本,是数字时代以来最安全的系统。只有一个闭合的参与者圈子有权访问,而且每个参与者只能查看他们在交易中被授权的信息。

目前,已经有大量的企业开始选择基于云的区块链网络,这一趋势将在今后延续。预估,将区块链应用于全球供应链每年可能会产生超过1 000亿美元的效率。最佳的系统将以应用程序编程接口或者解决方案的形式存放在云端,供企业大规模使用。

4)安全性

安全性正越来越成为企业考虑平台的重要指标之一。未来云计算平台,云管理员设备和云服务器之间的连接可以加密,也可支持多种认证机制,即基于虚拟关用网络的解决方案、共享密钥+用户名+密码、安全声明标记语言和其他联合身份标识、智能卡身份验证等。

云计算作为一种新的应用模式,在形态上与传统互联网相比发生了一些变化,势必带来新的安全问题,例如数据高度集中使数据泄漏风险激增、多客户端访问增加了数据被截获的风险等。云安全技术是保障云计算服务安全性的有效手段,它要解决包括云基础设施安全、数据安全、认证和访问管理安全以及审计合规性等诸多问题。云计算本身的安全仍然要依赖于传统信息安全领域的主要技术。另一方面,云计算具有虚拟化、资源共享等特点,传统信息安全技术需要适应其特点采取不同的模式,或者有新的技术创新。另外,由于在云计算中用户无法准确知道数据的位置,因此云计算提供商和用户的信任问题是云计算安全要考虑的一个重点。总体来说,云计算提供商要充分结合云计算特点和用户要求,提供整体的云计算安全措施,这将驱动云计算安全技术发展,云计算安全技术将在加密技术、信任技术、安全解决方案、安全服务模式方面加快发展。

云计算不断发展的认知能力将能更快地识别和消除云端的安全漏洞。以安全智能为基础的认知解决方案不仅能生成答案,还可以产生假设、循证推理并提供建议,以改进决策。因此,认知安全将有助于弥补当前的技能差距,实现快速响应,并降低应对网络犯罪的成本和复杂性。

5)分布式计算技术

云计算不仅是将资源集中,更重要的是资源的合理调度、运营、分配、管理。云计算数据中心的突出特点,是具备大量的基础软硬件资源,实现了基础资源的规模化。但如何提高这些资源的利用率,降低单位资源的成本,是云计算平台提供商面临的难点和重点。资源调度中心、副本管理技术、任务调度算法、任务容错机制等资源调度和管理技术的发展和优化,将为云计算资源调度和管理提供技术支撑。不过,正成为业界关注重点的云计算操作系统有可能使云计算资源调度管理技术走向新的道路。云计算操作系统是以云计算、云存储技术作为支撑的操作系统,架构于服务器、存储、网络等基础硬件资源和单机操作系统、中间件、数据库等基础软件管理海量的基础硬件资源和软件资源的云平台综合管理系统。该系统可以实现极为简化和更加高效的计算模型,在此模型中,客户定义所需的结果,系统能够快速反应,并安全准确地获得结果。同时,IT专业人员可以较低的成本部署应用程序到系统中。

现在云计算的商业环境对整个体系的可靠性提出了更高的需求,未来成熟的分布式计算技术将能够支持在线服务(SaaS),自从2007年苹果iPhone进入市场开始,智能手机时代的到来使得Web开始走进移动终端,SaaS的风暴席卷整个互联网,在线应用成为一种时尚。分布式计算技术不断完善和提升,将支持在跨越数据中心的大型集群上执行分布式应用的框架。

3.1.5 云计算和气象行业

1)云计算对气象领域的影响

云计算的出现对于气象行业影响很大,本节从以下三个方面进行分析。

(1)计算方式。传统上,对于复杂天气系统预报,需要使用性能强劲的超大型计算机来进行模式的计算。虽然目前我国已经使用了如“天河”“星云”等高性能计算机,但这类计算机的使用因为使用成本的原因基本上局限在国家气象部门。省市部门的气象人员如果要进行应用计算,大部分只能在小型机进行,会产生运行时间长、计算效率低等问题。云计算的出现解决了这一问题,它为气象预报工作提供了一个新的灵活强大而成本又低廉的平台,从而提高了计算效率。

(2)存储方式。气象行业每天从卫星、自动站、雷达等设备上接收大量业务数据,数据的存储是一个重要的问题。这些数据每年快速增长,气象部门需要不断投资购买昂贵存储设备并经常进行维护升级。云计算存储可以很大程度解决这个问题,云计算不需要昂贵的存储设备,数据存储在由大量廉价存储构成的云端。因此,气象人员只需要使用普通客户端连接到云端就可以获取到想要的数据,从而减轻了数据中心人员的工作强度,并为气象部门节约大量硬件设备的购买和维护成本。

(3)数据服务平台。随着各种业务的开展,各个气象单位都积累了大量气象信息资源,但这些资源往往因为各种原因都只在本单位共享,从而造成巨大的资源浪费。通过基于Web的服务器、存储、数据库和其他云计算架构的服务建设全国统一的气象公共云平台,可以让全国的气象业务人员和研究者共享统一资源,实现资源共享、共同合作、各取所需,对于行业之间的合作和研究有着很大的作用。

2)云计算在气象行业的发展存在的问题

当前,气象部门已经实现了各种云计算的应用,但目前的云计算模式还存在以下一些问题。

(1)数据和信息安全问题。气象部门将部门内各种业务系统、信息基础设施以及重要的气象信息资源等都存放在云端,而云端的建设和维护是由第三方承担,就带来了安全问题。实际上这种安全问题,不仅仅只存在于气象云上,其他行业同样存在,而这类问题的解决却是比较困难的。目前云计算环境面临安全威胁,依然没有行之有效的安全防护手段,这使得人们对云计算的安全很是担忧。

(2)数据分享问题。云计算时代,可以把气象数据上传到云平台实现共享,但哪些资料可以共享哪些资料不可以共享,需要在上传之前进行数据的分类。另外,建立共享激励机制也很重要,不然就可能出现各部门不愿意主动分享的情况。

(3)职能转变问题。气象部门的网络中心和数据中心的主要任务将从日常维护存储设备向购买云服务转变,这就需要该类部门人员掌握新的云计算相关技术和知识,并且需要了解云计算相关法律法规和商业知识。

3.1.6 云计算与大数据

通常情况下,我们容易将大数据与云计算混淆在一起,云计算与大数据是相辅相成、辩证统一的关系。

1)云计算与大数据的区别

(1)定义。著名的麦肯锡全球研究所给出大数据定义是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。对于云计算,则是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。

(2)范围。大数据要比云计算更加广泛。大数据这个强大的数据库拥有三层架构体系,包括数据存储、处理与分析。简而言之,数据需要通过存储层先存储下来,之后根据要求建立数据模型体系,进行分析产生相应价值。这其中缺少不了云计算所提供的中间数据处理层强大的并行计算和分布式计算能力。云计算代表着一种计算机行业层面的解决方案;而大数据则是一种战略构架,是面向管理者和业务层的,它能让我们在业务上展示出更强大的竞争力,完全提升综合实力。

(3)历史。云计算的历史比大数据长,是继1980年大型计算机到客户端服务器转变之后的一种巨变。

2)云计算与大数据的联系

云计算、物联网技术的广泛应用是我们的愿景,而数据的爆发性增长则是发展中遇到的棘手问题;前者是人类文明追求的梦想,后者虽然给社会发展带来了新课题,但无疑会大大促进社会的健康发展;云计算是技术发展趋势,大数据是现代信息社会飞速发展的必然现象。解决大数据问题,需要以现代云计算的手段和技术。大数据技术的突破不仅能解决现实困难,同时也会促使云计算技术真正落地并深入推广和应用。云计算与大数据如同手心手背的关系,两者不可或缺、相辅相成。没有大数据,云计算什么都不是,而没有云计算也成就不了大数据。

云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。从结果来分析,云计算注重资源分配,大数据注重的是资源处理。一定程度上讲,大数据需要云计算支撑,云计算为大数据处理提供平台。

从商业的角度来看,云计算和大数据是现代企业走向数字化运营的两个核心。云计算统一企业IT架构、业务架构和数据架构,不仅以集约化的方式承载业务,也收集业务数据。云计算为大数据存储、快速处理和分析挖掘提供基础能力。大数据处理能力可以丰富云计算平台的能力;大数据分析产生预测能力、商业洞察,可以指导云平台建设等。

所以,大数据与云计算,并非两个完全独立的概念,而是有密切的相互关系。无论在资源的需求上还是在资源的再处理上,都需要两者共同运作。因此,不少地区在制定相关产业规划时,都会同时推进大数据与云计算建设,让云计算为大数据提供强大平台,也以大数据分析出的结论完成云计算价值。

3.1.7 基于云计算的气象大数据平台架构

目前我国气象行业已经建设了气象行业专有云,其中分布了大量的硬件设施,包括各种高性能计算机以及普通的存储设备和通信设备等。这意味着,气象大数据平台的物理基础已经局部完善,在此基础上可以建设大数据服务平台,气象大数据主流架构如图3-3所示。

图3-3 气象大数据技术架构

(1)基础层。基础层主要包括各种主机、数据存储设备、网络通信设备、数据库软件以及云平台设施必须的软硬件环境和场所等。在云计算环境下,需要对原有的基础设施层硬件进行云化处理,形成基础设施资源池,并且基础设施池的计算资源和存储资源可以动态伸缩地提供给气象内部业务人员和科研人员使用,以实现资源的整合,大大提高资源利用率。

(2)平台层。基于Hadoop等集群实现海量气象数据存储,针对常见应用需求,构建传统的集中存储和HDFS分布式文件系统相结合的文件存储架构,充分利用Hbase分布式数据库,将多维气象数据有效组织到一起,实现传统数据仓库中的多维数据模型,在此基础上可以进一步改进数据库性能。以MapReduce并行计算引擎为驱动,从多个数据源比如各个业务系统中进行数据抽取、清洗、转换格式并装载入基于分布式数据库中;可以使用分布式文件系统实现分布式文件冗余存储;使用分布式数据库实现动态气象大数据分布式数据索引;使用分布式计算模型实现数据并行计算;使用数据仓库实现静态气象数据的存储与便捷索引。同时可以在此层搭建并行机器学习或者数据挖掘引擎,使用各种感知技术进行算法分析并得到气象预报产品。

(3)功能层。基于基础层强大的数据存储能力,以及平台层提供的以MapReduce为计算引擎的强大数据分析和处理能力,可以提供海量气象数据的实时查询、统计分析、深度挖掘和机器学习等功能,为业务层提供支持。

(4)应用层。利用下层提供的软件工具进行应用的开发,主要包括站点监控、平台监控与管理、气象服务等。站点监控主要是对气象监测点以及监测设备进行管理和监控,包括站点信息管理、设备信息管理、数据源状态监控等;云平台监控与管理主要对区域气象数据中心的服务器节点进行动态监控与管理,包括节点管理、能耗监控、节点信息管理等;按照不同的应用需求提供气象服务,包括部门业务功能(数据查询、数据审核、数据入库等)、预报产品制作、公共气象服务(产品发布、灾害预警等)、科研服务(数值预报等)。

(5)业务层。业务层主要使用气象大数据技术提供各种业务需要的服务,如使用基于分布式数据库的实时数据检索功能为气象部门提供气象数据检索服务;利用分布式数据处理模型MapReduce进行气象数据分布式处理,进而提供气象科研服务以及公共气象服务进行数值预报与预报产品的制作。该层的用户主要包括各类气象行业、科研和其他相关行业人员。通过权限控制,气象行业内部人员可以通过气象行业内部网络访问气象大数据服务平台;气象科研人员通过互联网获取部分权限数据;其他行业人员可以通过互联网获取部分预报产品。 f7Fq/04Mp8++p70TnILOO9Dt8Fld/zkJX05KIl1ZB+3nN2SShmb+fa5ILf7kddiP

点击中间区域
呼出菜单
上一章
目录
下一章
×