购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

参考文献

[1] Armbrust, M., et. al.. Above the Coulds: A Berkeley View of Cloud Computing.technical report, 2009.

[2] 中国云计算网,http://www.cloudcomputing-china.cn/Index.html.

[3] 陈康,郑纬民.云计算:系统实例与研究现状.软件学报,2009,20(5):1337-1348.

[4] Google: Barroso, L., et al.. The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines, 2009.

[5] Barroso, L., et al.. Web Search for a Planet: the Google Cluster architecture. IEEE Computer Society, 2003.

[6] Ghemawat, S.,et al.. The Google File System.SOSP’03, October19-22, 2003, Bolton Landing, New York, USA.

[7] Dean, J. and Ghemawat, S. MapReduce: Simplified Data Processing on Large Clusters. OSDI'04: Sixth Symposium on Operating System Design and Implementation, 2004, pp. 137-150.

[8] Amazon: Amazon Elastic Compute Cloud, http://aws.amazon.com/ec2/.

[9] Garfinkel, S., et al.. An Evaluation of Amazon’s Grid Computing Services: EC2, S3 and SQS. Technical Report TR-08-07.

[10] Ostermann, S. , et al. A Performance Analysis of EC2 Cloud Computing Services for Scientific Computing. In Proceedings of Cloudcomp 2009 (CloudComp), October 19-21, 2009, Munich, Germany. ISBN 978-963-9799-77-6, Page x-(x+17).

[11] IBM: IBMCloud Computing, http://www.ibm.com/ibm/cloud/.IBM, Boss, G., et al. Cloud Computing White Paper, IBMCorporation 2007.

[12] Vouk,M.. Cloud Computing—Issues, Research and Implementations, Information Technology Interfaces, 2008. ITI 2008. 30th International Conference on.

[13] Vouk, M., Averitt, S., et al.. “Powered by VCL”-Using Virtual Computing Laboratory (VCL) Technology to Power Cloud Computing. In the proceedings of 2nd International Conference on the Virtual Computing Initiative , pp.1-10, May 2008, Research Triangle Park, IBMheadquarter, NC, USA.

[14] HP: HP Cloud Research, http://www.hpl.hp.com/research/cloud.html.

[15] HP: HP datacenter, http://h20195.www2.hp.com/v2/GetPDF.aspx/4AA1-8079ENW.pdf.

[16] HP: Patel, C.D., et al.. Cost Model for Planning, Development and Operation of a Data Center, June 9, 2005.

[17] Sun: Sun Cloud Computing, http://www.sun.com/solutions/cloudcomputing/.

[18] Sun: Introduction Cloud Computing architecture White Paper, 1st Edition, June 2009.

[19] VMWare: Vmware Cloud Computing, http://www.vmware.com/solutions/cloud-computing/.

[20] VMWare: Grieser,T.Enabling Datacenter Automation with Virtualized Infrastructure , Sponsored by Vmware, August 2008.

[21] CISCO: Cisco Cloud Computing, http://www.cisco.com/en/US/netsol/ns976/index.html.

[22] CISCO: Cisco Cloud Computing -Data Center Strategy, Architecture,and Solutions. Point of View, White Paper for U.S. Public Sector, 1st Edition, 2009.

[23] The Hadoop Project. Available at http://hadoop.apache.org.

[24] Reilly, O.. Hadoop-The Definitive Guide.June.2009.03.

[25] Encalyptus: Encalyptus Public Cloud, http://open.eucalyptus.com/wiki/Documentation.

[26] Daniel, N. et al.. The Eucalyptus Open-source Cloud-computing System. in Proceedings of 9th IEEE International Symposium on Cluster Computing and the Grid, Shanghai, China, 2008.

[27] Cloud-Standards,http://cloud-standards.org/wiki/index.php?title=Main_Page#NIST_Working_ Definition_of_Cloud_Computing.

[28] Greenberg, S., et al.. Best Practices for Data Centers: Lessons Learned from Benchmarking 22 Data Centers. 2006.

[29] National Laboratory Research on Datacenters .http://hightech.lbl.gov/datacenters.html.

[30] LBNL 2006.http://hightech.lbl.gov/datacenters.html. High-Performance Buildings for High-Tech Industries, Data Centers. Berkeley, Calif.: Lawrence Berkeley National Laboratory.

[31] Wang, L. , et al.. Towards Thermal Aware Workload Data Center. In the Proceedings of the 10th International Symposium on Pervasive Systems, Algorithms and Networks, 2009.

[32] Tang, Q., et al.. Energy-Efficient, Thermal-Aware Task Scheduling for Homogeneous, High Performance Computing Data Centers: A Cyber-Physical Approach. IEEE Transactions on Parallel and Distributed Systems archive Volume 19 , Issue 11 (November 2008) Pages: 1458-1472.

[33] Tian, WH.. Analytical Models and Efficient Dimensioning Algorithms: for Communication Systems in Randomly Changing Traffic Environments. LAP Lambert Academic Publishing (10 Jul 2009), ISBN-978-3-8383-0458-8.

[34] Tian, WH.. Three Ways to Improve the Efficiency of Virtual/Clould Computing Lab. In the proceedings of The IEEE International Conference on Apperceicing Computing and Intelligence Analysis 2008 (ICACIA’08), Dec. 2008.

[35] Tian,WH.. Adaptive Dimensioning of Cloud Data Centers. In the proceeding of the 8th IEEE International Conference on Dependable, Automatic and Secure Computing, DACS 2009, pp. 5-10. 4hWTIXZa9MUPJXmbvVc0BpoMydbmK2eelOjd5NgGVt5d6rGGN+4aJK8VRusvy+U3



第3章
大数据处理

随着2012年4月美国奥巴马政府推出“大数据研究和发展倡议”,并划拨2亿美元的专项资金之后,全球掀起了一股大数据的热潮。大数据指的是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,需要新型的数据处理模式。大数据具备4个V的特征:Volume(数据体量巨大)、Variety(数据格式多样)、Velocity(数据产生速度快,流量大)、Value(数据的总体价值在增大,单位价值密度却在降低)。

传统的信息技术架构,存在着扩展性差、容错性差、性能低、安装部署及维护困难等诸多瓶颈,已无法处理大数据问题,需要以现代云计算的手段和技术来解决大数据问题。云计算与大数据是相辅相成、辩证统一的关系,云计算、物联网技术的广泛应用是我们的愿景,而大数据的爆发则是发展中遇到的棘手问题。大数据技术的突破不仅能解决现实困难,同时也会促使云计算、物联网技术真正落地并深入推广和应用。本章中,我们重点探讨大数据的发展历程,以及关键性的大数据处理技术。

本章主要内容

大数据的发展背景及定义

大数据问题

大数据与云计算的辩证关系

大数据技术综述 4hWTIXZa9MUPJXmbvVc0BpoMydbmK2eelOjd5NgGVt5d6rGGN+4aJK8VRusvy+U3



3.1 大数据的发展背景及定义

当今,信息技术为人类步入智能社会开启了大门,带动了互联网、物联网、电子商务、现代物流、网络金融等现代服务业发展,催生了车联网、智能电网、新能源、智能交通、智能城市、高端装备制造等新兴产业的发展。现代信息技术正成为各行各业运营和发展的引擎。但这个引擎正面临着大数据这个巨大的考验。各种业务数据正以几何级数的形式爆发 [1] ,其格式、收集、储存、检索、分析、应用等诸多问题,不再能以传统的信息处理技术加以解决,给人类实现数字社会、网络社会和智能社会带来了极大的障碍。举例来说,纽约证券交易所每天产生 1TB 的交易数据,Twitter每天就会生成超过7TB的数据,Facebook每天会产生超过 10TB 的数据,位于欧洲粒子物理实验室的大型强子对撞机每年产生约 15PB 的数据。根据著名咨询公司IDC的调查与统计,2007年全球信息量约为165EB,即使在全球遭遇金融危机的2009年,全球信息量仍达到800EB,比上一年度增长62%;未来每隔 18个月,整个世界的数据总量就会翻倍;预计2020年这一数字将达到35ZB,约为2007年的230倍,而人类历史5000年的文字记载只有5EB数据。上述统计与调查预示着TB、PB、EB的时代已经成为过去,全球将正式进入数据存储的“泽它(Zetta)时代”。

从2009年开始,“大数据”成为互联网信息技术行业的流行词,大数据起初成熟应用多在互联网行业,互联网上的数据每年增长50%,每两年翻一番,全球互联网企业都意识到“大数据”时代的来临,数据对于企业有着重要意义。2011年5月,麦肯锡全球研究院发布题为《大数据:创新、竞争和生产力的下一个新领域》的报告。报告发布后,“大数据”迅速成为计算机行业的热门概念。

2012年4月美国奥巴马政府推出“大数据研究和发展倡议” [3] ,并划拨2亿美元的专项资金之后,在全球掀起了一股大数据的热潮。奥巴马的竞选连任,在很大程度上就归功于大数据分析。竞选团队在大选中使用了全新数据分析战略,为此在竞选之前的两年,奥巴马的数据分析团队就一直在收集、存储和分析选民数据。而大选中的竞选方案都是依据数据分析团队的数据分析结果来制定的。据奥巴马竞选团队的多位高级顾问介绍,大数据在竞选中起到的关键作用包括如何通过分析大量数据帮助奥巴马筹集到10亿美元资金;如何改变电视广告投放策略;如何制作出拉拢摇摆州选民的具体数据分析模型和最有效拉票方法的推荐,从而制定有针对性的宣传策略,其中包括邮寄信件、电话或者利用社交媒体这些方法;决定奥巴马在竞选后期应当在什么地方展开活动等。最后这些策略发挥了巨大作用,帮助奥巴马打败罗姆尼,再次问鼎总统宝座。

根据Wikibon 2011年发布的大数据报告,大数据市场正处在井喷式增长的前夕,未来5年全球大数据市场价值将高达500亿美元 [4] 。2012年年初,大数据相关软件、硬件和服务的收入总和只有约50亿美元。但随着企业逐渐认识到大数据和相关分析将形成新的差异化竞争优势,提升运营效率,大数据相关技术和服务将获得长足发展,大数据将逐渐落地,并在未来5年保持58%的惊人复合增长速度。投资银行JMP Securities分析师Greg McDowell则表示大数据工具市场预计将在10年内由2012年的90亿美元增长至860亿美元。到2020年,企业在大数据工具方面的投资将占整体企业IT开支的11%。

资本市场也高度关注大数据技术型企业的发展。多家顶级风投和早期投资机构都对大数据行业青睐有加。风投机构Accel Partners还专门针对这一行业设立了一支总额高达1亿美元的基金;以大数据分析为号召的IT搜索引擎公司Splunk,在Nasdaq首日上市IPO即上涨109%;大数据软件提供商Birst公司从红杉资本、Hummer Winblad和DAG投资等机构累计获得4600万美元的投资;为开源大数据技术Hadoop的商业版本提供销售和支持服务的Cloudera公司从Ignition Partners、Greylock Partners和Accel Partners等机构得到的投资总额达7500万美元;此外,MapR、10Gen、DataStax和Splunk等大数据软件服务商近期都完成了千万美元级的融资。

目前,业界对大数据还没有一个统一的定义,常见的大数据定义如下:

“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。”——麦肯锡

“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集。”——维基百科

“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”——Gartner

大数据具备Volume、Velocity、Variety和Value 4个特征(简称4V,即数据体量巨大、处理速度快、数据类型繁多和价值密度低),下面对每个特征分别做简要描述。

① Volume:表示大数据的数据量巨大。数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。比如,一个中型城市的视频监控头每天就能产生几十TB的数据。

② Variety:表示大数据的类型复杂。以往我们产生或者处理的数据类型较为单一,大部分是结构化数据。而如今,社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生大量半结构化或者非结构化数据,如XML、邮件、博客、即时消息等,导致了新数据类型的剧增。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类型无以计数,包括文本、微博、传感器数据、音频、视频、点击流、日志文件等。

③ Velocity:数据产生、处理和分析的速度持续加快,数据流量大。加速的原因是数据创建的实时性天性,以及需要将流数据结合到业务流程和决策过程中的要求。数据处理速度快,处理能力从批处理转向流处理。业界对大数据的处理能力有一个称谓——“1秒定律”,也就充分说明了大数据的处理能力,体现出它与传统的数据挖掘技术有着本质的区别。

④ Value:大数据由于体量不断加大,单位数据的价值密度在不断降低,然而数据的整体价值在提高。有人甚至将大数据等同于黄金和石油,表示大数据当中蕴含了无限的商业价值。据IDC调研报告预测,大数据技术与服务市场将从2010年的32亿美元攀升至2015年的169亿美元,实现年增长率达40%,并且将会是整个IT与通信产业增长率的7倍。通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。

数据是各行各业,乃至每个人最关心、最有价值的东西。医院需要了解病人、病床、药品等数据;石油勘探需要了解地质数据并分析建模;癌症研究需要了解分子结构和它们之间的绑定关系;金融证券公司要分析股票走势行情;民航公司要掌握旅客的旅行习惯;各个商业网站则需要了解用户的网络浏览和购物模式;大数据处理技术在具体的应用方面,可以为国家支柱企业的数据分析和处理提供技术和平台支持,为企业进行数据分析、处理、挖掘,提取出重要的信息和知识,再转化为有用的模型,应用到研究、生产、运营和销售过程中。

同时,国家大力倡导“智慧城市”建设,在城市化与信息化融合等背景下,围绕改善民生、增强企业竞争力、促进城市可持续发展等关注点,综合利用物联网、云计算等信息技术手段,结合城市现有信息化基础,融合先进的城市运营服务理念,建立广泛覆盖和深度互联的城市信息网络,对城市的资源、环境、基础设施、产业等多方面要素进行全面感知,并整合构建协同共享的城市信息平台,对信息进行智能处理利用,从而为城市运行和资源配置提供智能响应控制,为政府社会管理和公共服务提供智能决策依据及手段,为企业和个人提供智能信息资源及开放式信息应用平台的综合性区域信息化发展过程。

面向大数据的新型分布式编程模式及计算平台可以为“智慧城市”建设过程中涉及的海量数据处理与计算提供切实可行的解决方案,不断深化“智慧城市”建设过程中的平台级技术改革与创新,为“智慧城市”建设过程中更好地改善民生、帮助企业发展及完善城市建设提供更好的服务与技术支撑。

数据无疑是新型信息技术服务和科学研究的基石,而大数据处理技术理所当然地成为当今信息技术发展的核心热点,大数据处理技术的蓬勃发展也预示着又一次信息技术革命的到来。另外,随着国家经济结构调整、产业升级的不断深化,信息处理技术的作用将日益凸显,而大数据处理技术无疑将成为在国民经济支柱产业信息化建设中实现核心技术的弯道追赶、跟随发展、应用突破、减少绑架的最佳突破点。 4hWTIXZa9MUPJXmbvVc0BpoMydbmK2eelOjd5NgGVt5d6rGGN+4aJK8VRusvy+U3

点击中间区域
呼出菜单
上一章
目录
下一章
×