购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三节

大数据

百度每天执行超过50亿次搜索。

新浪微博有5亿注册用户,每天有4650万活跃用户并发布超过10亿条微博。

微信拥有超过3亿用户,每天传送数10亿条语音记录。

淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB=1024GB)。

你有没有想过,上面这些令人惊讶的海量数据,其实就发生在我们每天的生活中。随着计算机和智能设备的普及,我们每天所看、所想、所做的事情都有可能转化为数据被记录下来并用于分析。以互联网为例,我们每天输入的搜索内容,访问电子商务网站所做的收藏、购买等操作以及论坛发帖等行为都会被记录并用于分析。除了我们自身产生的数据,遍布全球的传感器、监控器、扫描仪等设备每天更是能产生海量的数据。从2011年开始,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。从分析的角度来讲,大数据具有以下特性。

一、申请SCN用户

我们处于人类历史上一个数据爆炸性增长的时代,我们从没有像现在一样产生如此巨量的数据。除去本小节开头那些互联网例子,再比如一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB(1PB=1024TB)。医院也是数据产生集中的地方。现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。总之,大数据存在于各行各业,一个大数据时代已经到来。

大数据的这一特性,导致单一数据集达到TB甚至PB级别已不罕见,进而使常规的数据抓取工具无法在允许的时间内对其进行捕获,大大提高了对其进行分析的难度。

二、类型多样(Variety)

大数据中包含的数据,不仅是传统的结构化数据 ,还包含了大量的非结构化数据 。这些数据来自企业自身的业务数据,银行、股市的交易数据,更多的是来自图片、声音、视频、传感器信号、GPS信息等广泛存在于社交网络、物联网、电子商务之中的数据。来自IDC(国际数据公司)的研究报告指出,未来几年全球数据量将以40%的速度增长,到2020年将达到35ZB(35万亿GB),其中80%~90%为非结构化数据。

大数据的核心技术之一,就是要能够在这些复杂的数据类型中进行交叉分析,从而得到想要的结果。

三、实时快速(Velocity)

正如前面讲到的,我们无时无刻不在生产数据,而且这些数据在爆炸式地增长,因此,基于这些数据的分析结果随时都可能发生变化,所以时效性对于大数据分析来说非常重要。通常我们使用的数据仓库系统和BI应用 对于时间的要求并不太高。人们对于一个大型报表运行1~2天才能出结果已经习以为常,但是对于大数据应用而言,必须要在极短的时间内形成答案,否则这些结果可能就是过时的、无效的。例如你想在早上出发前查询上班路线的实时路况,系统一个小时以后才把结果发送过来,那这个信息对你已经没有丝毫意义。

时效性要求高这一特性是大数据区别于传统数据挖掘最显著的特征,因此实时处理也成为许多提供大数据应用服务的机构需要面对的首要挑战。

综上所述,正是大数据的这些特性,决定了既有的传统技术架构和路线已经无法在合理的时间内高效处理如此海量的、种类繁多的数据。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。因此,越来越多的政府、企业等机构开始意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。

大数据所能产生的价值可以总结为如下5个方面:

● 先见之明:通过已经发生的、正在发生的事件或实验结果发现或预测需求,洞察变化倾向;

● 英明决策:自动算法代替/支持人类的决策;

● 一目了然:发现数据之间的关系;

● 有的放矢:细分人群,定制行动;

● 推陈出新:创新的商业模式、产品和服务。

或许,以下一些案例能帮你更快了解这些大数据的价值。比如,通过对社交媒体数据、移动数据和网络数据等大数据的分析,企业可以充分了解自己的每一位客户,并结合客户的个性化特点来给出有针对性的建议或者显示广告。在这一点上,亚马逊已然做到了极致,他们为客户推荐的产品绝不是一个巧合。亚马逊的推荐引擎完全是基于客户在过去一段时间的购买行为:客户购买过的商品、客户的购物车中所收藏的商品、客户浏览过的商品、其他用户浏览或购买的商品。亚马逊通过分析和计算,为每位客户定制了专属的个人主页,帮助公司业务保持持续增长。在医疗保健领域,“谷歌流感趋势”项目依据网民搜索内容分析全球范围内流感等病疫传播状况,与美国疾病控制和预防中心提供的报告对比,追踪疾病的精确率达到97%。社交网络为许多慢性病患者提供临床症状交流和诊治经验分享的平台,医生借此可获得通常在医院得不到的临床效果统计数据。基于对人体基因的大数据分析,可以实现对症下药的个性化治疗。

可以看出,大数据这个概念发展到今天,已经不仅仅用来形容人类自身或者机器设备创造的大量非结构化和半结构化的海量数据,而更多的是指解决问题的一种方法,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。大数据可能带来的巨大价值正渐渐被人们认可,它通过技术的创新与发展,以及对数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策,这样的思维方式,可以预见,将推动一些原本习惯于靠“差不多”或主观判断运行的社会领域发生巨大变革。

同样的,对于企业来讲,在当前这个信息空前融会贯通的时代,企业的市场竞争也变得复杂而深刻,技术将变成企业制胜的突破口。利用海量、多样的数据,实现快速、准确的采集和分析,将是企业实现业务模式创新、增强竞争力和提升绩效的有效方式。而能否借助IT手段让分散在企业不同系统里的数据流动起来,从而在实时变化的复杂市场环境中快速准确地做出决策,则是构成一家企业核心竞争力的重要因素。正因为如此,SAP HANA,这个“专注于实时大数据分析和应用的先进平台”,为企业提供了革命性的解决方案,它不仅能使企业实现大数据分析速度的百倍提升,及时获得更有价值的市场洞察;还能提供更全面的数据管理,为企业在激烈的市场竞争中抢得先机。不仅如此,借助SAP HANA的最新的支持包(截至本书出稿时,最新的更新包为SPS06),SAP计划为企业数据中心部署SAP HANA提供更多支持,让数据中心实现全天候运行。此外,SAP还将扩展与第三方备份工具的集成,旨在更好地与用户现有IT基础设施进行集成和整合,最大限度降低维护成本。此外,SAP还将增加安全增强功能,例如通过加密保护静态数据、增强型授权等功能加强系统安全性。

通过下面这个案例介绍,你将会对SAP HANA如何支持企业基于大数据的分析有更加深刻的理解。在2012年SAP全球技术研发者大会(拉斯维加斯)上,SAP执行董事会成员、技术及平台产品负责人史维学博士介绍了最新的基于PB数量级的SAP HANA性能测试。该测试是在位于美国加利福尼亚州圣克拉拉市的英特尔数据托管中心进行的。在该中心SAP和IBM合作组建了由100台IBM服务器、100TB内存以及4000个CPU内核组成的服务器集群 作为SAP HANA的硬件平台。测试的数据取样于多个SAP NetWeaver BW客户,并根据这些客户使用BW系统的实际情况,创建了由1.2万亿行、61列的销售数据(即每天330万条交易数据,连续取10年)组成的大小为1PB(1PB=1024TB=1 048 576GB)的原始二维资料表。该数据表能够真实地反映出目前这些取样客户的真实情况,因此测试结果非常具有代表性。由图1-2可以看出,SAP HANA平台能够每小时支持112 602次查询操作,满足大于5000个查询及分析用户同时在线和并行查询的需求。并且由柱状图可以看出,大多数复杂的商业智能查询执行时间不超过1秒钟!而这样惊人的速度是在没有任何二次索引、物化视图 以及数据聚合的基础上取得的,即没有使用任何传统的数据查询加速技术。这种结果和性能在传统的、以硬盘存储为基础的数据库中是难以想象的。可以说,在这个测试平台上,只要数据被加载完毕,客户就几乎能在极短的时间内得到任何基于此PB级别数据表的查询结果。此外,他们不必提前数天要求数据库管理员或者开发人员构建结构来加快速度,也不需要等待数据库重建索引或者缓存。SAP HANA在提供给他们提升了百倍的数据分析速度的同时,大大简化了操作流程。

图1-2是这次性能测试的一个概览结果。

图1-2

SAP HANA平台在数据分析方面之所以能表现出如此令人吃惊的性能,得益于它强大的内存计算技术。而谈到SAP内存计算技术,则首先要了解一个数据库领域划时代的产品——SAP HANA内存数据库。 Pc/Iyb4WTXY1c42ts/zaT8hilEB44drCEuqIMO1TMeqdPYc7M6xxceq/bKuxCFXp

点击中间区域
呼出菜单
上一章
目录
下一章
×