购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 大数据崛起

2014年3月,阿里巴巴集团创始人马云发表演讲,提出一个新观点:“人类正从IT时代走向DT时代。”所谓IT,就是Information Technology,即信息技术;所谓DT,就是Data Technology,即数据技术。IT时代是以自我控制、自我管理为主,而DT时代,是以服务大众、激发生产力为主。这两者之间不是技术的差异,而是思想观念的差异。

1.2.1 三次浪潮的三朵浪花

“大数据”,或称“巨量数据”“海量数据”“大资料”的定义:第一,维基百科(Wikipedia)认为,所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并且整理成为人类所能解读的信息;第二,高德纳(Gartner)咨询机构认为,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据具有“4V1O”的特征,即规模性(Volume)、多样性(Varity)、高速性(Velocity)、价值性(Value)和可操作性(Operability)。

一是规模性。数据量爆发性增长,达到TB甚至PB级别。例如在2020年,美国社交媒体网站Facebook有超过26亿名活跃消费者,每天产生日志数据超过300TB(1TB=1024GB),每年产生资料180 PB(1PB=1024TB)。庞大的数据量是无法单纯凭借人工处理的,需要智能的算法、强大的数据处理平台和处理技术。

二是多样性。广泛的来源决定了数据类型的多样性:①结构化是数据之间因果关系强,比如信息管理系统数据、医疗系统数据等;②非结构化是数据之间没有因果关系,比如音频、图片、视频等;③半结构化(也被称作多结构化)是数据之间因果关系弱,由大量无价值的数据包裹着有价值的数据,比如网页数据、邮件记录等。

三是高速性。大数据的交换和传播是通过互联网、局域网、物联网、云计算等方式实现的,快捷性远远超过传统媒介的信息交换和传播速度。数据的增长速度和处理速度是大数据高速性的重要体现,大数据对处理数据的响应速度有着更为严格的要求:实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。

四是价值性。在实际中产生的大量数据是冗余无效的或者低密度价值的。大数据最大的价值在于从不相关的各种类型的数据中,挖掘出对未来趋势与模式预测有价值的内容。比如淘宝电商平台每天产生的大量交易数据,通过特定的算法分析出具有某些特征的人喜欢什么类型的商品,然后推荐其喜欢的商品。

五是可操作性。根据特定任务的原则、方法、标准,把获取的数据转换为可分类、可识别、可检验、可观测的项目,遵循一定的模式在计算机中得到快速、正确的处理,帮助决策者制订行动计划,实现具体目标,这也要求所获取的数据具有一定程度的完整性和连续性。为了使处理结果更具可读性,通常要进行可视化处理。

信息化概念,最早是由美国社会学家丹尼尔·贝尔于1959年提出的“后工业化社会”;后来美国经济学者弗里茨·马克卢普于1962年提出“知识产业”,“后工业化社会”就是“信息社会”,“知识产业”就是“信息产业”。谁都未曾料到,自世界上第一台通用计算机ENIAC于1946年2月14日在美国宾夕法尼亚大学诞生,在不到一个世纪的时间内,掀起了一次高过一次的世界信息化浪潮。

信息化第一次浪潮:在1981年,第一台个人计算机诞生,标志着进入了以数据化为主要特征的自动化阶段。信息技术第一次揭开神秘的面纱,开始应用在人们的工作里,人们不再使用各种费时费力的纸质审批,而是采用电子化的方式进行业务处理。信息化可以记录所有环节、各个节点的数据,能做到随时可查询、可追溯、可管理。

信息化第二次浪潮:在1992年,美国总统克林顿提出建设“信息高速公路”,标志着进入了以互联网应用为主要特征的网络化阶段,涌现出大量的数据。从1995年开始,互联网开启大规模商用进程,加速数据的流通与汇聚,促使数据资源体量的指数式增长,数据呈现出海量、多样、时效、低价值密度等一系列特征。

信息化第三次浪潮:在2006年,“云计算”出现,标志着数据的存储和调取速度得到加强,进入了以数据驱动的智能化应用阶段。垂直应用于各个产业的数据算法能力和强大的数据应用端平台建设显得特别重要。随着互联网向物联网(含工业互联网)延伸而覆盖物理世界,“人机物”三元融合的发展态势已然形成,全方位、全视角展现事物的演化历史和当前状态,伴随着5G时代的到来,信息化的浪潮会带来更多值得期待的想象空间。

信息化第三次浪潮的重点突破是自动化的数据产生和收集方式,通过信息感知和采集终端,如RFID射频、传感器、社交网络交互和移动互联网等,获得的各种类型的结构化、半结构化和非结构化海量数据,再加上以云计算为代表的强大的计算能力,实现了从提高生产效率向更高级智能阶段的自然生长。

大数据是信息技术发展的必然产物,作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。第一次大的飞跃是运营式系统开始广泛使用数据库,第二次大的飞跃是以消费者原创内容为主的Web 2.0,第三次大的飞跃是感知式系统的广泛使用最终实现大数据的产生,这一阶段是以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数据化、网络化和智能化呈融合发展新态势,如图1-1所示。

图1-1 从认知神经科学的角度分析大数据、云计算、物联网和传统互联网的关系

资料来源:刘锋.从认知神经科学的角度分析物联网、云计算、大数据和互联网的关系[EB/OL].科学网博客,https://blog.csdn.net/rkjava/article/details/103935461,2013-05-20.

大数据、云计算、物联网被称为信息化第三次浪潮的“三朵浪花”。三者互为基础:物联网产生大数据,大数据需要云计算。物联网就是物物相连的互联网,云计算解决万物互联带来的巨大数据量。

物联网(Internet of Things,IoT)是指通过信息承载体和传感设备,按照协议,把任何物体与网络连接,物体通过信息传播媒介进行信息交换和通信,以实现智能化识别、定位、跟踪、监管、互联互通等功能。

云计算(Cloud Computing)是指通过网络“云”把巨大的数据计算处理程序分解成无数个小程序,然后通过多部服务器组成的系统进行处理和分析,得到结果并且返回给消费者,“云”实质上就是一个网络。

1.2.2 数据科学家

谷歌公司首席经济学者哈尔·瓦里安在2009年说道:“下一个十年最有吸引力的工作就是统计学,其能够获取并且处理数据,从中得到有用信息并将其图形化,使人们得以理解,这将是非常重要的技能。”此处他所称的“统计学家”,实际上是能够提取大数据集的信息,然后展现给非数据专业的那些人,也可称之为数据科学家(Data Scientists)或者是数据极客(Data Geek)。

数据科学崛起的原因之一是技术进步,这使数据科学家容易获得便捷的上手工具和广泛的专业知识。数据科学自然定义数据科学家的工作范围,他们的技能涵盖计算机、数学和统计学、图形可视化等三个方面。

特别是数据可视化可以快速地把散乱的数据转换为深入的洞察力,告别单纯依靠直觉做出无把握决策的方式,发现隐藏的模式并做出明智的决策,通过理解信息并与他人合作以更快地激发洞察力和发现数据模式,组织可以快速做出基于数据驱动的决策。

数据科学家立足于科学,但不止于科学。从数据中提取出信息无疑是重要且有意义的过程,但是这还远远不够。大数据分析的终极目标是解决问题、实现价值。而从信息到具体应用领域的知识,进而应用所得知识创造价值,这两步都是需要一些艺术的,更需要一点儿想象力。

数据科学家=数据+科学+艺术家=用数据和科学从事艺术创作的人

数据、数据组合、数据活性的价值是不可限量的,挖掘这种价值就像淘金一样,需要数据科学家进行搜索、采集、筛选、处理、储存、共享等工作。与传统的统计分析师或者写代码的程序员相比,数据科学家的优势在于业务全能型,具备编程、业务分析洞察、数据解读等三种能力。统计分析师通常只具备其中的两样,即业务分析洞察和数据解读,程序员通常也只具备其中一样或者两样,即编程和业务分析洞察能力。

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取隐含在其中的、事先不知道的但是有潜在的有用信息和知识的过程,通常与计算机科学有关。通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现目标,核心是利用算法模型对预处理后的数据进行训练,训练后获得数据模型,如图1-2所示。

图1-2 从数据化到决策支持的数据挖掘过程

资料来源:子一.什么是数据科学?[EB/OL].知乎,https://zhuanlan.zhihu.com/p/24758369,2021-04-29.

数据挖掘不再是大企业的专利,开源化潮流使得中小企业或者个人也能够轻松地获取关键算法,物联网和云计算使得数据消费者拥有充足且廉价的计算能力,可以在短时间内分析海量数据,在互联网上更有丰富的课程和经验分享。实际上,数据科学的大门是敞开的,每个人都可以成为数据科学家。 bkiOwp9DGzXG07DEo7JscSYMbJhynzb6/o4cf06oh5vwvaw7oCjgCTPGtzCMyCGT

点击中间区域
呼出菜单
上一章
目录
下一章
×