购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.5 数据科学的兴起

数据科学(Data Science),从名称上来说就是关于数据的科学或研究数据的科学。从事数据科学研究的学者更关注数据的科学价值,试图把数据当成一个“自然体”来研究,提出所谓“数据界”(Data Nature)的概念。数据科学被定义为研究探索数据界奥秘的理论、方法和技术,研究的对象是数据界中的数据。数据科学主要有两个内涵:一个是研究数据本身,研究数据的各种类型、状态、属性及变化形式和变化规律;另一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。

数据科学这个名称已经存在很多年了,但以前更多地是指数据管理或统计方法。1974年软件行业的先驱、图灵奖获得者彼得·诺尔(Peter Naur)在分析一些行业应用的数据处理方法时提出了这个概念。1998年时任美国密歇根大学教授的Jeff Wu提出把统计学更名为数据科学,把统计学家称为数据科学家。2001年,贝尔实验室的研究员威廉·克利夫兰(William S·Cleveland)又把这个概念扩展为包含跟数据计算相关的研究。2009年图灵奖得主吉姆·格雷(Jim Gray)将大数据科学从计算科学中分离出来单独作为一种科学研究的新范式,把数据密集型科学作为实验科学、理论科学、计算科学之外的“第四范式”,这也可以看做大数据科学的发源。

随着大数据的风行,数据科学又重新成为人们的关注热点 [7] 。作为一个学术领域,它横跨多个学科,如统计学、分析学、计算机科学和数学,此外还包括各个专业领域的知识。然而,大数据科学仍然缺乏明确的界定,也还没有确定相关的理论及研究方法。李国杰院士在其文章《大数据研究的科学价值》 [8] 中指出:大数据的研究主要是将其作为一种研究方法或一种发现新知识的工具,而不是把数据本身当成研究目标。作为一种研究方法,它与数据挖掘、统计分析、搜索等人工智能方法有密切联系,但也应该有不同于统计学和人工智能的本质内涵。他还指出数据研究能成为一门科学的前提,是在一个领域发现的数据相互关系和规律具有可推广到其他领域的普适性。大数据科学领域的理论及方法还需要进一步探索和研究。

因为大数据潜藏的巨大价值,所以能够对大数据进行分析、处理,挖掘出信息和知识,并对结果进行展示和解释,用以指导决策的“数据科学家”也就成为炙手可热的职业,各大IT巨头公司纷纷花费巨资寻求大数据人才,打响了人才争夺战。根据麦肯锡全球研究院的报告,未来5年将需要近50万名有资质的数据科学家,而缺口则高达19万名;此外,还需要150万名了解数据的高管和支持人员。哈佛商业评论把“数据科学家”称为21世纪最性感的职业,数据科学家被戴上“魔术师”等亮眼的光环,他们似乎精通数学、统计学、计算机、社会学等各领域的知识,无所不能。美国各大知名院校,如斯坦福大学、哥伦比亚大学、西北大学、纽约大学等都开始设立数据科学专业,教授相关的课程。

那么到底什么样的人才可以称得上数据科学家,他们又需要具备什么样的特质呢?对数据科学家的定义和理解也不一而足,我们列出其中的一些:

① 数据科学家就是采用科学方法、运用数据挖掘工具寻找洞察新的数据的工程师。

② 能够管理和洞察数据的人。

③ 数据科学家是一个好奇的,不断质疑现有假设,能盯着数据就能指出趋势的人。

④ 数据科学家倾向于用探索数据的方式来看待周围的世界。把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。

我们可以看到,数据科学家不仅仅需要统计分析或是计算机方面的技能,还需要具备洞察力,能够从数据中找到模式,发现趋势,并进行印证。因此具备跨行业学科的知识技能,拥有丰富行业经验和编程能力,同时又具备数据敏感性和洞察力,能够在数据中发现新模式,将数据转化为生产力的“全能”型人才必将成为企业的无价之宝。与此同时,具备其中某方面能力和背景的人才也能在整个大数据产业链中找到适合自己的位置,并有巨大的上升空间。

随着数据科学的兴起以及数据驱动的行业分析的应用和普及,逐渐形成了以数据为中心的新型开发模式,我们称为数据驱动开发DDD(Data DrivenDevelopment)。传统的面向应用的开发模式先从应用场景开始梳理,定义好功能需求,然后再进行架构设计、应用流程以及数据结构设计,最后再进行功能实现。然而对于大数据应用,应用功能点可能数量巨大,而且种类庞杂,要从中一个一个梳理应用场景,再推导到应用与数据之间的关系,建立数据模型,将是一个复杂和费时的工作。同时由于存在多种数据源,数据格式和种类也复杂多样,对于同时访问多个数据源的不同应用场景,在访问模式上就会失去方向,无所适从。数据驱动的开发则从分析企业的核心数据开始,对数据的种类、体量、流量、使用频度、重要程度等进行分析总结,归纳出数据的相关关系及不同的使用场景,然后基于数据类别决定存储和访问方式,定义应用模式,并梳理出应用场景和流程。这样上层的应用就能基于已经定义好的数据访问模式来进行归类,各种复杂的应用场景就能找出条理,不再彼此牵扯。同时基于核心数据的分析还能梳理出新的应用模式和服务模式,推动企业创新。比如知名的精英社交网站LinkedIn就在两年前成立了独立的数据分析(Data Analytics)部门,由此部门进行的深度数据分析最后成为推动其产品、营销、服务等各部门的创新动力,所推出来的“你可能认识的人”功能大受用户欢迎,建立了用户之间更紧密的连接,大大提高了网站的活跃度和公司的业务营收。 xlQh2eZpndxe9oa4mJtyRfmUIzmnrr2AAjvnIF1i/U+XJr9zaoY/X9s3nl9Hvs88

点击中间区域
呼出菜单
上一章
目录
下一章
×