专业伦理与职业素养：计算机、大数据与人工智能最新章节_匡芳君著

1.2 大数据基础

信息社会所带来的好处是显而易见的：每个人口袋里都揣着一部手机，每台办公桌上都放着一台计算机，每间办公室都连接局域网或者互联网。半个世纪以来，随着计算机技术全面和深度地融入社会生活，信息爆炸已经积累到了一个引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化，即量变引起质变。

1.2.1 信息爆炸的社会

综合观察社会各个方面的变化趋势，我们能真正意识到信息爆炸或者说大数据时代已经到来。以天文学为例，2000年美国斯隆数字巡天项目（见图1-12）启动的时候，位于美国新墨西哥州的望远镜在短短几周内收集到的数据，就比世界天文学历史上总共收集的数据还要多。到了2010年，信息档案已经高达1.4×2 ⁴² B。

图1-12 美国斯隆数字巡天望远镜

天文学领域发生的变化也在社会各个领域发生。2003年，人类第一次破译人体基因密码的时候，辛苦工作了十年才完成三十亿对碱基对的排序。大约十年之后，世界范围内的基因仪每15分钟（min）就可以完成同样的工作。在金融领域，美国股市每天的成交量高达70亿股，而其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的，这些程序运用海量数据来预测利益和降低风险。

互联网公司更是被数据淹没了。仅以国内社交网站微信2021年的部分数据为例：微信小程序的日活跃用户数达到4.5亿，小程序年活跃用户数增长41%，支付交易小程序数量增长28%；微信搜索的月度活跃用户数跃升至7亿，比一年前的5亿增长40%；实时流媒体电商销售额在2021年增长了15倍。

从科学研究到医疗保险，从银行业到互联网，各个领域都在发生着一个类似的故事，那就是爆发式增长的数据量。这种增长超过了创造机器的速度，甚至超过了人们的想象。

有趣的是，在2007年的数据中，只有7%是存储在报纸、书籍、图片等媒介上的模拟数据，其余全部是数字数据。模拟数据也称为模拟量，相对于数字量而言，指的是取值范围是连续的变量或者数值，例如声音、图像、温度、压力等。模拟数据一般采用模拟信号，例如，用一系列连续变化的电磁波或电压信号来表示。数字数据也称为数字量，相对模拟量而言，指的是取值范围是离散的变量或者数值。数字数据采用数字信号，例如用一系列断续变化的电压脉冲（如用恒定的正电压表示二进制数1，用恒定的负电压表示二进制数0）或光脉冲来表示。

但以前的情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念，但2000年数字存储信息仍只占全球数据量的四分之一，当时，另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。事实上，1986年，世界上约40%的计算能力都在袖珍计算器上运行，那时候，所有个人计算机的处理能力之和还没有所有袖珍计算器的处理能力之和高。但是因为数字数据的快速增长，整个局势很快就颠倒过来了。按照希尔伯特的说法，数字数据的数量每三年多就会翻一倍。相反，模拟数据的数量则基本上没有增加。

物理学和生物学都告诉我们，当改变规模时，事物的状态有时也会发生改变。以专注于把东西变小而不是变大的纳米技术为例，其原理就是当事物到达分子级别时，它的物理性质会发生改变。同样，当我们增加所利用的数据量时，也就可以做很多在小数据量的基础上无法完成的事情。

大数据的科学价值和社会价值正是体现在这里。一方面，对大数据的掌握程度可以转化为经济价值的来源。另一方面，大数据已经撼动了世界的方方面面，从商业科技到医疗、教育、经济、人文以及社会的其他各个领域。尽管我们还处在大数据时代的初期，但我们的日常生活已经离不开它了。

1.2.2 大数据的定义

如今，人们不再认为数据是静止和陈旧的。但在以前，一旦完成了收集数据的目的之后，数据就会被认为已经没有用处了。比方说，在飞机降落之后，票价数据就没有用了—设计人员如果没有大数据的理念，就会丢失掉很多有价值的数据。

数据已经成为一种商业资本，一项重要的经济投入，可以创造新的经济利益。事实上，一旦思维转变过来，数据就能被巧妙地用来激发新产品和新服务。如今，大数据是人们获得新的认知、创造新价值的源泉，大数据还是改变市场、组织机构以及政府与公民关系的方法。大数据时代对我们的生活和与世界交流的方式都提出了挑战。

所谓大数据，狭义上可以定义为：用现有的一般技术难以管理的大量数据的集合。这实际上是指用目前在企业数据库中占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据。或者也可以说，是指由于数据量的增大，导致对数据的查询响应时间超出了允许的范围。

研究机构加特纳公司给出了这样的定义：“大数据是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

全球知名的管理咨询公司麦肯锡这样定义：“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。这是一个被故意设计成主观性的定义，并且是一个关于多大的数据集才能被认为是大数据的可变定义，即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展，符合大数据标准的数据集容量也会增长；并且随不同的行业也有变化，这依赖于在一个特定行业通常使用何种软件和数据集的大小。因此，大数据在今天不同行业中的范围可以从几十TB到几PB。”

随着大数据的出现，数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点，在全球引领了又一轮技术革新的浪潮。

1.2.3 大数据的3V特征

从字面上看，“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已，但容量大只不过是大数据特征的一个方面，如果只拘泥于数据量，就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况，并不仅仅是由于数据量增大这一因素所造成的。

IBM称：“ 可以用3个特征相结合来定义大数据：数量（Volume，或称容量）、种类（Variety，或称多样性）和速度（Velocity），或者就是简单的3V（见图1-13），即庞大容量、种类丰富和极快速度的数据。”

图1-13 按数量、速度和种类来定义大数据

（1） Volume（数量、容量）。如今，存储的数据量在急剧增长中，存储的数据包括环境数据、财务数据、医疗数据、监控数据等，数据量不可避免地会转向ZB级别。可是，随着可供企业使用的数据量不断增长，可处理、理解和分析的数据的比例却在不断下降。

（2） Variety（种类、多样性）。随着传感器、智能设备以及社交协作技术的激增，企业中的数据也变得更加复杂，因为它不仅包含传统的关系型（结构化）数据，还包含来自网页、互联网日志文件（包括流数据）、搜索索引、社交媒体、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。当然，这些数据中有些是过去就一直存在并保存下来的。和过去不同的是，除了存储，还需要对这些大数据进行分析，并从中获得有用的信息。

（3） Velocity（速度）。数据产生和更新的频率也是衡量大数据的一个重要特征。这里，速度的概念不仅是与数据存储相关的增长速率，还应该动态地应用到数据流动的速度上。有效地处理大数据，需要在数据变化的过程中动态地对它的数量和种类执行分析。

在3V的基础上，IBM又归纳总结了第四个V——Veracity（真实和准确）。“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着新数据源的兴起，传统数据源的局限性被打破，企业越发需要有效的信息治理以确保其真实性及安全性。”

总之，大数据是个动态的定义，不同行业根据其应用的不同有着不同的理解，其衡量标准也在随着技术的进步而改变。

1.2.4 大数据时代

大数据成为继互联网、云计算、物联网之后IT行业的又一大颠覆性技术革命。云计算为数据资产提供了保管、访问的场所和渠道，而数据才是真正有价值的资产。企业内部的经营信息、互联网世界中的商品物流信息，互联网世界中的人与人的社交信息、地理位置信息等，其数量将远远超越现有企业IT架构和基础设施的承载能力，实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产，使其为国家治理、企业决策乃至个人生活服务，是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。随着时间的推移，人们将越来越多地意识到数据对企业的重要性。

2012年 2月《纽约时报》的一篇专栏文章中称，“大数据”时代已经来临，在商业、经济及其他领域中，决策将日益基于数据和分析而做出，而并非基于经验和直觉。哈佛大学社会学教授加里·金说：“这是一场革命，庞大的数据资源使得各个领域开始了量化进程，无论学术界、商界还是政府，所有领域都将开始这种进程。”

1.2.5 大数据对应的厚数据

有这样一个例子。某数据分析团队为一家车贷公司搭建了一套信用审查数据模型，该模型可以根据贷款申请者的数据自动预测其在未来能否按时还款，以决定是否通过用户的贷款申请。相比人工信用审核，模型预测是全自动的机器过程，在保证判断准确率的前提下，它能为公司节省大量的人力成本。

该项目在客户的工作地点开展，其工位处于一个信审专区，周围有很多信审工作人员，他们每天的工作是审核贷款申请者的信息资料，审查其中存在的可能的骗贷行为，这将成为该申请者能否被成功授信的“减分项”。

虽然目的都是实现快速、准确的信贷审核，但数据建模的工作逻辑与人工审核存在明显的差异。数据分析专家面对的是一串串数字，而业务人员面对的是鲜活的申请者。数据分析的基础是客户的申请资料，包括此人的性别、年龄、资产情况等基本信息，以及一些来自第三方平台的风险数据（如该申请者有无犯罪记录）。而另一方面，信贷审核人员在处理每笔信贷业务时，他们除了面对每个申请者的具体信息，还会通过电话核实申请者的身份，最终做出人工决策。可见，数据是分析师们每天的工作伙伴，但实际上大数据也存在局限性，如无法替代人们对真实业务的体会。

大数据是人们认识世界的一种方式，它将关于某人的一切量化为很多数据标签并存储。大数据的优势很明显，它具有通用的结构，每个用户在这些维度上的数据都会被记录。然而，不足之处在于，它仅仅是对世界认识的一个切片，对于切片之外的事物一无所知。

例如，面试官在面试新员工时，首先会查看申请者的简历，他的教育背景、工作经验、语言能力等都是以固定结构记录的数据，然而申请者给面试官留下的感觉，例如他是气场强大的还是平易近人的，大数据则无法给出答案。

在一些项目中人们通过数据发现，有些教育程度较高的贷款申请者也可能会在未来逾期还款。这听上去有些违背常理，然而精通业务的经理告诉我们这是合理的现象，那些所谓的高学历是申请者在填写表格时编造的。后者并不是大数据能够捕捉的行为，但对理解申请者却至关重要。

我们可以把人类认识世界的途径分为两种，一种是如今家喻户晓的大数据，另一种则是一直长久存在，却往往在这个时代被我们忽视的“厚数据”。如果将大数据比作对客观世界的标准化切片，那么厚数据就是我们在每个独特场景的深度感知。

简历上的文字属于大数据，而面试官对申请者的感觉则属于厚数据；表格中教育程度一列等于“大学”属于大数据，而填写者在背后的伪装是厚数据；股票、汇率的历史走势是大数据，而酒吧里人们的闲聊则是厚数据。

大数据缺乏厚数据所携带的场景信息。我们对任何事物的理解都不能将其孤立为一个元素，还要考虑这个元素所处的具体场景，以及它与其他元素的相互关系。例如同样的一杯红酒，在点亮烛光的法国餐厅里或是在嘈杂的办公桌前饮用，注定是不一样的感受，虽然它们的化学质地是相同的；同样是一个小时，在课堂度过或者是与好友一起度过，必然感觉是不同的长度，虽然它们的自然属性没有差异；两名被数据标记有犯罪记录的贷款申请者，虽然数据将它们一视同仁，然而一位只是过失的交通肇事，另一位则有抢劫银行的前科，他们在未来的还款能力上或许大相径庭。仅仅面对数据和算法，人们无法洞察所处的独特场景，所以大数据分析与人类决策是相互补充的关系，而非相互替代的关系。