购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 大数据时代与统计学

这个问题源自我们很多年之前参加的一个行业研讨会。多年前,我们参加了一个以大数据为主题的研讨会,会议非常精彩,演讲者们纷纷介绍了大数据对各自行业的影响,以及各行各业如何在大数据时代进行数字化转型的展望。回想起来,这大约是我们第一次接触“大数据”这一概念。在会议的间隙,我们几位老友就各自感兴趣的问题又进行了深入的探讨。其中一位朋友乐呵呵地说:“看样子,再过若干年,你们可就要下岗再就业了。”“嗯?为什么这么说呢?”有人问道。我们对朋友抛来的这突如其来的观点感到有些措手不及(虽然当时这只是调侃)。“现在不是都进入大数据时代了吗。未来大家都有大数据了,你们教的是统计学,估计以后就没人学了,赶紧重新换门课教吧,哈哈!”朋友补充道(这里的统计学是指狭义上的统计学课程)。

事实上,朋友这句不经意间的调侃也并非空穴来风。我们可以大致梳理一下他的观点逻辑。

目前对于大数据的常见定义可以概述为Volume、Velocity、Variety、Value和Veracity,简称5V。

·Volume:海量数据规模。数据至少都是以GB、TB为单位的(1GB=1024M,大概是一部高清电影的大小)。

·Velocity:高速处理能力。对于海量数据具有足够高效甚至是实时的处理能力。

·Variety:数据的多样性。除了常见的分类型、顺序型和数值型数据,还包括文字、图片、语音、图像等。

·Value:潜在价值。数据包含潜在的价值。

·Veracity:数据的质量。数据的准确性和可信赖程度。

朋友在其观点中主要阐述的是第一个V的含义,他认为既然数据量很大,人们就可能直接或几乎拥有总体,那么,何必要基于样本推断总体呢,或者说何必学习统计学呢?(注:基于样本推断总体是统计学的重要任务。)

思量后,我们认为可以用下面的观点予以反驳。

·存在不等于拥有。虽然在互联网时代数据的传递和沉淀效率都得到了极大的提升,但是很多场景下数据存储于不同的位置,并且受制于各种约束,数据之间并不能实现互通。可能总体就在那里,但是我们无法获得。在实践中,通过抽样推断总体依然是经典且有效的常用方法。

·能算不等于划算。众所周知,随着数据科学的发展,各方面的运算资源也得到了极大的丰富。与此同时,占用运算资源也是需要成本的,这种成本可以表现为时间成本,也可以表现为财务成本。例如,你有十几亿个数据,你希望计算它们的算数平均数。如果这是一个总体数据,并且假设直接计算平均数会花费1h再加上100元的运算资源租用费用。为了计算平均数,你真的愿意花这些时间和金钱吗?好吧,如果你不愿意,那么我们还有一个替代方案,那就是从中随机抽取1万个样本,用样本平均数来估计总体平均数,虽然一定会有误差,但如果你愿意接受这种误差的话,那么用1万个数据计算平均数的成本几乎为零。

你一定还能找到在大数据时代学习统计学的其他理由,这些理由共同造就了统计学成为大数据环境下商业数据分析的核心基础课程之一。下面我们就开始感受统计学的魅力。

定义1-1 统计学是指通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测研究对象的未来的一门综合性科学。

在这里我们不难发现,搜索、整理、分析、描述等只是统计学的手段、方法,其最终目标是推断研究对象的本质,甚至是开展预测。那么,对于数据的关注与运用,只是随着大数据的兴起才开始的吗?

定义1-2 数据是指事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。

在漫长的历史长河中,我们能够找到的较早的数据来自“结绳记事”中的“结”。

上古结绳而治,后世圣人易之以书契。

——《易传·系辞传》

古者无文字,其有约誓之事,事大大其绳,事小小其绳,结之多少,随物众寡。

——《九家易》

由此可见,古人依据不同的事件特征,系出不同的绳结,将事件以“数据”的形式归纳和存储下来,体现出了我国早期统计思想的萌芽。

数者,臣主之术,而国之要也。故万乘失数而不危、臣主失数而不乱者,未之有也……

竟内仓、口之数,壮男、壮女之数,老、弱之数,官、士之数,以言说取食者之数,利民之数,马、牛、刍藁之数。欲强国,不知国十三数,地虽利,民虽众,国愈弱至削。

——《商君书》

上述记载充分体现了商鞅对于“数据”的理解,即统计数据对于国君的治国之术至关重要,是国家的根本要事;要想强国,就需要知道“仓”“口”等13个统计数据。进入到现代,随着互联网的发展,特别是移动互联网的发展,我国各类与数据相关的基础设施建设突飞猛进。

2021年,新建光缆线路长度319万公里,全国光缆线路总长度达5488万公里……

2021年,全国移动通信基站总数达996万个,全年净增65万个。其中4G基站达590万个,5G基站为142.5万个,全年新建5G基站超65万个。

——《2021年通信业统计公报》

这些基础设施的建设,在改善民生和促进经济发展的同时,也使得数据的生成、传输和存储效率大大提升。

党的十九届四中全会首次提出将数据作为生产要素参与分配,加快探索构建数据基础制度。2017年到2021年,我国数据产量从2.3ZB增长至6.6ZB,全球占比9.9%,位居世界第二。大数据产业规模快速增长,从2017年的4700亿元增长至2021年的1.3万亿元。2017年到2021年,全国省级公共数据开放平台由5个增至24个,开放的有效数据集由8398个增至近25万个。

——《数字中国发展报告(2021年)》 v4wHOG5iu6XqVltiarl+A/iXjE7fFOFY3fI6XoWh4uW01jP+2pCersvwhxRqTHeE

点击中间区域
呼出菜单
上一章
目录
下一章
×