购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.9 数据科学入门:基础的描述性统计

在数据科学中,通常会使用统计信息来描述和汇总数据。本节介绍几个具有此类功能的 描述性统计 数据,包括:

我们将在下一章研究如何确定 count sum 离中趋势度量 (也称为 离散程度度量 ),例如 range ,可以帮助我们确定值的分布情况。后面的章节将介绍其他的离中趋势度量,包括 方差 标准偏差

确定三个值中的最小值

我们来编写程序确定三个值中的最小值。下面的脚本提示用户按要求输入三个值,然后使用 if 语句确定三个值中的最小值并显示结果:

000

输入三个值后,程序每次处理一个值:

此时,变量 minimum 中存储的是最小值,因此将它作为结果进行显示。我们执行了三次脚本,无论用户输入的第一个值、第二个值还是第三个值是最小值,脚本总是能够正确地找到最小值。

使用内置函数 min max 确定最小值和最大值

Python有许多用于执行常见任务的内置函数。内置函数 min max 分别计算一组值的最小值和最大值:

000

函数 min max 可以接收任意数量的参数。

确定合集中值的范围

值的 range 指的是从最小值到最大值。在上面的例子中, range 是从12到36。许多数据科学致力于了解数据的性质,描述性统计是其中的关键部分,因此,我们需要知道这些统计数据的含义。例如,如果有100个数字,范围为12到36,那么这些数字可以均匀地分布在这个范围内。在极端情况下,这100个数字也可能会包含99个12和1个36,或1个12和99个36。

函数式编程:约简

本书将介绍多种 函数式编程 的技巧,这些技巧可以使我们能够编写出更简洁、更清晰、更易于 调试 (即查找和纠正错误)的代码。 min max 函数是称为 约简 的函数式编程概念的示例, min max 会将一个合集的值约简为 一个 值。书中还会用到许多其他的约简,例如合集中的值的总和、平均值、方差和标准偏差等,并且还会介绍如何自定义约简。

数据科学部分简介

在接下来的两章中,我们将继续讨论采用 集中趋势度量 的基础描述性统计,包括 均值 中值 众数 ,以及离中趋势度量,包括 方差 标准偏差 等。 7BJrVGPo4aMyMN8mH/uwHZf6E9fi+SRjQGAj+uhJkuIahRpyPMcnTYf+5lvwZEU2

点击中间区域
呼出菜单
上一章
目录
下一章
×