Python医学实用统计分析最新章节_潘兴强著

2.3　重要的Python库

使用Python的一个重要原因是它的第三方库功能非常强大。数据分析主要通过这些第三方库来实现。在此先对这些库做简要说明，后面会对其用法进行详细介绍。

（1）NumPy（Numerical Python）：

是Python中科学计算的基础包，其核心对象是ndarray（封装了Python原生同数据类型的n维数组）。NumPy具有快速数组处理能力，NumPy数组用于存储和处理数据比内置Python数据结构效率高。大多数Python数值计算工具要么使用NumPy数组作为主要数据结构，要么可以与NumPy进行无缝交互操作。本书中很多内容是基于NumPy以及构建于其上的库来实现的。

（2）Pandas：

是Python最重要的核心数据分析支持库，数据操作、准备、清洗功能非常强大。它使Python成了强大的数据分析工具。Pandas具有NumPy的高性能数组计算能力、电子表格和关系型数据库的灵活数据处理能力，以高效的索引功能，使得切片、重塑、聚合和选取数据子集等操作变得简单容易。Pandas的一个重要对象是DataFrame，它源于R语言的“data.frame”对象，但是由于构建基础不同，R语言不能调用它。DataFrame是一个面向行列的二维表结构，类似Excel表格。本书中绝大多数数据库使用DataFrame进行构建分析。

（3）Matplotlib：

是Python用于绘制图表和实现其他二维数据可视化的第三方库。它的绘图功能非常强大，与Pandas库结合可以快速按一定要求绘制图片。

（4）SciPy：

是基于NumPy的科学计算库，主要用于数学、数据科学和工程学等领域。它是一组专门解决科学计算中各种标准问题域的包的集合，其中scipy.stats包主要用于统计描述和各种统计检验等。本书主要介绍使用它进行统计检验。

（5）Statsmodels：

是一个重要的统计分析包，可提供许多统计模型，如线性回归、广义线性回归、logistic回归以及时间序列模型等。本书主要介绍使用Statsmodels库拟合统计模型。

值得注意的是，在Python语法中，要使用某个库，必须先将其导入，然后才能使用，如代码清单2-10所示。这使得Python的语句看起来很长、很复杂。在实际上使用中，用户可以在进行统计分析前一次性导入需要的所有库，后面进行统计分析时就不需要再次导入了。本书为了尽量让每部分的代码保持完整性，以便读者可以直接按照代码清单运行出结果，在各案例分析中均写了导入库的命令。

2.3 重要的Python库