使用Python的一个重要原因是它的第三方库功能非常强大。数据分析主要通过这些第三方库来实现。在此先对这些库做简要说明,后面会对其用法进行详细介绍。
是Python中科学计算的基础包,其核心对象是ndarray(封装了Python原生同数据类型的n维数组)。NumPy具有快速数组处理能力,NumPy数组用于存储和处理数据比内置Python数据结构效率高。大多数Python数值计算工具要么使用NumPy数组作为主要数据结构,要么可以与NumPy进行无缝交互操作。本书中很多内容是基于NumPy以及构建于其上的库来实现的。
是Python最重要的核心数据分析支持库,数据操作、准备、清洗功能非常强大。它使Python成了强大的数据分析工具。Pandas具有NumPy的高性能数组计算能力、电子表格和关系型数据库的灵活数据处理能力,以高效的索引功能,使得切片、重塑、聚合和选取数据子集等操作变得简单容易。Pandas的一个重要对象是DataFrame,它源于R语言的“data.frame”对象,但是由于构建基础不同,R语言不能调用它。DataFrame是一个面向行列的二维表结构,类似Excel表格。本书中绝大多数数据库使用DataFrame进行构建分析。
是Python用于绘制图表和实现其他二维数据可视化的第三方库。它的绘图功能非常强大,与Pandas库结合可以快速按一定要求绘制图片。
是基于NumPy的科学计算库,主要用于数学、数据科学和工程学等领域。它是一组专门解决科学计算中各种标准问题域的包的集合,其中scipy.stats包主要用于统计描述和各种统计检验等。本书主要介绍使用它进行统计检验。
是一个重要的统计分析包,可提供许多统计模型,如线性回归、广义线性回归、logistic回归以及时间序列模型等。本书主要介绍使用Statsmodels库拟合统计模型。
值得注意的是,在Python语法中,要使用某个库,必须先将其导入,然后才能使用,如代码清单2-10所示。这使得Python的语句看起来很长、很复杂。在实际上使用中,用户可以在进行统计分析前一次性导入需要的所有库,后面进行统计分析时就不需要再次导入了。本书为了尽量让每部分的代码保持完整性,以便读者可以直接按照代码清单运行出结果,在各案例分析中均写了导入库的命令。