Python拥有大量的软件包/库,下面几个库广泛运用于数据分析领域。
● NumPy库 :NumPy是Numerical Python的简称。它是数值计算的基本库,涉及数据分析的软件包基本上都是基于它构建的。
● Pandas库 :Pandas的名称来源于面板数据(panel data)和Python数据分析(Python data analysis)。Pandas将表格和关系型数据库(例如SQL)的灵活数据操作能力与NumPy的高性能数组运算理念相结合。使Python成为强大、高效的数据分析环境。
● Matplotlib库 :Matplotlib起源于MATLAB中的绘图函数,是最流行的用于数据可视化的库。它非常灵活,允许用户控制图中的所有元素,可以绘制出适合出版的图形。
● SciPy库 :SciPy提供了一系列用于科学计算领域各种标准问题的包,例如数值积分和微分、最优化求解、信号处理、概率和统计计算等。SciPy与NumPy的结合为很多科学计算问题提供了一个成熟完整的计算基础。
● Seaborn库 :Seaborn是在Matplotlib库的基础上进行了更高级的API封装。它能高度兼容NumPy与Pandas数据结构以及SciPy与Statsmodels等统计计算对象。在多数情况下,使用Seaborn更容易做出具有吸引力的图。
● Statsmodels库 :Statsmodels是一个强大的统计分析库,可用于拟合常用统计模型,如方差分析、线性模型、广义线性模型、线性混合效应模型、时间序列分析等。它还可以进行经典的统计学假设检验、数据探索和可视化。
● Scikit-learn库 :Scikit-learn是专门为机器学习建造的一个Python库。它提供了大量用于数据挖掘和分析的工具,包括数据预处理、建立模型、模型验证与可视化等接口。Scikit-learn集成了大量的算法用于分类、回归、聚类、数据降维等。