购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.4 数据分析工具库

专业的数据分析师通常使用Python语言和R语言进行混合编程,使用MATLAB进行建模分析和复杂的数学计算。本书主要讲述Python在数据分析领域的应用。

Python作为数据分析领域的主要开发语言,除了具有简单易用的特点,还能够满足快速开发的需求,实现数据在业务逻辑上的快速处理。Python为开发者提供了很多开源库,其中就包括很多优秀的数据处理开源库,如NumPy、Matplotlib、Pandas、scikit-learn等。

1.4.1 NumPy

NumPy(Numerical Python)是Python科学计算的基础库,它提供了非常丰富的功能,可以用于线性代数运算、傅里叶变换及随机数生成,还可作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时比Python内置的数据结构更高效,并且由其他语言(如C语言)编写的库可以直接操作NumPy数组中的数据,无须进行数据复制工作。

1.4.2 Matplotlib

Matplotlib是用于绘制二维图表的Python第三方扩展库,使用该库可以绘制直方图、功率图、条形图等常用图表,是数据分析过程中常用的可视化工具库。Matplotlib提供了一套面向绘图对象编程的应用程序接口(application program interface,API),能够很轻松地实现各种图像的绘制,并且它可以配合Python GUI工具(如PyQt、Tkinter等)在应用程序中嵌入图形。同时Matplotlib支持以脚本的形式嵌入IPython shell、Jupyter Notebook、Web应用服务器使用。使用Matplotlib绘制的函数图如图1.14所示。

图1.14 使用Matplotlib绘制的函数图

1.4.3 Pandas

Pandas提供了大量快速处理结构化数据的数据结构与函数,它是使Python成为强大而有效的数据分析工具的重要因素之一。Pandas是一个开放源代码、BSD许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas这个名字源自术语“panel data”(即面板数据)和“Python data analysis”(即Python数据分析),其基础是NumPy(提供高性能的矩阵运算)。Pandas可以导入如CSV、JSON、SQL、Excel等各种文件格式的数据,并可以对各种数据进行运算操作,如归并、再成形、选择等,还可以进行数据清洗和数据加工。所以Pandas被广泛应用于学术、金融、统计学等各个数据分析领域。

1.4.4 scikit-learn

scikit-learn(简称sklearn)是用于机器学习的Python第三方扩展库,该库可以用于数据分析过程中的数据建模环节。scikit-learn包含多种数据源,可供开发者快捷调用。它是一种简单、高效的数据挖掘和数据分析工具,其开放源代码可在各种环境中重复利用。 cgB6JIext2nF9L2v0uok6AgN48XuwYP4Rmyv59BF3AhunxjeoJzMgzkhhtmqsgRd

点击中间区域
呼出菜单
上一章
目录
下一章
×