购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 Python的安装与使用

数据分析与可视化通常对数据处理的高效性与简洁性有着很高的要求,那么就需要去选取一款高效、简单的数据处理“工具”。Python是数据处理的常用语言,可以处理从KB级至TB级的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性。

1.3.1 Python的下载与安装

要做数据分析,首先需要搭建Python开发环境,即安装Python。前往Python的官方网站下载安装包,选择与当前计算机操作系统相对应的版本进行下载,本书使用Python 3.9版本。Python下载界面如图1.9所示。

图1.9 Python下载界面

下载好安装包后,双击安装包安装Python IDLE。需要注意的是,将两个安装选项都勾选,可以自动添加Python的PATH环境变量,如图1.10所示。

图1.10 Python安装界面

单击“Install Now”,等待安装完成即可。

1.3.2 检验安装是否成功

安装完成之后,按键盘上的win+R组合键,然后输入“cmd”,单击“确定”按钮,出现DOS命令窗口。输入“python”,按Enter键,出现图1.11所示界面即表示Python安装成功。

图1.11 检验Python是否安装成功

1.3.3 第一个Python程序

成功安装Python IDLE之后,在“开始”菜单中找到刚刚安装的Python的文件夹,打开之后,如图1.12所示。

依次单击IDLE→File→New File,新建Python文件,输入print(‘hello world’),再依次单击Run→Run→Module,将此Python文件保存至对应路径(如桌面)。双击该文件运行第一个Python程序,如图1.13所示。

图1.12 打开Python文件夹

图1.13 第一个Python程序 ym/mlun+t6v2+0nwsmjiTOzh3NKb8z9fPmsRxr19LIl6VYWDkA6UIQj1q2xZqaI2



1.4 数据分析工具库

专业的数据分析师通常使用Python语言和R语言进行混合编程,使用MATLAB进行建模分析和复杂的数学计算。本书主要讲述Python在数据分析领域的应用。

Python作为数据分析领域的主要开发语言,除了具有简单易用的特点,还能够满足快速开发的需求,实现数据在业务逻辑上的快速处理。Python为开发者提供了很多开源库,其中就包括很多优秀的数据处理开源库,如NumPy、Matplotlib、Pandas、scikit-learn等。

1.4.1 NumPy

NumPy(Numerical Python)是Python科学计算的基础库,它提供了非常丰富的功能,可以用于线性代数运算、傅里叶变换及随机数生成,还可作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时比Python内置的数据结构更高效,并且由其他语言(如C语言)编写的库可以直接操作NumPy数组中的数据,无须进行数据复制工作。

1.4.2 Matplotlib

Matplotlib是用于绘制二维图表的Python第三方扩展库,使用该库可以绘制直方图、功率图、条形图等常用图表,是数据分析过程中常用的可视化工具库。Matplotlib提供了一套面向绘图对象编程的应用程序接口(application program interface,API),能够很轻松地实现各种图像的绘制,并且它可以配合Python GUI工具(如PyQt、Tkinter等)在应用程序中嵌入图形。同时Matplotlib支持以脚本的形式嵌入IPython shell、Jupyter Notebook、Web应用服务器使用。使用Matplotlib绘制的函数图如图1.14所示。

图1.14 使用Matplotlib绘制的函数图

1.4.3 Pandas

Pandas提供了大量快速处理结构化数据的数据结构与函数,它是使Python成为强大而有效的数据分析工具的重要因素之一。Pandas是一个开放源代码、BSD许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas这个名字源自术语“panel data”(即面板数据)和“Python data analysis”(即Python数据分析),其基础是NumPy(提供高性能的矩阵运算)。Pandas可以导入如CSV、JSON、SQL、Excel等各种文件格式的数据,并可以对各种数据进行运算操作,如归并、再成形、选择等,还可以进行数据清洗和数据加工。所以Pandas被广泛应用于学术、金融、统计学等各个数据分析领域。

1.4.4 scikit-learn

scikit-learn(简称sklearn)是用于机器学习的Python第三方扩展库,该库可以用于数据分析过程中的数据建模环节。scikit-learn包含多种数据源,可供开发者快捷调用。它是一种简单、高效的数据挖掘和数据分析工具,其开放源代码可在各种环境中重复利用。 HpJE7AWqN3VwY4ltW9E0VTiRs/02wqF3utDq6BHnw+0mewFci83X335D9+p5ND0M



1.5 Anaconda
——最受欢迎的开源Python分发平台

Anaconda可以便捷获取包且能够对包进行管理,同时可以对环境进行统一管理。

1.5.1 初识Anaconda

Anaconda是一个开源的Python发行版本,可以看作Python的包管理工具,类似于pip。Anaconda包含conda、Python等(180多个)科学包及其依赖项,由于包含的科学包较多,因此所占的存储空间较大。1.4节所提到的Python库都包含在Anaconda中,所以我们选取Anaconda作为数据分析的主要工具。

1.5.2 Anaconda的安装与使用

1.下载与安装

在浏览器中打开Anaconda的官方网站,进入Anaconda的下载首页,单击“Download”按钮下载Anaconda。

下载完成后,找到下载的Anaconda3-2022.05-Windows-x86_64.exe文件,双击安装,出现安装界面,如图1.15所示。

图1.15 Anaconda安装界面

单击“Next”按钮→单击“I Agree”按钮→选中“All Users”单选按钮→选择安装路径→单击“Next”按钮,同时勾选两个复选框,如图1.16所示。单击“Install”按钮,出现进度条,等待安装完成,如图1.17所示。安装完成的界面如图1.18所示,此时单击“Next”按钮即可完成安装。

图1.16 勾选两个复选框

图1.17 等待安装完成

图1.18 Anaconda安装完成

2.配置环境变量

安装完成后需要配置环境变量。用鼠标右键单击桌面上的“此电脑”图标,依次单击“属性”→“高级系统设置”,如图1.19所示。弹出图1.20所示的“系统属性”对话框,在“高级”标签页中单击“环境变量”按钮。在图1.21所示列表框中选择“Path”变量,单击“编辑”按钮,进入如图1.22所示的“编辑环境变量”对话框,单击“新建”按钮,按照图示添加对应路径到环境变量中。

图1.19 配置环境变量

图1.20 “系统属性”对话框

图1.21 选择“Path”变量

图1.22 “编辑环境变量”对话框

3.启动Jupyter Notebook

我们可以在DOS命令窗口中输入“Jupyter Notebook”命令,启动Jupyter Notebook应用,执行结果如图1.23所示。

图1.23 启动Jupyter Notebook

启动成功之后自动跳转到默认浏览器,如图1.24所示。

图1.24 Jupyter Notebook的开始界面

单击“New”按钮,在弹出的下拉列表中选择“Python 3(ipykernel)”,创建第一个案例。如图1.25所示,输入print(‘hello,数据分析!’),单击“运行”按钮输出结果。

图1.25 创建第一个案例 HpJE7AWqN3VwY4ltW9E0VTiRs/02wqF3utDq6BHnw+0mewFci83X335D9+p5ND0M

点击中间区域
呼出菜单
上一章
目录
下一章
×