在理解数据分析的基本理论后,就需要使用工具对数据进行深入分析,本书使用的是Python编程语言。本节介绍搭建操作环境的方法,以方便读者后续进行数据分析和机器学习实践,包括Python的集成开发环境Anaconda、代码开发环境Jupyter和PyCharm以及包管理工具pip等。
Anaconda是Python的集成开发环境,内置了许多非常有用的第三方包(或称为库),包含NumPy、Pandas、Matplotlib等190多个常用包及其依赖包,如图1-6所示。使用Anaconda还可以用第三方软件包构建和训练机器学习模型,包括Scikit-Learn、TensorFlow和PyTorch等。
图1-6 主要的机器学习包
Anaconda的优点总结起来就8个字:省时省心,分析利器。
· 省时省心:Anaconda通过管理工具包、开发环境、Python版本,大大简化了工作流程,不仅可以方便地安装、更新和卸载工具包,而且安装时能自动安装相应的依赖包,同时还能使用不同的虚拟环境隔离不同要求的项目。
· 分析利器:适用于企业级大数据分析的Python工具。Anaconda包含720多个数据科学相关的开源包,在数据可视化、机器学习、深度学习等多方面都有涉及。不仅可以进行数据分析,甚至可以用在大数据和人工智能领域。
Anaconda的安装过程比较简单,可以选择默认安装或自定义安装,为了避免配置环境和安装pip的麻烦,建议添加环境变量和安装pip选项。下面介绍其安装步骤。
进入Anaconda的官方网站下载需要的版本,这里选择的是Windows 64-Bit Graphical Installer,如图1-7所示(如果官方网站下载速度较慢,还可以到清华大学开源软件镜像站去下载)。
图1-7 下载Anaconda
软件下载后,以管理员身份运行下载的Anaconda3-2020.07-Windows-x86_64.exe文件,后续的操作依次为:单击Next按钮,单击I Agree按钮,单击Next按钮,单击Browse按钮选择安装目录,单击Next按钮,单击Install按钮等待安装完成,单击Next按钮,再次单击Next按钮,最后单击Finish按钮即可。安装过程的开始界面和结束界面如图1-8所示。
图1-8 安装Anaconda
安装结束后,正常情况下会在计算机的“开始”菜单中出现Anaconda3 (64-bit)选项,单击Anaconda PowerShell Prompt (anaconda3),然后输入python,如果出现Python版本的信息,就说明安装成功,如图1-9所示。
图1-9 查看Python版本
目前,Jupyter是比较常用的开发环境,它包括Jupyter Notebook和JupyterLab。
1.Jupyter Notebook
Jupyter Notebook是一个在浏览器中使用的交互式的笔记本,可以实现将代码、文字完美地结合起来,用户大多数是一些从事数据科学相关领域(机器学习、数据分析等)的人员。安装Python后,可以通过pip install jupyter命令安装Jupyter库。可以通过在命令提示符(CMD)中输入jupyter notebook,启动Jupyter Notebook程序。
开始编程前需要先说明一个概念,Jupyter Notebook中有一个叫作工作空间(工作目录)的概念,也就是你想在哪个目录编程。Jupyter Notebook启动后,会在浏览器中自动打开Jupyter Notebook窗口,如图1-10所示。
图1-10 Jupyter Notebook窗口
2.安装JupyterLab程序
JupyterLab是Jupyter Notebook的新一代产品,它集成了更多功能,是使用Python(R、Julia、Node等其他语言的内核)进行代码演示、数据分析、数据可视化等的很好的工具,它是本书默认使用的代码开发工具。
JupyterLab提供了更好的用户体验,例如可以同时在一个浏览器页面打开多个Notebook、IPython Console和Terminal终端,并且支持预览和编辑更多种类的文件,如代码文件、Markdown文档、JSON文件和各种格式的图片文件等,极大地提升了工作效率。
JupyterLab的安装比较简单,只需要在命令提示符(CMD)中输入“pip install jupyterlab”命令即可,它会继承Jupyter Notebook的配置,如地址、端口、密码等。启动JupyterLab的方式也比较简单,只需要在命令提示符中输入“jupyter lab”命令即可。
JupyterLab程序启动后,浏览器会自动打开编程窗口,默认地址为http://localhost:8888,界面如图1-11所示。可以看出,JupyterLab左边是存放笔记本的工作路径,右边是我们需要创建的笔记本类型,包括Notebook和Console等。
可以对JupyterLab的参数进行修改,如远程访问、工作路径等,配置文件位于C盘系统用户名下的.jupyter文件夹中,文件名为jupyter_notebook_config.py。
如果配置文件不存在,就需要自行创建,在命令提示符中输入“Jupyter Notebook--generate-config”命令生成配置文件,并且还会显示文件的存储路径及名称。
如果需要设置密码,在命令提示符中输入“Jupyter Notebook password”命令,生成的密码存储在jupyter_notebook_config.json文件中。
图1-11 JupyterLab程序的界面
如果需要允许远程登录,那么可以在jupyter_notebook_config.py文件中找到下面的几行,取消注释并根据项目的实际情况进行修改,修改后的配置如下:
c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8888
如果需要修改JupyterLab的默认工作路径,找到下面的代码,取消注释并根据项目的实际情况进行修改,修改后的配置如下:
c.NotebookApp.notebook_dir = u'D:\\Python数据分析与机器学习全视频案例'
上述配置参数修改后,需要关闭并重新启动JupyterLab才能生效。
PyCharm是比较常见的Python代码开发环境,可以帮助用户在使用Python语言开发时提高效率,它的功能包含调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制等。
PyCharm是一专注于Python的集成开发环境,分为专业版、教育版和社区版,专业版是收费的,只能试用一个月,教育版是免费的,是专门针对学生和老师设计的,社区版适合个人或小团队开发使用,对于初学者来说,社区版的功能足以满足需求。
在开始安装PyCharm之前,要确保计算机上已经安装了Java 1.8以上的版本,并且已配置好环境变量。下面介绍其安装步骤。
首先进入PyCharm的官方网站下载社区版软件,下载完成后双击安装程序开始安装,安装过程比较简单,基本采用默认的设置即可。安装完成后,单击Finish按钮关闭安装窗口。安装好PyCharm后,还需要配置开发环境,首次启动PyCharm会弹出配置窗口,如图1-12所示。
如果之前使用过PyCharm并有相关的配置文件,则在此处选择导入该配置文件;如果没有,保持默认设置即可。单击OK按钮,然后进行主题选择和插件安装过程。
图1-12 配置窗口
设置完成后,在PyCharm欢迎界面,单击Create New Project选项,可以创建一个新的Python项目,如图1-13所示。
图1-13 欢迎界面
在创建新项目界面,在Location中设置项目名称和选择解释器,注意这里默认使用Python的虚拟环境,即第一个New environment using选项,然后单击Create按钮,如图1-14所示。如果不使用虚拟环境,一定要修改,选择第二个Existing interpreter选项,然后选择需要添加的解释器。
图1-14 创建新项目
创建Python文件,在项目名称的位置右击,依次选择New和Python File,如图1-15所示。然后输入文件名,例如Hello,并按Enter键即可。
图1-15 新建Python文件
在文件中输入代码:print("Hello Python!");,然后在文件中任意空白位置右击,选择Run 'Hello'选项,在界面的下方显示Python代码的运行结果,说明PyCharm已经正常安装和配置,如图1-16所示。
图1-16 运行Python代码
由于Python第三方包众多,因此不少开发者喜欢使用Python,但是调用包的时候可能很闹心,因为安装包不是失败就是很慢,很影响自己的工作进度。当我们在命令提示符中使用pip安装包时,常常会出现安装失败的问题,这主要是由于pip默认下载国外的软件资源,由于网速不稳定等原因,可能会导致出现错误,解决办法有以下两种:
方法一: 首先明确需要安装的包,再去国外的相关网站下载离线安装包,然后在命令提示符窗口中用pip安装本地离线包。
方法二: 是一劳永逸的方法,选择国内镜像源,相当于从国内的一些机构下载所需要的Python第三方包。那么如何配置国内镜像源呢?
首先找到C:\Users\Administrator\AppData\Roaming这个路径,部分读者可能会找不到,可能是这个文件夹被隐藏了,解决办法如下:
以Windows 10 64位家庭版系统为例进行介绍。首先打开C盘,单击左上角的“查看”,选择“隐藏的项目”,然后进入“用户”文件夹,双击计算机的登录用户名,例如shang,这样就能看到AppData文件夹。
找到路径后,在该路径下新建一个文件夹,命名为pip,然后在pip文件夹中新建一个TXT格式的文本文件。打开文本文件,将下面这些代码复制到文本文件中,关闭并保存,最后将TXT格式的文本文件重新命名为pip.ini,这样就创建了一个配置文件,再使用pip进行包安装时,就默认到国内的源去下载包和安装包了。
[global] timeout = 60000 index-url = http://pypi.douban.com/simple [install] use-mirrors = true mirrors = https://pypi.tuna.tsinghua.edu.cn
配置文件中的index-url链接地址可以更换如下:
阿里云:http://mirrors.aliyun.com/pypi/simple/。
中国科技大学:https://pypi.mirrors.ustc.edu.cn/simple/。
清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/。
中国科学技术大学:http://pypi.mirrors.ustc.edu.cn/simple/。
pip安装第三方包的命令如下:
pip install packages
安装多个包需要将包的名字用空格隔开,命令如下:
pip install package_name1 package_name2 package_name3
安装指定版本的包,命令如下:
pip install package_name==版本号
此外,在JupyterLab中可以很方便地使用pip工具,在JupyterLab窗口中单击Console,如图1-17所示。
然后,在下方的代码输入区域输入相应的代码,也可以使用pip安装、更新和卸载第三方包。
图1-17 打开Console
输出打印“Hello World!”几乎是每个程序员、每个编程语言入门的第一个程序。下面我们将介绍如何使用Python输出“Hello World!”。
首先,我们定义字符串变量str,其内容是“Hello World!”,示例代码如下:
str = "Hello World!"
然后,调用print()函数打印变量str,示例代码和输出如下:
print(str)
Hello World!