为什么说Python是最适合机器学习项目的语言?这是因为Python配备了大量的库和框架供开发人员使用。在一个经常使用复杂算法的领域,不需要用Python从头开始进行整个开发流程,节省了大量的人力物力。
使用Python解决机器学习问题的原因归结于Python自身的特点。
Python最适合于机器学习项目,因为它在结构上允许很大的灵活性,可以选择使用面向对象程序设计(OOP)或采用正常的脚本方式,这对Python来说并不重要。
机器学习项目需要大量的重新编译,特别是涉及神经网络的项目,Jupyter和GoogleColab等Python支持平台允许重新编译其中的部分代码,而不是整个项目的代码,从而节省更多时间。只有当一个人仅仅因为一个简单的错误而重新编译整个项目代码时,才能够真正理解这个特性有多重要。
更值得一提的是,Python对其他语言非常友好,因此,可以将Python与其他语言结合起来,帮助开发人员快速获得所需的输出。
Python运行在Windows、Linux等平台上,以及其他平台的主机上,它独立于平台。开发人员可以通过使用Pyinstaller这样的包来让代码在其他平台上运行。
Python的代码非常简单,简单到用户能够轻松理解、共享和复制代码,并在自己的解决方案中使用它。这才导致更好的算法、研究和工具的开发。
Python不像其他语言那样具有太多复杂的语法和限制,允许用户更加自由地编写代码。
大多数机器学习和人工智能开发人员需要经常可视化数据,以了解代码中真正发生的事情,无论是以K-Means可视化集群还是简单的线性回归。视觉效果总是受欢迎的,在Python中,当想可视化数据时,Matplotlib、Seaborn和Plotly等Python库是非常好的选择。
Python的流行速度正在快速增长,Python除了有很多文档和支持外,还有一个非常强大的开发人员社区,像真正的Python和Geeksforgeks这样的网站都有大量的优质教程,可以帮助业余的和经验丰富的程序员。
首先,需要通过Python官方网站https://www.python.org/下载Python安装包,目前最新版本是Python 3.10.7。在其官方网站首页的导航条上找到Downloads按钮,当鼠标指针悬停在上面时出现一个下拉菜单,如图1-19所示。
在下拉菜单中,根据自己的操作系统选择对应的Python版本,本书以Windows系统为例进行讲解。
图1-19 Python下载入口
单击图1-19中所示的Windows按钮后,将进入下载页面,在此处选择和自己系统匹配的安装文件。为了方便起见,选择executable installer(可执行的安装程序)。
注意,如果操作系统是32位的,如图1-20所示,请选择Windows x86-64 executable installer。
图1-20 Python 3.10.7不同版本下载链接
下载完成后,双击安装文件,在打开的软件安装界面中选择Install Now即可进行默认安装,而选择Customize installation可以对安装目录和功能进行自定义。勾选All Python 3.10.7 to PATH复选框,以便把安装路径添加到PATH环境变量中,这样就可以在系统各种环境中直接运行Python了。
安装好Python后,使用其自带的IDLE编辑器就可以完成代码编写的功能。但是自带的编辑器功能比较简单,所以可以考虑安装一款更强大的编辑器。在此推荐使用Jupyter Notebook作为开发工具。
Jupyter Notebook是一款开源的Web应用,用户可以使用它编写代码、公式、解释性文本和绘图,并且可以把创建好的文档进行分享。目前,Jupyter Notebook已经广泛应用于数据处理、数学模拟、统计建模、机器学习等重要领域。它支持四十余种编程语言,包括在数据科学领域非常流行的Python、R、Julia及Scala。用户还可以通过E-mail、Dropbox、GitHub等方式分享自己的作品。Jupyter Nobebook还有一个强悍之处在于,它可以实时运行代码并将结果显示在代码下方,给开发者提供了极大的便捷性。
下面介绍Jupyter Notebook的安装和基本操作。
以管理员身份运行Windows系统自带的命令,或者在macOS X的终端,输入下方的命令,如图1-21所示。
pip3 install jupyter
图1-21 安装Jupyter Notebook
花费一定的时间,Jupyter Notebook就会自动安装完成。在安装完成后,命令提示符会提示Successfully installed jupyter-21.2.4。
在Windows的命令提示符或者是macOS X的终端中输入jupyter notebook,就可以启动Jupyter Notebook,如图1-22所示。
图1-22 启动Jupyter Notebook
这时计算机会自动打开默认的浏览器,并进入Jupyter Notebook的初始界面,如图1-23所示。
图1-23 Jupyter Notebook的初始界面
启动Jupyter Notebook之后,就可以使用它工作了。首先要建立一个notebook文件,单击右上角的New按钮,在出现的下拉菜单中选择Python 3,如图1-24所示。
图1-24 在Jupyter Notebook中可新建一个文档
之后Jupyter Notebook会自动打开新建的文档,并出现一个空白的单元格(cell)。下面试着在空白单元格中输入如下代码:
print('Hello Python!')
按Shift+Enter组合键,会发现Jupyter Notebook已经把代码的运行结果直接显示在单元格下方,并且在下面又新建了一个单元格,如图1-25所示。
图1-25 使用Jupyter Notebook打印“Hello Python!”
提示: 在Jupyter Notebook中,按Shift+Enter组合键表示运行代码并进入下一个单元格,而按Ctrl+Enter组合键表示运行代码但不进入下一个单元格。
现在给这个文档重新命名为Hello Python,在Jupyter Notebook的File菜单中选择Rename选项,如图1-26所示。
在弹出的对话框中输入新名称Hello Python,单击Rename按钮确认,就完成了重命名操作。由于Jupyter Notebook会自动保存文档,此时已经可以在初始界面看新建的Hello Python.ipynb文件了,如图1-27所示。
Jupyter Notebook还有很多奇妙的功能,可以慢慢去挖掘。
pip是Python安装各种第三方库的工具。
对于第三方库不太理解的读者,可以将其理解为供用户调用的代码组合。在安装某个库之后,可以直接调用其中的功能,使得我们不用逐个地实现某个功能。就像需要为计算机杀毒时会选择下载一个杀毒软件一样,而不是自己编写代码实现一个杀毒软件,直接使用杀毒软件中的杀毒功能来杀毒就可以了。这个比方中的杀毒软件就是第三方库,杀毒功能就是第三方库中可以实现的功能。
图1-26 对文档进行重命名操作
图1-27 新建的Hello Python.ipynb文档
注意,Anaconda中已经自带了pip,因此不用再自己安装、配置pip。
下面介绍如何用pip安装第三方库bs4,它可以使用其中的BeautifulSoup解析网页。步骤如下。
(1)打开cmd.exe,在Windows中为cmd,在mac中为terminal。在Windows中,cmd是命令提示符,输入一些命令后,cmd.exe可以执行对系统的管理。单击“开始”按钮(如果是Windows 10系统,即直接按Win+R组合键)打开“运行”对话框,如图1-28所示。在“打开”文本框中输入cmd后按Enter键,系统会打开命令提示符窗口,在mac中,可以直接在“应用程序”中打开terminal程序。
图1-28 打开cmd
(2)安装bs4的Python库。在cmd中输入pip install bs4后按Enter键,如果出现successfully installed,就表示安装成功,如图1-29所示。
图1-29 安装bs4的Python库
除了bs4这个库,之后还会用到requests库、lxml库等其他第三方库,正是因为这些第三方库,才使得Python功能如此强大和活跃。
提示: 在程序中,如果用到其他相关库,可通过“pip install库名”,在命令窗口中实现自动安装。