Spark 3.0大数据分析与挖掘：基于机器学习最新章节_王晓华著

2.1　Windows 10单机模式下安装和配置Spark

Windows 10系统是目前最常见的操作系统，本节将讲解如何在Windows 10系统中下载、使用Spark单机模式。

2.1.1　Windows 10安装Java 8

ML是Spark大数据处理框架中的一个重要组件，广泛应用于各类数据的分析和处理。Scala是一种基于JVM的函数式编程语言，而Spark是借助于JVM运行的一个数据处理框架，因此首选安装Java。

步骤01　从Java地址下载安装Java安装程序，地址为http://www.oracle.com/technetwork/java/javase/downloads/index.html。单击Java DownLoad，进入下载页面。这里推荐读者全新安装时使用Java 8，如图2-1所示。

图2-1　Java安装选项

步骤02　单击JDK Download按钮，之后按需求选择Java的版本号。为了统一安装，这里全部选择64位Java安装文件进行下载，如图2-2所示。

图2-2　下载Java

提示： 为了安装后续的其他语言，统一采用64位的安装模式。

步骤03　双击下载后的文件，在默认路径安装Java，如图2-3所示，然后静待安装结束即可。笔者采用的是1.8.151版本，学习时只要比此版本高即可。

图2-3　Java安装过程

步骤04　安装结束后需要对环境变量进行配置，首先右击“我的电脑”|“属性”选项，在弹出的对话框中下方单击“高级系统设置”选项，然后选中“高级”标签，单击“环境变量”按钮，在当前用户名下新建JAVA_HOME安装路径，即前面JDK安装所在的路径，如图2-4所示。

图2-4　设置环境变量：JAVA_HOME

步骤05　PATH用于设置编译器和解释器路径，在设置好JAVA_HOME后，需要设置PATH以便Java工具能在任何目录下使用，如图2-5所示。

图2-5　设置环境变量：PATH

步骤06　对CLASSPATH进行配置。注意，在“变量值”（路径）文本框中一定要在开头加上“.;”（不包括引号），如图2-6所示。

图2-6　设置CLASSPATH路径

步骤07　单击Windows 10开始菜单，在“附件”里面找到“运行”，输入“cmd”命令，如图2-7所示。

图2-7　输入“cmd”运行命令

步骤08　输入命令后打开控制台界面，在打开的界面中输入“java”，如图2-8所示。

图2-8　输入“java”运行命令

步骤09　运行后出现如图2-9所示的界面，说明Java已经配置好，可以运行Java程序了。

图2-9　配置结果

2.1.2　Windows 10安装Scala 2.12.10

步骤01　Scala的安装比较容易，直接下载相应的编译软件，下载之后双击程序直接安装。Scala会在安装过程中自行设置。我们需要下载的版本是Scala 2.12.10，下载地址为http://www.scala-lang.org。

步骤02　打开Scala网站首页，如图2-10所示。

图2-10　Scala网站首页

步骤03　单击DOWNLOAD按钮，进入下载界面，单击如图2-11所示的圈住的链接。

图2-11　Scala下载页面

步骤04　日期不同，在首页默认下载的Scala版本也不尽相同，这里选用的是2.12.10版本。单击图2-11中所示的ALL downloads按钮进入版本选择页面，如图2-12所示。

图2-12　Scala版本选择

提示： 为了更好地与Spark 3.0兼容，推荐使用2.12.10稳定版。

步骤05　单击图2-12中所示画横线的按钮进入Scala 2.12.10版本的下载页面，选择Windows版本，如图2-13所示。等待程序下载完成后，双击进行程序安装。

图2-13　Scala 2.12.10下载页面

步骤06　与Java安装时类似，安装结束后对环境变量进行配置，首先右击“我的电脑”|“属性”菜单，在弹出的对话框中单击“高级系统设置”选项，然后选中“高级”标签，单击“环境变量”按钮。在当前用户名下新建SCALA_HOME安装路径，即前面Scala安装所在的路径，如图2-14所示。

图2-14　SCALA_HOME环境变量设置

步骤07　设置PATH变量：找到系统变量下的PATH项，单击“编辑”按钮。在“变量值”文本框的最前面添加“%SCALA_HOME%\bin;”，如图2-15所示。

图2-15　PATH环境变量设置

步骤08　跟前面运行Java命令一样，还是通过在“运行”对话框输入“cmd”命令打开命令控制台。输入“scala”，显示如图2-16所示，即可认为Scala安装完毕。

图2-16　输入Scala运行结果

2.1.3　Intellij IDEA下载和安装

Intellij IDEA是常用的Java编译器，也可以用来作为Spark单机版的调试器。Intellij IDEA有社区免费版和付费版，这里使用免费版即可。

Intellij IDEA的下载地址为http://www.jetbrains.com/idea/download/，选择右侧的社区免费版下载即可，如图2-17所示。

双击下载的Intellij IDEA安装包就会自动进行安装。这里基本没有什么需要特别注意的事项，如果在安装过程中碰到问题，可以自行搜索解决。

图2-17　选择社区免费版

2.1.4　Intellij IDEA中Scala插件的安装

Scala是一种把面向对象和函数式编程理念加入静态类型语言中的语言，可以把Scala应用在很大范围的编程任务上，无论是小脚本还是大系统都可以用Scala实现。Scala运行在标准的Java平台上（JVM），可以与所有的Java库实现无缝交互。

Spark的ML库是基于Java平台的大数据处理框架，因此可以自由选择最方便的语言进行编译处理。Scala天生具有简洁性和性能上的优势，并且可以在JVM上直接使用，使其成为Spark官方推荐的首选程序语言。因此，笔者推荐使用Scala语言作为Spark机器学习的首选语言。

Intellij IDEA本身并没有安装Scala编译插件，因此在使用Intellij IDEA编译Scala语言编写的Spark机器学习代码之前需要安装Scala编译插件，其安装步骤如下：

步骤01　在桌面上找到已安装的Intellij IDEA图标，双击打开后等待读取界面（见图2-18）结束。由于Intellij IDEA是首次使用，因此之后会进入创建工程选项界面，如图2-19所示。

图2-18　Intellij IDEA最新版读取界面

图2-19　Intellij IDEA使用界面

步骤02　因为需要使用Scala语言编译程序，所以这里建议读者先选择新建工程，验证是否可以使用Scala创建工程，如图2-20所示。

图2-20　创新新工程页面

步骤03　从图2-20可以看到，其中并没有可以建立Scala工程的选项。也就是说，如果需要使用Scala，Intellij IDEA需要进一步配置相应的开发组件。这里单击File Setting…菜单项打开Setting窗口，在左边单击Plugins选择插件，会出现如图2-21所示的界面（显示当前可以安装的插件）。

图2-21　查找插件

步骤04　显示的插件过多时，可以在Search文本框中输入“scala”搜索相应的Scala插件，如图2-22所示。

图2-22　查找Scala插件

步骤05　找到Scala插件后，单击右侧的install plugin绿色按钮，等待一段时间，即可完成安装。如图2-23所示是安装好了的界面，Installed按钮是灰色的。

图2-23　完成安装Scala插件

步骤06　安装完毕后，在New Project选项下有一项新的项目“Scala”，如图2-24所示。单击项目，可以创建相关程序。至此，Intellij IDEA的Scala插件安装完毕。

图2-24　安装Scala插件后的页面

2.1.5　HelloJava——使用Intellij IDEA创建Java程序

上面已经成功安装了Java、Scala以及通用编译器Intellij IDEA，下面带领读者正式使用Intellij IDEA创建Java与Scala的HelloWorld小程序。

步骤01　单击桌面上的Intellij IDEA标记，打开Intellij IDEA软件。这里建议读者先新建工程，单击新建工程对应项后，操作界面如图2-25所示。

图2-25　创建新工程页面

步骤02　这里首先创建的是Java程序，因此在图2-25所示的对话框左侧列表中选择Java选项、右侧列表中勾选Kotlin/JVM复选框。

提示： 最上方的SDK选项为空，因此需要在下一步之前设定。SDK是Java语言的编译开发工具包，需要设定安装的JDK地址。这里填写2.1.1节中安装Java时使用的地址。

步骤03　单击Project SDK下拉列表，在弹出的菜单项中选择JDK…，按操作提示选择Java JDK安装目录，结果如图2-26所示。

图2-26　选择SDK安装目录

IDE已经自动认出Java的版本号（见图2-27），此时可以使用Intellij IDEA创建一个Java程序。

图2-27　SDK选择界面

步骤04　单击Next按钮后，给创建的文件起一个名字（见图2-28），然后单击Finish按钮，即可创建程序文件。

图2-28　文件名创建界面

步骤05　在IDEA界面左侧，右击项目名下的src目录（已加入源码），弹出快捷菜单，单击New|Java Class菜单项，如图2-29所示。

图2-29　创建一个Java新程序

在打开的对话框中填写名称HelloJava，如图2-30所示，单击OK按钮后创建一个新的Java程序。

图2-30　创建一个Java新程序

步骤06　在IDEA弹出的界面右侧补充代码，如程序2-1所示。

代码位置：//SRC//C02// HelloJava.java

程序2-1　HelloJava

public class HelloJava {
  public static void main(String[] args){
    System.out.print("helloJava");
  }
}

右击文件，在弹出的菜单中选择“Run 'HelloJava.main()'”运行此程序，结果如图2-31所示。

图2-31　运行效果

这里使用Java语言创建了一个新的Java Class文件，用于对程序进行编写与编译。虽然在后续的学习中，Java语言并不是作为本书Spark的主要程序设计语言，但是对于Spark来说，Java语言仍旧是一个非常重要的语言基础，有无可替代的作用。

2.1.6　HelloScala——使用Intellij IDEA创建Scala程序

本节将继续使用Intellij IDEA编译器编译Scala程序，这是本书的一个重要的基础内容。

步骤01　单击IDE主界面上的File标签，新建一个工程，如图2-32所示。

图2-32　新建一个工程

步骤02　进入工作界面，这里有两种可以新建Scala程序的方式，推荐使用第二种方式，即使用图2-33所示的左边框中的Scala选项和右边的IDEA程序。

图2-33　创建Scala新工程页面

步骤03　单击Finish按钮后，进入存放位置设置和Scala编译器设置的页面（见图2-34），这里选择输入2.1.2节中安装的Scala目录地址。

图2-34　创建Scala新工程页面

这里已经在2.1.2节中安装过Scala，因此直接选择查找已安装的SDK即可。有需要的话也可以直接单击Download…按钮，下载不同版本的Scala语言。

新建项目，如图2-35所示。

图2-35　新建项目

这里使用了两个编译器，分别是Java和Scala的SDK。对于Scala来说，其实质也是运行在Java虚拟机上的一种编译语言，需要获得JDK的支持。

提示： Scala文件夹的位置最好不要与2.1.5节中Java文件存放的位置相同，以免在编译时产生错误。单击Finish按钮后，静待IDEA完成后续的创建工作。

步骤04　右击左侧列表中的src列表项新建文件，如图2-36所示。需要注意的是，这里要新建一个Scala Class文件。

图2-36　新建Scala Class文件

在弹出的对话框中输入Scala文件名，单击OK按钮即可创建一个空的Scala程序。需要注意的是，类型必须为Object而非Class，如图2-37所示。这一点和Java程序不同。

图2-37　创建新的Scala程序

代码位置：//SRC//C02//helloScala.scala

程序2-2　helloScala

Object helloScala {
  def main(args: Array[String]): Unit = {
    print("helloScala")
  }
}

步骤05　与Java编译时类似，右击文件名helloScala，在弹出的快捷菜单中选择“Run'helloScala'”命令，如图2-38所示。

图2-38　运行Scala代码

最终运行结果如图2-39所示。

图2-39　运行效果

2.1.7　最后一脚——Spark 3.0单机版安装

本小节通过Windows 10系统模拟了一个Spark运行环境，从而使得读者学习Spark机器学习更加方便、简单。

步骤01　Spark单机版安装首先需要下载Spark预编译版本，网站地址为http://spark.apache.org/。单击网页左边的标签进入下载页面，如图2-40所示。

图2-40　Spark下载页面

步骤02　选择Spark的下载版本，因为笔者将在Windows 10上虚拟出一个Spark的运行环境，因此建议读者下载安装Spark 3.0.3的预编译版本。这里选用的是Spark 3.0版本的文件，所以推荐读者也使用Spark 3.0版本，如图2-41所示。

图2-41　选择Spark下载版本

步骤03　下载后的文件是tgz格式的压缩文件。可能有读者使用Linux初步学习过Spark，但是单机版本的Spark与Linux不同，此时下载的tgz文件不要安装，直接使用Winrar软件或者Bandizip软件解压打开即可。

在压缩包文件中，所有的jars包（spark-3.0.2-bin-hadoop2.7.tgz\spark-3.0.2-bin-hadoop2.7\jars）是Spark的核心文件，也是其运行和计算的主体，如图2-42所示。

图2-42　下载的Spark预编译

步骤04　要在Intellij IDEA上运行Spark项目，就必须把里面的jars包都加入Project Structure的Libraries中。

单击Intellij IDEA菜单栏上的File选项，选择Project Structure，在弹出的对话框中单击左侧的Libraries选项，之后单击中部上方的+按钮，选择Java文件，添加刚才下载的jars包文件，如图2-43所示。

图2-43　准备添加jars包文件

步骤05　添加后的lib文件库，如图2-44所示。

图2-44　添加jars包文件后的lib文件库

返回主界面，打开左边工程栏下的工程扩展文件库，也可以看到Spark核心文件已经被安装，如图2-45所示。

图2-45　主界面工程栏下的lib文件库

2.1 Windows 10单机模式下安装和配置Spark

2.1.1 Windows 10安装Java 8

2.1.2 Windows 10安装Scala 2.12.10

2.1.3 Intellij IDEA下载和安装

2.1.4 Intellij IDEA中Scala插件的安装

2.1.5 HelloJava——使用Intellij IDEA创建Java程序

2.1.6 HelloScala——使用Intellij IDEA创建Scala程序

2.1.7 最后一脚——Spark 3.0单机版安装