购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 Windows 10单机模式下安装和配置Spark

Windows 10系统是目前最常见的操作系统,本节将讲解如何在Windows 10系统中下载、使用Spark单机模式。

2.1.1 Windows 10安装Java 8

ML是Spark大数据处理框架中的一个重要组件,广泛应用于各类数据的分析和处理。Scala是一种基于JVM的函数式编程语言,而Spark是借助于JVM运行的一个数据处理框架,因此首选安装Java。

步骤01 从Java地址下载安装Java安装程序,地址为http://www.oracle.com/technetwork/java/javase/downloads/index.html。单击Java DownLoad,进入下载页面。这里推荐读者全新安装时使用Java 8,如图2-1所示。

图2-1 Java安装选项

步骤02 单击JDK Download按钮,之后按需求选择Java的版本号。为了统一安装,这里全部选择64位Java安装文件进行下载,如图2-2所示。

图2-2 下载Java

提示: 为了安装后续的其他语言,统一采用64位的安装模式。

步骤03 双击下载后的文件,在默认路径安装Java,如图2-3所示,然后静待安装结束即可。笔者采用的是1.8.151版本,学习时只要比此版本高即可。

图2-3 Java安装过程

步骤04 安装结束后需要对环境变量进行配置,首先右击“我的电脑”|“属性”选项,在弹出的对话框中下方单击“高级系统设置”选项,然后选中“高级”标签,单击“环境变量”按钮,在当前用户名下新建JAVA_HOME安装路径,即前面JDK安装所在的路径,如图2-4所示。

图2-4 设置环境变量:JAVA_HOME

步骤05 PATH用于设置编译器和解释器路径,在设置好JAVA_HOME后,需要设置PATH以便Java工具能在任何目录下使用,如图2-5所示。

图2-5 设置环境变量:PATH

步骤06 对CLASSPATH进行配置。注意,在“变量值”(路径)文本框中一定要在开头加上“.;”(不包括引号),如图2-6所示。

图2-6 设置CLASSPATH路径

步骤07 单击Windows 10开始菜单,在“附件”里面找到“运行”,输入“cmd”命令,如图2-7所示。

图2-7 输入“cmd”运行命令

步骤08 输入命令后打开控制台界面,在打开的界面中输入“java”,如图2-8所示。

图2-8 输入“java”运行命令

步骤09 运行后出现如图2-9所示的界面,说明Java已经配置好,可以运行Java程序了。

图2-9 配置结果

2.1.2 Windows 10安装Scala 2.12.10

步骤01 Scala的安装比较容易,直接下载相应的编译软件,下载之后双击程序直接安装。Scala会在安装过程中自行设置。我们需要下载的版本是Scala 2.12.10,下载地址为http://www.scala-lang.org。

步骤02 打开Scala网站首页,如图2-10所示。

图2-10 Scala网站首页

步骤03 单击DOWNLOAD按钮,进入下载界面,单击如图2-11所示的圈住的链接。

图2-11 Scala下载页面

步骤04 日期不同,在首页默认下载的Scala版本也不尽相同,这里选用的是2.12.10版本。单击图2-11中所示的ALL downloads按钮进入版本选择页面,如图2-12所示。

图2-12 Scala版本选择

提示: 为了更好地与Spark 3.0兼容,推荐使用2.12.10稳定版。

步骤05 单击图2-12中所示画横线的按钮进入Scala 2.12.10版本的下载页面,选择Windows版本,如图2-13所示。等待程序下载完成后,双击进行程序安装。

图2-13 Scala 2.12.10下载页面

步骤06 与Java安装时类似,安装结束后对环境变量进行配置,首先右击“我的电脑”|“属性”菜单,在弹出的对话框中单击“高级系统设置”选项,然后选中“高级”标签,单击“环境变量”按钮。在当前用户名下新建SCALA_HOME安装路径,即前面Scala安装所在的路径,如图2-14所示。

图2-14 SCALA_HOME环境变量设置

步骤07 设置PATH变量:找到系统变量下的PATH项,单击“编辑”按钮。在“变量值”文本框的最前面添加“%SCALA_HOME%\bin;”,如图2-15所示。

图2-15 PATH环境变量设置

步骤08 跟前面运行Java命令一样,还是通过在“运行”对话框输入“cmd”命令打开命令控制台。输入“scala”,显示如图2-16所示,即可认为Scala安装完毕。

图2-16 输入Scala运行结果

2.1.3 Intellij IDEA下载和安装

Intellij IDEA是常用的Java编译器,也可以用来作为Spark单机版的调试器。Intellij IDEA有社区免费版和付费版,这里使用免费版即可。

Intellij IDEA的下载地址为http://www.jetbrains.com/idea/download/,选择右侧的社区免费版下载即可,如图2-17所示。

双击下载的Intellij IDEA安装包就会自动进行安装。这里基本没有什么需要特别注意的事项,如果在安装过程中碰到问题,可以自行搜索解决。

图2-17 选择社区免费版

2.1.4 Intellij IDEA中Scala插件的安装

Scala是一种把面向对象和函数式编程理念加入静态类型语言中的语言,可以把Scala应用在很大范围的编程任务上,无论是小脚本还是大系统都可以用Scala实现。Scala运行在标准的Java平台上(JVM),可以与所有的Java库实现无缝交互。

Spark的ML库是基于Java平台的大数据处理框架,因此可以自由选择最方便的语言进行编译处理。Scala天生具有简洁性和性能上的优势,并且可以在JVM上直接使用,使其成为Spark官方推荐的首选程序语言。因此,笔者推荐使用Scala语言作为Spark机器学习的首选语言。

Intellij IDEA本身并没有安装Scala编译插件,因此在使用Intellij IDEA编译Scala语言编写的Spark机器学习代码之前需要安装Scala编译插件,其安装步骤如下:

步骤01 在桌面上找到已安装的Intellij IDEA图标,双击打开后等待读取界面(见图2-18)结束。由于Intellij IDEA是首次使用,因此之后会进入创建工程选项界面,如图2-19所示。

图2-18 Intellij IDEA最新版读取界面

图2-19 Intellij IDEA使用界面

步骤02 因为需要使用Scala语言编译程序,所以这里建议读者先选择新建工程,验证是否可以使用Scala创建工程,如图2-20所示。

图2-20 创新新工程页面

步骤03 从图2-20可以看到,其中并没有可以建立Scala工程的选项。也就是说,如果需要使用Scala,Intellij IDEA需要进一步配置相应的开发组件。这里单击File Setting…菜单项打开Setting窗口,在左边单击Plugins选择插件,会出现如图2-21所示的界面(显示当前可以安装的插件)。

图2-21 查找插件

步骤04 显示的插件过多时,可以在Search文本框中输入“scala”搜索相应的Scala插件,如图2-22所示。

图2-22 查找Scala插件

步骤05 找到Scala插件后,单击右侧的install plugin绿色按钮,等待一段时间,即可完成安装。如图2-23所示是安装好了的界面,Installed按钮是灰色的。

图2-23 完成安装Scala插件

步骤06 安装完毕后,在New Project选项下有一项新的项目“Scala”,如图2-24所示。单击项目,可以创建相关程序。至此,Intellij IDEA的Scala插件安装完毕。

图2-24 安装Scala插件后的页面

2.1.5 HelloJava——使用Intellij IDEA创建Java程序

上面已经成功安装了Java、Scala以及通用编译器Intellij IDEA,下面带领读者正式使用Intellij IDEA创建Java与Scala的HelloWorld小程序。

步骤01 单击桌面上的Intellij IDEA标记,打开Intellij IDEA软件。这里建议读者先新建工程,单击新建工程对应项后,操作界面如图2-25所示。

图2-25 创建新工程页面

步骤02 这里首先创建的是Java程序,因此在图2-25所示的对话框左侧列表中选择Java选项、右侧列表中勾选Kotlin/JVM复选框。

提示: 最上方的SDK选项为空,因此需要在下一步之前设定。SDK是Java语言的编译开发工具包,需要设定安装的JDK地址。这里填写2.1.1节中安装Java时使用的地址。

步骤03 单击Project SDK下拉列表,在弹出的菜单项中选择JDK…,按操作提示选择Java JDK安装目录,结果如图2-26所示。

图2-26 选择SDK安装目录

IDE已经自动认出Java的版本号(见图2-27),此时可以使用Intellij IDEA创建一个Java程序。

图2-27 SDK选择界面

步骤04 单击Next按钮后,给创建的文件起一个名字(见图2-28),然后单击Finish按钮,即可创建程序文件。

图2-28 文件名创建界面

步骤05 在IDEA界面左侧,右击项目名下的src目录(已加入源码),弹出快捷菜单,单击New|Java Class菜单项,如图2-29所示。

图2-29 创建一个Java新程序

在打开的对话框中填写名称HelloJava,如图2-30所示,单击OK按钮后创建一个新的Java程序。

图2-30 创建一个Java新程序

步骤06 在IDEA弹出的界面右侧补充代码,如程序2-1所示。

代码位置://SRC//C02// HelloJava.java

程序2-1 HelloJava

public class HelloJava {
  public static void main(String[] args){
    System.out.print("helloJava");
  }
}

右击文件,在弹出的菜单中选择“Run 'HelloJava.main()'”运行此程序,结果如图2-31所示。

图2-31 运行效果

这里使用Java语言创建了一个新的Java Class文件,用于对程序进行编写与编译。虽然在后续的学习中,Java语言并不是作为本书Spark的主要程序设计语言,但是对于Spark来说,Java语言仍旧是一个非常重要的语言基础,有无可替代的作用。

2.1.6 HelloScala——使用Intellij IDEA创建Scala程序

本节将继续使用Intellij IDEA编译器编译Scala程序,这是本书的一个重要的基础内容。

步骤01 单击IDE主界面上的File标签,新建一个工程,如图2-32所示。

图2-32 新建一个工程

步骤02 进入工作界面,这里有两种可以新建Scala程序的方式,推荐使用第二种方式,即使用图2-33所示的左边框中的Scala选项和右边的IDEA程序。

图2-33 创建Scala新工程页面

步骤03 单击Finish按钮后,进入存放位置设置和Scala编译器设置的页面(见图2-34),这里选择输入2.1.2节中安装的Scala目录地址。

图2-34 创建Scala新工程页面

这里已经在2.1.2节中安装过Scala,因此直接选择查找已安装的SDK即可。有需要的话也可以直接单击Download…按钮,下载不同版本的Scala语言。

新建项目,如图2-35所示。

图2-35 新建项目

这里使用了两个编译器,分别是Java和Scala的SDK。对于Scala来说,其实质也是运行在Java虚拟机上的一种编译语言,需要获得JDK的支持。

提示: Scala文件夹的位置最好不要与2.1.5节中Java文件存放的位置相同,以免在编译时产生错误。单击Finish按钮后,静待IDEA完成后续的创建工作。

步骤04 右击左侧列表中的src列表项新建文件,如图2-36所示。需要注意的是,这里要新建一个Scala Class文件。

图2-36 新建Scala Class文件

在弹出的对话框中输入Scala文件名,单击OK按钮即可创建一个空的Scala程序。需要注意的是,类型必须为Object而非Class,如图2-37所示。这一点和Java程序不同。

图2-37 创建新的Scala程序

代码位置://SRC//C02//helloScala.scala

程序2-2 helloScala

Object helloScala {
  def main(args: Array[String]): Unit = {
    print("helloScala")
  }
}

步骤05 与Java编译时类似,右击文件名helloScala,在弹出的快捷菜单中选择“Run'helloScala'”命令,如图2-38所示。

图2-38 运行Scala代码

最终运行结果如图2-39所示。

图2-39 运行效果

2.1.7 最后一脚——Spark 3.0单机版安装

本小节通过Windows 10系统模拟了一个Spark运行环境,从而使得读者学习Spark机器学习更加方便、简单。

步骤01 Spark单机版安装首先需要下载Spark预编译版本,网站地址为http://spark.apache.org/。单击网页左边的 标签进入下载页面,如图2-40所示。

图2-40 Spark下载页面

步骤02 选择Spark的下载版本,因为笔者将在Windows 10上虚拟出一个Spark的运行环境,因此建议读者下载安装Spark 3.0.3的预编译版本。这里选用的是Spark 3.0版本的文件,所以推荐读者也使用Spark 3.0版本,如图2-41所示。

图2-41 选择Spark下载版本

步骤03 下载后的文件是tgz格式的压缩文件。可能有读者使用Linux初步学习过Spark,但是单机版本的Spark与Linux不同,此时下载的tgz文件不要安装,直接使用Winrar软件或者Bandizip软件解压打开即可。

在压缩包文件中,所有的jars包(spark-3.0.2-bin-hadoop2.7.tgz\spark-3.0.2-bin-hadoop2.7\jars)是Spark的核心文件,也是其运行和计算的主体,如图2-42所示。

图2-42 下载的Spark预编译

步骤04 要在Intellij IDEA上运行Spark项目,就必须把里面的jars包都加入Project Structure的Libraries中。

单击Intellij IDEA菜单栏上的File选项,选择Project Structure,在弹出的对话框中单击左侧的Libraries选项,之后单击中部上方的+按钮,选择Java文件,添加刚才下载的jars包文件,如图2-43所示。

图2-43 准备添加jars包文件

步骤05 添加后的lib文件库,如图2-44所示。

图2-44 添加jars包文件后的lib文件库

返回主界面,打开左边工程栏下的工程扩展文件库,也可以看到Spark核心文件已经被安装,如图2-45所示。

图2-45 主界面工程栏下的lib文件库 IpeEP2RQu9Tj+l5mITpldirO1E/UgH3sdmHubL0tbYfEahMQfFrPMoT+uT0W1gFs

点击中间区域
呼出菜单
上一章
目录
下一章
×