第10课：底实战详解使用Java开发Spark程序学习笔记

来源：互联网发布：cad自学软件编辑：程序博客网时间：2024/06/06 17:08

本期内容：

1. 为什么要使用Java？

2. 使用Java开发Spark实战

3. 使用Java开发Spark的Local和Cluster

1. 为什么要使用Java？

一. 实际在生产环境下，Spark作为数据处理引擎，需要与企业IT系统中的其他组件或功能配合使用。众所周知，现在业界处于霸主地位的开发语言是Java。很多时候，企业通过Java开发IT系统，后端通过Spark处理，如果使用Java，团队的组建、开发难度的降低，团队的合作，都有很大价值。

二. Scala从学习角度讲比Java难，所以招聘到Scala高手较难，所以项目的二次开发会比较困难。

三. Spark学习者有很多人不会Scala，但有Java基础，为了不会Scala的人能编写和运行课程中的案例，有必要讲Java。

2. 使用Java开发Spark实战

使用Java开发的集成工具是Eclipse。所以首先需要下载Eclipse，注意是32位还是64位。

1. 从www.eclipse.org/downloads 下载Eclipse。

2. 解压zip格式的Eclipse压缩文件。打开解压后的文件夹下的eclipse.exe即可打开eclipse。前提是安装配置好java。

3. 在Project Explorer区点击右键，或File，点击new->project，Wizards选择Maven Project

其他采用默认，点Next。
4. Select an Archety选择maven-archetype-quicstart后点击Next。

Group Id:填写： com.dt.spark，Artifact Id填写：SparkApps后点击finish。

此时出现下图所示错误：

Could not write metadata for '/RemoteSystemsTempFiles'.
D:\programFiles\eclipse\workspace\.metadata\.plugins\org.eclipse.core.resources\.projects\RemoteSystemsTempFiles\.markers.snap (系统找不到指定的路径。)

网上查了一下，需要修改一设置：

Window->preferences，填写'remote'选择remote systems，将'reopen remote systems view to previous state'前面的勾去掉。

选择General->Startup and Shutdown，将RSE UI前的勾去掉。

话说回来，待Eclipse配置Maven完成后，可以看到SparkApps项目中的JRE System Library显示J2SE-1.5，需要修改此JRE版本。

在SparkApps项目点击右键，选择Build Path->Configure Build Path...，在Java Build Path中的Libraries标签中选择JRE System Library[J2SE-1.5]，点击Edit

在“Select JRE for the project build path”中选择"Workspace default JRE(jre1.8.0_45)"后点击finish。

可以看到SparkApps项目中的Java版本变成了1.8。

在顶级包下创建子包。在SparkApps项目中的src/main/java下的com.dt.spark.SparkApps顶级包上点击右键，选择new-> package。

填写Name为com.dt.spark.SparkApps.cores后点击finish。

在com.dt.spark.SparkApps.cores包上点击右键选择new->class，在Name中填写WordCount，选中public static void main(String[] args)后点击Finish。

可以看到自动为WordCount类创建了main方法。

Maven管理项目的核心就是pom.xml，在这个文件中有工程编写运行时的依赖的支持。

编写程序前需要先修改pom.xml。

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<groupId>com.dt.spark</groupId>
<artifactId>SparkApps</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>

<name>SparkApps</name>
<url>http://maven.apache.org</url>

<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>

<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-hive_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-graphx_2.10</artifactId>
<version>1.6.0</version>
</dependency>
</dependencies>

<build>
<sourceDirectory>src/main/java</sourceDirectory>
<testSourceDirectory>src/main/test</testSourceDirectory>

<plugins>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
<archive>
<manifest>
<maniClass></maniClass>
</manifest>
</archive>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
<plugin>
<groupId>org.codehaus.mojo</groupId>
<artifactId>exec-maven-plugin</artifactId>
<version>1.3.1</version>
<executions>
<execution>
<goals>
<goal>exec</goal>
</goals>
</execution>
</executions>
<configuration>
<executable>java</executable>
<includeProjectDependencies>false</includeProjectDependencies>
<classpathScope>compile</classpathScope>
<mainClass>com.dt.spark.SparkApps.WordCount</mainClass>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>1.6</source>
<target>1.6</target>
</configuration>
</plugin>
</plugins>
</build>
</project>

**** Spark SQL不能取代Hive，原因是Hive包含两部分一部分是存储引擎，另一部分是计算引擎，Spark SQL取代的只是Hive的计算引擎，而Hive的存储引擎还是不错的。

未完待续......

以上内容是王家林老师DT大数据梦工厂《 IMF传奇行动》第10课的学习笔记。
王家林：Spark、Flink、Docker、Android技术中国区布道师。Spark亚太研究院院长和首席专家，DT大数据梦工厂创始人，Android软硬整合源码级专家，英语发音魔术师，健身狂热爱好者。

微信公众账号：DT_Spark

联系邮箱18610086859@126.com

电话：18610086859

QQ:1740415547

微信号：18610086859

新浪微博：ilovepains

0 0