Win下使用Eclipse开发scala程序配置(基于Hadoop2.7.3集群)
来源:互联网 发布:郑秀晶崔雪莉关系知乎 编辑:程序博客网 时间:2024/05/29 19:51
写在前面
本篇博客讲的是已经在Ubuntu配置好环境,并且scala功能可以正常使用的情况下,在windows下使用eclipse开发scala程序的配置。
Ubuntu下各软件的版本:
Hadoop集群: hadoop-2.7.3
Hive版本: hive-2.1.1
Spark版本: spark-2.1.0-hadoop2.7
Scala版本: scala-2.12.2
关于集群的配置以及这几个软件的安装详见前几篇博客。
一、Scala安装及环境变量配置
Windows下Spark不需要安装,只需要在第三步的时候导入jar包即可。把scala解压到相关目录下,在环境变量中添加scala的bin目录(classpath和path都要添加),在命令提示窗口输出scala验证,输出如下信息说明配置成功:
注意:scala依赖java环境,在安装之前使用java、jar、javac、java -version检查java环境是否成功安装配置
二、Eclipse中scala插件安装
打开Eclipse,New –> Install New Software –> 输入相应的镜像地址下载。
scala-2.12.2的镜像地址: http://download.scala-ide.org/sdk/lithium/e46/scala212/stable/site
找到方式:
这个过程要等一会,等自动安装好,会提示重启软件,重启即可。
三、新建scala项目及jar包导入
Step1: 打开Eclipse: File –> New –> Other –> Scala Project 创建scala项目
Step2: 导入jar包:
主要是导入spark相关的jar包,将spark-2.1.0-bin-hadoop2.7.tgz解压,将spark-2.1.0-bin-hadoop2.7\jars\文件夹下包全部导入,添加到build path中(右击Project –> Build Path –> Configure Build Path添加)。
注意:jar包添加进去之后,会发现在后续过程中,代码没有错误,但是project左侧下面有红色的查查,这时候需要点击“Scala Library container —> Properties”将scala版本改成2.11.8即可,如下图:
Step3: 新建Scala Class
四、程序代码
代码如下:
(本部分包含2个代码,第一个是简单的”Hello World”的代码,用于简单测试下scala配置,和hadoop无关。第二个代码来自于:http://blog.csdn.net/u012592062/article/details/52471297)
代码1:“Hello World”
object SimpleApp { def main(args: Array[String]) : Unit={ println("Hello Scala!!!") } }
代码2:“WordCount”
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject HDFSExample { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "E:\\Hadoop\\hadoop-2.7.3"); val path = "hdfs://192.168.163.131:9000/input/scalaTest.txt" //将此HDFS上文件的路径换成自己的相应的路径 val conf = new SparkConf().setAppName("HDFS Example") val sc = new SparkContext(conf) val data = sc.textFile(path, 2).cache() val numAs = data.filter(line => line.contains("a")).count(); //统计包含字符'a'的单词 val numBs = data.filter(line => line.contains("b")).count(); //统计包含字符'b'的单词 println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) }}
其中,上述代码中用到的scalaTest.txt内容如下:
aboutsortdownbelieveadoptset betweemabcd
五、运行结果
代码1的运行结果:
代码2的运行结果:
在运行之前,需要右击代码编辑框 –> Run as –> Run Configurations –> Arguments配置如下内容:
运行结果如下:
推荐:
http://blog.csdn.net/xummgg/article/details/50651867
这篇博客上有一个关于wordcount的例子,注释比较清楚,亲测有效(但是文章中web端口我的是8080。输出会显示在DOS窗口中,因为代码中没有将其存储在文件中),感谢博主辛勤付出。注意:在Hadoop集群上运行jar包的时候,只启动hadoop的所有进程是不够的,需要进入$SPARK_HOME/sbin
下使用start-all.sh
开启进程。
- Win下使用Eclipse开发scala程序配置(基于Hadoop2.7.3集群)
- Scala-2.12.2和Spark-2.1.0安装配置(基于Hadoop2.7.3集群)
- Eclipse中使用Hadoop集群模式开发配置及简单程序示例(Windows下)
- CentOS7下基于Hadoop2.7.3集群搭建
- Win7+Eclipse+Hadoop2.4.1+Lunx RedHat集群开发环境配置
- win下scala环境配置
- Eclipse下搭建Hadoop2.7.3开发环境
- Eclipse连接Hadoop2.7.3集群配置及测试
- Eclipse连接Hadoop2.7.3 HA 集群配置及测试
- Zookeeper3.4.9、Hbase1.3.1、Pig0.16.0安装及配置(基于Hadoop2.7.3集群)
- mysql5.7.18安装、Hive2.1.1安装和配置(基于Hadoop2.7.3集群)
- Hadoop2.5.2集群配置(基于VMware虚拟机)
- win7基于maven和eclipse连接远程Linux服务器的hadoop2.0集群的入门程序
- window上eclipse调试基于hadoop2.7.3的MapReduce程序
- Eclipse在基于Ubuntu14.04的hadoop2.7.1分布式集群下的搭建
- hadoop2.7.3集群安装配置
- 使用Eclipse开发Scala
- win下Eclipse远程连接Hbase的配置及程序示例(create、insert、get、delete)
- 文件压缩
- POJ分类很好很有层次感
- QT入门_地图
- c++ 拷贝构造函数中形参对象可以直接访问private变量
- Central Europe Regional Contest 2014 B [Gym
- Win下使用Eclipse开发scala程序配置(基于Hadoop2.7.3集群)
- python中的sum函数.sum(axis=1)
- scrapy自定义RetryMiddleware
- 第七章 使用prototype Cell定制Table View(二)
- Log4j输出格式控制--log4j的PatternLayout参数含义
- poj1523—SPF(tarjan算法求无向图中所有的割点)
- 华为机试——字符串分隔
- 单例模式
- CSS3 transform