spark程序打包集群运行方法及使用中的几个问题解决

来源:互联网 发布:编程打印九九乘法表 编辑:程序博客网 时间:2024/06/05 18:54

  最近在开始弄数据处理相关的事,文件很大时候使用pandas主机内存hold不住,实验室其实也在用spark,之前做过一些hadoop的东西,现在想补一下spark的知识,点一个技能点吧,以后需要时候随时可用。
  首先idea配置及相关工作网上教程已经很多了,然后我现在主要是记录一下spark程序在idea下如何打包在集群运行,以及途中遇到的问题。做个记录吧,以后自己也能用到。
  打包过程如下:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
  输出打包文件:点击菜单Build->Build Artifacts,弹出选择动作,选择Build或者Rebuild动作.
这里写图片描述
这里写图片描述
  将输入文件发到hdfs上,然后用命令行
spark-submit –master local –class wordcount wordcount.jar /user/hadoop/hcy/wordcount.txt即可.

过程中出现的问题:
①新建工程中scala不显示scala只有sbt,因为idea版本问题
②pom文件中的依赖无法下载,解决方法:自行导入
③下载的依赖无法加载到external libraries,解决方法如下:
这里写图片描述
如果还是不行的话可以:
1)在pom文件里添加依赖。
这里写图片描述
2)添加依赖后在terminal控制台上输入mvn install点击回车,会自动下载jar包。
这里写图片描述
3)在libraries里面如果只有jdk里面的jar包。
这里写图片描述
4)点击刷新。
5)然后就有了。
这里写图片描述

文章部分内容转自:
Trigl的博客—— Learning Spark——使用Intellij Idea开发基于Maven的Spark程序
Idea 创建maven web项目后在pom.xml里面添加依赖,但项目里没有jar包

阅读全文
0 0
原创粉丝点击