spark程序打包集群运行方法及使用中的几个问题解决

来源：互联网发布：编程打印九九乘法表编辑：程序博客网时间：2024/06/05 18:54

最近在开始弄数据处理相关的事，文件很大时候使用pandas主机内存hold不住，实验室其实也在用spark，之前做过一些hadoop的东西，现在想补一下spark的知识，点一个技能点吧，以后需要时候随时可用。
首先idea配置及相关工作网上教程已经很多了，然后我现在主要是记录一下spark程序在idea下如何打包在集群运行，以及途中遇到的问题。做个记录吧，以后自己也能用到。
打包过程如下：
这里写图片描述

输出打包文件：点击菜单Build->Build Artifacts，弹出选择动作，选择Build或者Rebuild动作.

将输入文件发到hdfs上，然后用命令行
spark-submit –master local –class wordcount wordcount.jar /user/hadoop/hcy/wordcount.txt即可.

过程中出现的问题：
①新建工程中scala不显示scala只有sbt，因为idea版本问题
②pom文件中的依赖无法下载，解决方法：自行导入
③下载的依赖无法加载到external libraries，解决方法如下：
这里写图片描述
如果还是不行的话可以：
1）在pom文件里添加依赖。

2）添加依赖后在terminal控制台上输入mvn install点击回车，会自动下载jar包。

3）在libraries里面如果只有jdk里面的jar包。

4）点击刷新。
5）然后就有了。
这里写图片描述

文章部分内容转自：
Trigl的博客—— Learning Spark——使用Intellij Idea开发基于Maven的Spark程序
Idea 创建maven web项目后在pom.xml里面添加依赖，但项目里没有jar包

阅读全文

0 0