Spark项目问题记录
来源:互联网 发布:php json_encode 编辑:程序博客网 时间:2024/04/19 21:04
问题一,maven打包
spark项目,idea编译器,导入jar包的方式打包没问题,用maven导包之后编译还按照之前的Project Structure方式打包,执行spark-submit报错:Exception in thread “main” java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes at sun.security.util.SignatureFileVerifier.processImpl(SignatureFileVerifier.java:286) at sun.security.util.SignatureFileVerifier.process(SignatureFileVerifier.java:239) at java.util.jar.JarVerifier.processEntry(JarVerifier.java:317) at java.util.jar.JarVerifier.update(JarVerifier.java:228) at java.util.jar.JarFile.initializeVerifier(JarFile.java:348)
可以对打好的jar包执行 zip -d xxx.jar ‘META-INF/.SF’ ‘META-INF/.RSA’ ‘META-INF/*SF’
命令会删除jar包里边的相关文件。
出现这个问题的原因应该是引用的第三方jar包里边有一些证书文件之类的。
当然也可以采用mvn打包的方式,在terminal里边执行mvn clean package
pom相关配置:
<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>2.2</version> <executions> <execution> <id>make-assembly</id> <phase>package</phase> <goals> <goal>shade</goal> </goals> </execution> </executions> <configuration> <filters> <filter> <artifact>spark-streaming-twitter_2.10:spark-streaming-twitter_2.10</artifact> <includes> <include>**</include> </includes> </filter> <filter> <artifact>*:*</artifact> <excludes> <exclude>META-INF/*.SF</exclude> <exclude>META-INF/*.DSA</exclude> <exclude>META-INF/*.RSA</exclude> <exclude>META-INF/*.MF</exclude> <exclude>junit:junit</exclude> <exclude>org.apache.maven:lib:tests</exclude> </excludes> </filter> </filters> </configuration> </plugin>
问题二,sbt打包
直接用sbt package只会将程序打包,而依赖的jar包不会包含到同一个jar包中,可以使用sbt-assembly插件,他的作用可以把依赖包都打到一个jar文件中(Fat jar)
可以参考:
http://todu.top/spark/sbt-idea-%E5%85%A5%E9%97%A8%E5%8F%8A%E9%85%8D%E7%BD%AE/
他的排版我觉得不好看,可以查看转载版:
http://blog.csdn.net/x1066988452/article/details/51672660
不过里边有个问题他说的不对:关于assemblyPackageDependency,我不知道他有没有把打好的包运行成功,不过git上明明写着:
To make a JAR file containing only the external dependencies, type >assemblyPackageDependency
也就是只包含依赖包,不会包含你的代码,我试了一下,可以把和jar包同一个路径下边的classes里边的文件夹直接拷到jar包里边,可以运行。我觉得可以用assemblyPackageDependency把依赖包打好了,然后用sbt clean package只打程序包,在spark-submit时引用dependency,这样dependency不需要动,每次打包比较小。
或者这样可以这样打包:
sbt clean assembly
他会把所有依赖和你自己写的代码都放到一个jar包中。
问题三,textFile读文件
textFile(path1/*)的方式会吧path1路径下边的文件都读到rdd中,但是如果path1是个空路径,接着向下执行到action算子时会报错,可以判断一下path1下边大小
val conf = new Configuration()val fileSystem = FileSystem.get(conf)fileSystem.getContentSummary(new Path(path)).getLength
fileSystem.getFileStatus(new Path(path)).getLen
可以得到文件的大小,如果是目录会得到0
- Spark项目问题记录
- spark问题记录
- spark-hadoop问题记录
- Spark开发问题记录
- spark开发问题记录
- spark运维问题记录
- 项目中的问题记录
- 项目中问题记录
- web项目问题记录
- 项目开发问题记录
- 项目开发问题记录
- Spark编译报错问题日志记录
- [0.1] spark相关问题及解决办法记录
- spark-submit 运行参数问题记录
- Spark记录
- spark记录
- eclipse项目中的问题记录
- tbg项目问题记录一
- ubuntu下用git进行代码管理
- AndroidStudio默认继承V7包下的AppCompatActivity
- 从一个MFC工程移植对话框类到另一个MFC工程
- php递归程序实例,任务、子任务循环列表显示源码
- AutoLayout使用
- Spark项目问题记录
- 什么是RESTful Web Service?
- spring boot 的常用注解使用 总结
- JVM-性能调优(1)
- CMUSphinx适应声学模型
- bzoj1593[Usaco2008 Feb]Hotel旅馆
- 第一个 C 语言编译器是怎样编写的?
- PL/SQL可以连oracle,但是jdbc连不上
- JavaScript特效—表格隔行变色和Tab标签页