Spark项目问题记录

来源:互联网 发布:php json_encode 编辑:程序博客网 时间:2024/04/19 21:04

问题一,maven打包

spark项目,idea编译器,导入jar包的方式打包没问题,用maven导包之后编译还按照之前的Project Structure方式打包,执行spark-submit报错:Exception in thread “main” java.lang.SecurityException: Invalid signature file digest for Manifest main attributes

Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes        at sun.security.util.SignatureFileVerifier.processImpl(SignatureFileVerifier.java:286)        at sun.security.util.SignatureFileVerifier.process(SignatureFileVerifier.java:239)        at java.util.jar.JarVerifier.processEntry(JarVerifier.java:317)        at java.util.jar.JarVerifier.update(JarVerifier.java:228)        at java.util.jar.JarFile.initializeVerifier(JarFile.java:348)

可以对打好的jar包执行 zip -d xxx.jar ‘META-INF/.SF’ ‘META-INF/.RSA’ ‘META-INF/*SF’
命令会删除jar包里边的相关文件。
出现这个问题的原因应该是引用的第三方jar包里边有一些证书文件之类的。
当然也可以采用mvn打包的方式,在terminal里边执行mvn clean package
pom相关配置:

<plugin>                <groupId>org.apache.maven.plugins</groupId>                <artifactId>maven-shade-plugin</artifactId>                <version>2.2</version>                <executions>                    <execution>                        <id>make-assembly</id>                        <phase>package</phase>                        <goals>                            <goal>shade</goal>                        </goals>                    </execution>                </executions>                <configuration>                    <filters>                       <filter>                            <artifact>spark-streaming-twitter_2.10:spark-streaming-twitter_2.10</artifact>                            <includes>                                <include>**</include>                            </includes>                        </filter>                        <filter>                            <artifact>*:*</artifact>                            <excludes>                                <exclude>META-INF/*.SF</exclude>                                <exclude>META-INF/*.DSA</exclude>                                <exclude>META-INF/*.RSA</exclude>                                <exclude>META-INF/*.MF</exclude>                                <exclude>junit:junit</exclude>                                <exclude>org.apache.maven:lib:tests</exclude>                            </excludes>                        </filter>                    </filters>                </configuration>            </plugin>

问题二,sbt打包

直接用sbt package只会将程序打包,而依赖的jar包不会包含到同一个jar包中,可以使用sbt-assembly插件,他的作用可以把依赖包都打到一个jar文件中(Fat jar)
可以参考:
http://todu.top/spark/sbt-idea-%E5%85%A5%E9%97%A8%E5%8F%8A%E9%85%8D%E7%BD%AE/
他的排版我觉得不好看,可以查看转载版:
http://blog.csdn.net/x1066988452/article/details/51672660
不过里边有个问题他说的不对:关于assemblyPackageDependency,我不知道他有没有把打好的包运行成功,不过git上明明写着:

To make a JAR file containing only the external dependencies, type >assemblyPackageDependency

也就是只包含依赖包,不会包含你的代码,我试了一下,可以把和jar包同一个路径下边的classes里边的文件夹直接拷到jar包里边,可以运行。我觉得可以用assemblyPackageDependency把依赖包打好了,然后用sbt clean package只打程序包,在spark-submit时引用dependency,这样dependency不需要动,每次打包比较小。
或者这样可以这样打包:

sbt clean assembly

他会把所有依赖和你自己写的代码都放到一个jar包中。

问题三,textFile读文件

textFile(path1/*)的方式会吧path1路径下边的文件都读到rdd中,但是如果path1是个空路径,接着向下执行到action算子时会报错,可以判断一下path1下边大小

val conf = new Configuration()val fileSystem = FileSystem.get(conf)fileSystem.getContentSummary(new Path(path)).getLength

fileSystem.getFileStatus(new Path(path)).getLen
可以得到文件的大小,如果是目录会得到0

0 0