集群运行spark时出现的问题

来源:互联网 发布:有线网络信号增强器 编辑:程序博客网 时间:2024/05/16 04:18

在运行spark时遇到一个问题,spark程序在集群上运行了一段时间后,突然挂掉了,查看日志发现了下面的错误信息,如下图所示:


spark程序是提交到yarn上运行的,而在yarn中,container是程序最终运行的容器,从上面的日志上我们可以看到是在container启动时出现了异常,也就是说container容器没有能够正常启动,直接退出了。后来查看提交程序时的命令,如下:


在命令中可以看到设定如果出现内存溢出错误时执行kill命令,再次查看内存发现内存使用已经达到满值,结合来看知道是内存溢出执行了kill命令,最后出现了上述的错误。
解决方法:
此处使用的是CDH集群,所以在yarn的配置中修改内存限制,如图:


0 0