TensorFlowOnSpark stuck

来源:互联网 发布:淘宝店铺几天自动收货 编辑:程序博客网 时间:2024/06/05 14:18

问题描述:

在使用TensorFlowOnSpark做测试的时候,发现任务,老是卡着并没有实际的运行。

解决方法:

1. 由于我使用的是自编译的TensorFlow,当时编译的时候有一个enable HDFS,默认是false,所以再次编译了一遍,把对应的HDFS enable设置为了true;

2. 没有严格参考官网:

   官网上面在使用spark-submit提交的时候,添加了--conf参数,而我以为这个是没有问题的,所以就没加,所以就一直卡着,添加后就可以了;

3. 是否executor num的个数要设置和集群子节点个数 一致?

  经过试验,发现不是,num executor的个数可以设置少于集群子节点的个数;

4. 在试验的时候,同样的设置,提交使用不同的executor-memory 及spark.yarn.executor.memoryOverhead的组合会出现诸如:

Container killed by YARN for exceeding memory limits. 52.6 GB of 50 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead

的错误,那就需要调整相应的设置,具体可以参考:https://blogs.msdn.microsoft.com/shanyu/2014/07/31/hadoop-yarn-memory-settings-in-hdinsight/ , 讲的还是很详细的;


5. 如果想使用Spark On YARN的方式调用TensorFlowOnSpark ,并且使用Java调用的话,可以参考:https://github.com/fansy1990/tensorflowonspark_usejava

分享,成长,快乐


脚踏实地,专注


转载请注明blog地址:http://blog.csdn.net/fansy1990


原创粉丝点击