集群上打印rdd的元素的坑

来源:互联网 发布:php门户网站源码 编辑:程序博客网 时间:2024/06/05 21:03

在集群上运行spark程序时,rdd的操作都在worker机上,因此输出rdd的元素将在worker机的标准输出上进行,驱动节点上不会运行,故直接才程序中写如下代码

        rdd.foreach(println(_))

并不能产生期望的结果。此时应该先收集数据,再进行打印,即可得到预期结果

       rdd.collect().foreach(println(_))


        

0 0