spark stream中的dstream对象saveAsTextFiles问题

来源：互联网发布：国产好电影知乎编辑：程序博客网时间：2024/06/02 05:55

利用spark streaming从kafka读取数据，进行流数据的统计分析，最后产生dstream类型的结果集，但是涉及到数据的保存时，遇到了一点小障碍。

我们都知道，spark中普通rdd可以直接只用saveAsTextFile(path)的方式，保存到本地，hdfs中，但是dstream对象没有saveAsTextFile()方法，只有saveAsTextFiles()方法，而且，其参数只有

prefix: String, suffix: String = ""

官方api对该方法的介绍如下：

Save each RDD in this DStream as at text file,using string representation of elements. The file name at each batch intervalis generated based onprefix and suffix:"prefix-TIME_IN_MS.suffix".

大致意思是将prefix与suffix后缀，中间加上time来拼接，找不到输入path的地方，此处纠结了好久。

后来通过查看源码可以发现这里边有个地方一直被忽视了。

源码如下：

defsaveAsTextFiles(prefix: String, suffix:String = ""): Unit = ssc.withScope {
val saveFunc = (rdd: RDD[T], time: Time) => {
val file = rddToFileName(prefix, suffix,time)
rdd.saveAsTextFile(file)
}
this.foreachRDD(saveFunc)
}

其实在saveAsTextFiles方法中又调用了saveAsTextFile方法，所以path路径应该是在此处指定的，即：我们需要将path包含在prefix中。

至此，我想前边的疑惑也就全部都解开了。

saveAsTextFiles()方法的用法其实跟saveAsTextFile()一模一样，只不过比它多了一个拼接时时间的过程。

所以，我们保存dstream对象，完全可以这样写：

Val result_predict=model.predictOnValues(test_data).map(ss=>(ss._1+","+ss._2)).map(lines=>lines.split(","))

.map(arr=>(arr(0),arr(1),arr(2),"crm_ia_loginqry"))

result_predict.print()

result_predict.saveAsTextFiles("hdfs://ip:port/home/songsf/data/result1")

0 0