spark多路输出
来源:互联网 发布:印度人在中国 知乎 编辑:程序博客网 时间:2024/05/17 23:45
实现的功能:按不同的key写到不同的文件名
其中data为kv型的Rdd
data.partitionBy(new HashPartitioner(4)).saveAsHadoopFile(outputPath, classOf[String], classOf[String], classOf[RDDMultipleTextOutputFormat])
RDDMultipleTextOutputFormat自定义类
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat import org.apache.hadoop.io.{BytesWritable, NullWritable, Text}class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] { //key值不在文件内容生成 override def generateActualKey(key: Any, value: Any): NullWritable= NullWritable.get() //.asInstanceOf[NullWritable] override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String = key.asInstanceOf[String] // "/r_"+ key.asInstanceOf[String]+"/"+ key.asInstanceOf[String]}
0 0
- spark多路输出
- spark 点滴:多路输出,自定义分区
- spark 多目录输出
- spark多文件输出
- Spark多文件输出(MultipleOutputFormat)
- Spark多文件输出(MultipleTextOutputFormat)
- Spark多文件输出(MultipleTextOutputFormat)
- Spark 同步提交应用/多文件输出
- 简略Spark输出
- 编译spark输出的信息
- Spark 用户日志输出解析
- spark streaming 接收 scoket 输出
- Spark 控制输出信息等级
- spark 应用输出debug日志
- Spark配置log4j日志输出
- Hadoop,Spark :文件输出压缩
- Spark基础随笔:Spark应用程序中设置日志输出级别
- spark学习-47-Spark的输出提交控制器OutputCommitCoordinator
- ubuntu server tomcat 开机启动
- 瀑布模型
- 指针是什么 ?
- MVC新手指南
- Kafka文件的存储机制
- spark多路输出
- TimesTen支持缓存视图吗
- 编程的书籍
- 剑指Offer面试题7用两个栈实现队列(附带用两个队列实现栈)
- 关于Pwt和Pwtpolar的编译和使用
- DataBinding 学习系列(6)最后的实战---RecyclerView
- 算法3:给一个字符数组(a-z),如何打印该数组成员构成集合的全部子集合
- Android7.0下调用相机闪退的解决方案
- jvm调优笔记(一)