Spark读Lzo压缩格式的文件

来源:互联网 发布:zeppelin软件源地址 编辑:程序博客网 时间:2024/06/04 18:13

第一种方式:

val rdd = sc.newAPIHadoopFile("path/*.lzo",classOf[com.hadoop.mapreduce.LzoTextInputFormat],classOf[org.apache.hadoop.io.LongWritable],classOf[org.apache.hadoop.io.Text]).map(_._2.toString)

第二种方式:

val rdd = sc.newAPIHadoopFile[LongWritable, Text, LzoTextInputFormat]("path/*.lzo").map(_._2.toString)