spark读写压缩文件API使用详解
来源:互联网 发布:股票乖离率软件 编辑:程序博客网 时间:2024/06/08 11:16
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
/*******************old hadoop api*************************/
val
confHadoop
=
new
JobConf
confHadoop.set(
"mapred.output.compress"
,
"true"
)
confHadoop.set(
"mapred.output.compression.codec"
,
"com.hadoop.compression.lzo.LzopCodec"
)
val
textFile
=
sc.hadoopFile(args(
0
), classOf[DeprecatedLzoTextInputFormat],classOf[LongWritable], classOf[Text],
1
)
textFile.saveAsHadoopFile(args(
1
),classOf[LongWritable], classOf[Text], classOf[TextOutputFormat[LongWritable,Text]],confHadoop)
/*******************new hadoop api*************************/
val
job
=
new
Job()
job.setOutputFormatClass(classOf[TextOutputFormat[LongWritable,Text]])
job.getConfiguration().set(
"mapred.output.compress"
,
"true"
)
job.getConfiguration().set(
"mapred.output.compression.codec"
,
"com.hadoop.compression.lzo.LzopCodec"
)
val
textFile
=
sc.newAPIHadoopFile(args(
0
), classOf[LzoTextInputFormat],classOf[LongWritable], classOf[Text],job.getConfiguration())
textFile.saveAsNewAPIHadoopFile(args(
1
), classOf[LongWritable], classOf[Text],classOf[TextOutputFormat[LongWritable,Text]],job.getConfiguration())
/*******************textFile*************************/
val
textFile
=
sc.textFile(args(
0
),
1
)
textFile.saveAsTextFile(args(
1
), classOf[LzopCodec])
1
2
spark.executor.extraLibraryPath=
/usr/lib/native/
spark.executor.extraClassPath=
/usr/lib/hadoop/lib/hadoop-lzo
.jar
1
2
--driver-class-path
/usr/lib/hadoop/lib/hadoop-lzo
.jar
--driver-library-path
/usr/lib/native
1
2
3
hql(
"set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec"
)
hql(
"set io.compression.codec.lzo.class=com.hadoop.compression.lzo.LzoCodec"
)
hql(
"set mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec"
)
阅读全文
0 0
- spark读写压缩文件API使用详解
- spark RDD API详解
- Spark RDD API详解
- Spark RDD API 详解
- Spark RDD API详解
- 使用Spark读写CSV格式文件
- 使用Spark读写CSV格式文件
- 尝试使用c++ gzlib和java GZIPOutputStream 读写gz压缩文件
- C#读写压缩文件
- VB 使用API读写INI
- 如何使用scala+spark读写hbase?
- Spark RDD API详解Map和Reduce
- Spark RDD API详解 Map和Reduce
- Spark RDD API详解 Map和Reduce
- Spark 线性代数库 Breeze API 详解
- Spark RDD API详解 Map和Reduce
- <转> Spark 线性代数库 Breeze API 详解
- Spark RDD API详解 Map和Reduce
- JDBC工具类
- VC6.0入门操作
- vue+spring boot(一)单个数据【json格式】
- 单例模式
- Ubuntu 16设置定时任务
- spark读写压缩文件API使用详解
- vue常见问题(一)无法识别$http
- 解决问题:delphi窗口中onkeydown设置了快捷键却没反应
- HashMap理解1
- Java核心技术:第四章 对象与类
- vijos1212 Way Selection(二分图最大匹配)
- Webpack(一)前端项目打包配置
- 使用SQL SERVER备份命令备份数据库
- ArcGIS Runtime WPF SDK (4)绘制,编辑Graphic