程序博客网 > 50cms内容发布系统

sparksql减少输出数据中的小文件数量

来源：互联网发布：50cms内容发布系统编辑：程序博客网时间：2024/05/21 08:38

由于项目中开发用到sparksql ，将一个大表的数据查询后插入到另一种表中，此时数据令也不是太大，

但是产生了200多个小文件，占用namenode资源，为了改善该情况使用，

将hive中的表加载为一个df，然后重新分区+缓存+注册为临时表，在进行查询，插入操作，此时文件为20个

关键代码如下：

...........

val aDF =hiveContext.table("info_user").repartition(2).persist()

aDF.registerTempTable("info_user")

................

阅读全文

0 0

50cms内容发布系统

50cms内容发布系统

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子毛冬青功效与作用毛冬青毛冬青功效毛冬青泡水喝功效毛冬青图片毛冬青片毛冬青价格毛冬青茶价格广西毛冬青毛冬青茶叶图片毛冬青的价格毛冬青痔疮毛冬青茶叶的价格毛冬青种子毛冬青片价格批发毛冬青毛冬青是茶叶吗毛冬青叶子毛冬青多少钱一斤毛冬青广告词毛冬青味道毛冬青的功效毛冬青的作用中药毛冬青图片毛冬青有什么作用毛冬青茶毛冬青茶叶批发毛冬青叶毛冬青批发价格毛冬青哪里有卖毛冬青凉茶毛冬青注射液毛冬青根毛冬青是苦丁茶吗毛冬青多少钱一盒毛冬青厂家毛冬青作用毛冬青苦丁茶毛冬青的图片毛冬青针剂毛冬青的别名