sparksql减少输出数据中的小文件数量
来源:互联网 发布:50cms内容发布系统 编辑:程序博客网 时间:2024/05/21 08:38
由于项目中开发用到sparksql ,将一个大表的数据查询后插入到另一种表中,此时数据令也不是太大,
但是产生了200多个小文件,占用namenode资源,为了改善该情况使用,
将hive中的表加载为一个df,然后重新分区+缓存+注册为临时表,在进行查询,插入操作,此时文件为20个
关键代码如下:
...........
val aDF =hiveContext.table("info_user").repartition(2).persist()
aDF.registerTempTable("info_user")
................
阅读全文
0 0
- sparksql减少输出数据中的小文件数量
- SparkSQL读取Hive中的数据
- 减少购物车中的商品数量
- 面包屑 CSS(合并小图标,减少链接请求数量)
- 使用sparksql读取mysql中的数据
- 商品详情页中的数量的增加与减少
- 减少冲突数量
- 反射减少servlet数量
- hive 处理小文件,减少map数
- 小帆在网页输出指定表中的所有数据
- SparkSQL的小案例
- 减少modelsim仿真warning数量
- 减少modelsim仿真warning数量
- 如何减少TIME_WAIT的数量
- 使用viewFliper减少activity数量
- 减少DOM元素的数量
- SparkSQL之读取数据
- SparkSQL之保存数据
- Android APP终极瘦身指南
- VBO usage标示符
- springmvc运行原理
- Android开发 Error(建议收藏下来以备不时之需):The number of method references in a .dex file cannot exceed 64K.
- Ubuntu16.04LTS 安装CUDA9.0
- sparksql减少输出数据中的小文件数量
- Mac High Sierra 中不能改变/usr/local的拥有者
- ubuntu允许root登录ftp服务器
- 怎样给自己的网站加一个网址,然后让别人访问呢?
- java线程池
- react状态提升 父子组件交互
- 我的Android征途
- 利用WGET下载文件,并保存到指定目录
- eclipse的uml工具之Papyrus 安装地址