Hive使用一段时间后Hadoop集群占用空间暴增的原因

来源：互联网发布：按键精灵qq群发源码编辑：程序博客网时间：2024/05/20 01:35

转载：http://sishuok.com/forum/blogPost/list/5410.html

我使用的是hive。

所有的数据也是在hive中 load data inpath 导入的

导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse

以一个表一个文件夹的形式

两天来一直面对着一个困惑

从hive中load进去的数据只有600G但是页面显示的DFS Used却为4.2T

这个数据时很不正常的

因为简单地算一下 600G dfs.replication = 3 那么也在1.4T左右的空间。

通过查看 browse the file system 看到三个文件夹

/data 对应于 dfs.data.dir

/system

/user 对应于 hive.metastore.warehouse.dir

问题已经解决，空间容量已经下降到正常值了,可以正常使用运算了。

原因是：

运算过程产生的中间的数据并没有删除掉。因为有些操作产生的结果并没有放到warehouse中，那么这部分数据就放到了/data目录下，系统没能够自动删除这部分数据，所以导致空间上涨很快。

例如;

create table test( ip string );

insert overwrite table test select ip from blog;

这样结果是保存到hive中的；

但如果直接

select ip from blog;

那么结果是临时放在/data目录下的，但是最终却没有释放。

这个dfs.data.dir 默认目录本为/tmp由liunx系统定期自动删除，路径被覆盖为/data/hadoop-0.19.1/dfsdata后系统就找不到了，所以无法自动删除。

不可以直接删除这个目录，否则会导致全部数据块丢失。

必须进入hdfs删除

方法如下

hadoop fs -rmr hdfs:////data/

hive中的操作并不是实时执行的，会有一定的延迟，所以有时执行操作，并不会立即看的到。

0 0