用fallocate进行"文件预留"或"文件打洞"

来源:互联网 发布:百度云限速脚本 知乎 编辑:程序博客网 时间:2024/06/05 02:52

什么是空洞文件?

“在UNIX文件操作中,文件位移量可以大于文件的当前长度,在这种情况下,对该文件的下一次写将延长该文件,并在文件中构成一个空洞,这一点是允许的。位于文件中但没有写过的字节都被设为 0。”

如果 offset 比文件的当前长度更大,下一个写操作就会把文件“撑大(extend)”。这就是所谓的在文件里创造“空洞(hole)”。没有被实际写入文件的所有字节由重复的 0 表示。空洞是否占用硬盘空间是由文件系统(file system)决定的。大部分文件系统是不占用的。

怎么获得一个空洞文件?

以Linux来说,使用lseek或truncate到一个固定位置生成的“空洞文件”是不会占据真正的磁盘空间的
空洞文件特点就是offset大于实际大小,也就是说一个文件的两头有数据而中间为空,以‘\0‘填充。那文件系统会不会不做任何处理的将其存放在硬盘上呢?大部分文件系统是不会将其存放在硬盘上。

文件预留

为什么需要文件预留

在开发过程中有时候需要为某个文件快速地分配固定大小的磁盘空间,为什么要这样做呢?
(1)可以让文件尽可能的占用连续的磁盘扇区,减少后续写入和读取文件时的磁盘寻道开销;
(2)迅速占用磁盘空间,防止使用过程中所需空间不足。
(3)后面再追加数据的话,不会需要改变文件大小,所以后面将不涉及metadata的修改
前面提到使用lseek或truncate到一个固定位置生成的“空洞文件”是不会占据真正的磁盘空间的。
快速的为某个文件分配实际的磁盘空间在Linux下可通过fallocate(对应的posix接口为posix_fallocate)系统调用来实现,大部分主流文件系统如ext4,xfs还是支持fallocate

文件打洞

最近遇到了这样的一种需求,一个大文件中的某段范围的内容已经失效了,想把这段失效的文件部分所占用的磁盘空间还给文件系统。linux下可以通过fallocate实现归还一个文件所占用的部分磁盘空间

fallocate

   #include <fcntl.h>   int fallocate(int fd, int mode, off_t offset, off_t len);

fd就是open产生的文件描述符,offset就是进行fallocate的文件偏移位置,len为fallocate的的长度。offset和len一起构成了要释放的文件范围。

重点介绍的是mode,它决定了fallocate的行为。

  • Allocating disk space
    这是默认的操作,对应mode等于0。它所作的工作是如果分配从offset开始到offset+len的一段空间,这个是真的分配磁盘空间,不是hole,新分配的空间以0填充数据。当然这个操作一般在offset+len大于现有文件长度时才会起到增加文件数据空间的作用。
    一般情况下新增加空间后文件的size也会随着调整,但是有一个特殊情况,就是当FALLOC_FL_KEEP_SIZE出现在mode中时,在增加文件空间后不会改变文件的size。这样的操作算是一种在文件结尾处的预分配,对于后期的append写入操作有优化作用。
    (但遗憾的是我使用的ubuntu 12.04 ext4文件系统好像并不支持fallocate的预分配)
  • Deallocating file space
    释放文件的某段范围的磁盘空间 (文件打洞)
    FALLOC_FL_PUNCH_HOLE | FALLOC_FL_KEEP_SIZE
    此mode虽然并不会改变文件的大小,但其实却释放了offset和len所在范围的磁盘块,将它们归还给了文件系统。fallocate成功后,后续对offset和len所在的文件范围进行读操作,将会读到0。

实例验证

#include<stdio.h>#include<unistd.h>#include<fcntl.h>#include <sys/types.h>#include <string>#include <string.h>#include <errno.h>using namespace std;int main(){    string a(40960,'a');    mode_t f_attrib = S_IRUSR|S_IWUSR;                                                                                 int fd=open("file.hole",O_RDWR|O_CREAT|O_TRUNC, f_attrib);    if(fd<0)        perror("creat file fail");    if(write(fd,a.data(),40960)==-1)        perror("could not write");    //在4k偏移的位置上打一个12k大小的洞    if(fallocate(fd,FALLOC_FL_PUNCH_HOLE|FALLOC_FL_KEEP_SIZE, 4096, 4096*3)<0)        perror("could not deallocate");    if(lseek(fd,4098,SEEK_SET)==-1)        perror("could not sleek");    char c = 'q';    if(read(fd,&c,1)==-1)        perror("could not read");    read(fd,&c,1);    printf("%c\n",c);//验证打洞范围的文件读的是0    fd=open("lseek.hole",O_RDWR|O_CREAT|O_TRUNC, f_attrib);    if(fd<0)        perror("creat file fail");    if(lseek(fd,4096,SEEK_SET)==-1)//创建4k的空洞        perror("could not sleek");    if(write(fd,a.data(),4096)==-1)//从4k偏移处写4k的内容到文件        perror("could not write");    fd=open("preallocate.hole",O_RDWR|O_CREAT|O_TRUNC, f_attrib);    if(fd<0)perror("creat file fail");    if(fallocate(fd,0, 0, 4096)<0)    {//我的ubuntu ext4总是失败,返回 Operation not supported       printf("errno %s\n",strerror(errno));       perror("could not preallocate");    }}

用ll查看的文件大小

file.hole:40k
lseek.hole:8k

用du查看文件所占的磁盘空间

这里写图片描述
可以看出
file.hole:28k (少的12k其实是fallocate归还给文件系统了)
lseek.hole:4k(少的那4k是文件空洞,文件系统并没有分磁盘块给它)

du和ls查看文件大小的区别

通常情况下,ls 显示的文件大小比du显示的磁盘占用空间小,比如文件系统的block是4K,一个13K的文件占用的空间是 13k/4k = 3.25 个block,一个block只能被一个文件占用,因此实际占用空间就是4个block,就是16K。

如果一个文件有比较大的黑洞,那么会出现文件大小比磁盘空间占用大的情况(上述文件打洞情况就是)

原创粉丝点击