重复数据删除

来源：互联网发布：node v4.4.3 x64.msi 编辑：程序博客网时间：2024/05/16 00:48

转载：http://zh.wikipedia.org/zh-cn/%E9%87%8D%E5%A4%8D%E6%95%B0%E6%8D%AE%E5%88%A0%E9%99%A4
重复数据删除（英语：data deduplication）是一种节约数据存储空间的技术。在计算机中存储了很多重复数据，这些数据占用了大量硬盘空间，利用重复数据删除技术，可以只存储一份数据。另外一项节约存储空间的技术是数据压缩，数据压缩技术在比较小的范围内以比较小的粒度查找重复数据，粒度一般为几个比特到几个字节。而重复数据删除是在比较大的范围内查找大块的重复数据，一般重复数据块尺寸在1KB以上。^[1] 重复数据删除技术被广泛应用于网络硬盘、电子邮件、磁盘备份介质设备等。

介绍

好处

节约硬盘空间 由于不必存储重复数据，因此大大节约的磁盘空间。
提升写入性能 数据写入存储设备的主要性能瓶颈在于硬盘，由于硬盘是机械设备，一般单块硬盘只能提供100MB/s左右的连续写性能。在线重复数据删除在数据存入硬盘之前就把重复的数据删除掉了，因此存入硬盘的数据量变小了，数据的写入性能也就提高了。例如：DataDomain重删备份介质设备就采用在线重删技术，因此数据写入性能较好。
节约网络带宽 对于使用了源端重删技术的应用来说，数据上传到存储设备之前，已经去掉了重复的数据块，因此重复的数据块不需要经过网络传输到存储介质，从而节约了网络带宽。例如：Dropbox就采用了源端重删技术，因此占用网络带宽很小，还有开源的数据同步工具rsync也采用了源端重删技术节约网络带宽。

参考文献

^"Understanding Data Deduplication" Druva, 2009. Retrieved 2013-2-13

外部链接

0 0

重复数据删除

目录

介绍

好处

分类

参考文献

外部链接