重复数据删除
来源:互联网 发布:node v4.4.3 x64.msi 编辑:程序博客网 时间:2024/05/16 00:48
转载:http://zh.wikipedia.org/zh-cn/%E9%87%8D%E5%A4%8D%E6%95%B0%E6%8D%AE%E5%88%A0%E9%99%A4
重复数据删除(英语:data deduplication)是一种节约数据存储空间的技术。在计算机中存储了很多重复数据,这些数据占用了大量硬盘空间,利用重复数据删除技术,可以只存储一份数据。另外一项节约存储空间的技术是数据压缩,数据压缩技术在比较小的范围内以比较小的粒度查找重复数据,粒度一般为几个比特到几个字节。而重复数据删除是在比较大的范围内查找大块的重复数据,一般重复数据块尺寸在1KB以上。[1] 重复数据删除技术被广泛应用于网络硬盘、电子邮件、磁盘备份介质设备等。
重复数据删除(英语:data deduplication)是一种节约数据存储空间的技术。在计算机中存储了很多重复数据,这些数据占用了大量硬盘空间,利用重复数据删除技术,可以只存储一份数据。另外一项节约存储空间的技术是数据压缩,数据压缩技术在比较小的范围内以比较小的粒度查找重复数据,粒度一般为几个比特到几个字节。而重复数据删除是在比较大的范围内查找大块的重复数据,一般重复数据块尺寸在1KB以上。[1] 重复数据删除技术被广泛应用于网络硬盘、电子邮件、磁盘备份介质设备等。
目录
- 1介绍
- 2好处
- 3分类
- 4参考文献
- 5外部链接
介绍
好处
- 节约硬盘空间 由于不必存储重复数据,因此大大节约的磁盘空间。
- 提升写入性能 数据写入存储设备的主要性能瓶颈在于硬盘,由于硬盘是机械设备,一般单块硬盘只能提供100MB/s左右的连续写性能。在线重复数据删除在数据存入硬盘之前就把重复的数据删除掉了,因此存入硬盘的数据量变小了,数据的写入性能也就提高了。例如:DataDomain重删备份介质设备就采用在线重删技术,因此数据写入性能较好。
- 节约网络带宽 对于使用了源端重删技术的应用来说,数据上传到存储设备之前,已经去掉了重复的数据块,因此重复的数据块不需要经过网络传输到存储介质,从而节约了网络带宽。例如:Dropbox就采用了源端重删技术,因此占用网络带宽很小,还有开源的数据同步工具rsync也采用了源端重删技术节约网络带宽。
分类
按数据处理时间重复数据删除可以被分为:
- 在线重删(Inline Deduplication)
- 指的是在数据存储到存储设备上的同时进行重复数据删除流程,在数据存储到硬盘之前,重复数据已经被去除掉了。
- 后重删(Post Deduplication)
- 指的是在写到存储设备的同时不进行重删处理,先把原始数据写到硬盘上,随后启动后台进程对这些原始数据进行重删处理。与在线重删相比较,后重删需要更高的硬盘性能,需要更多的硬盘数量。
按照数据处理粒度可以被分为:
- 文件级重删
- 块级别重删
按照数据块分块方法,可以分为:
- 变长分块重删
- 定长分块重删
按照数据处理位置,可以分为:
- 远端重删
- 目的端重删
参考文献
- ^"Understanding Data Deduplication" Druva, 2009. Retrieved 2013-2-13
外部链接
0 0
- oracle删除重复数据
- sql删除重复数据
- sql 删除重复数据
- 删除重复数据
- 删除重复的数据
- 删除重复数据 方法
- 数组-删除重复数据
- mysql 删除重复数据
- 删除重复数据
- 删除重复数据
- 删除重复数据
- 删除重复数据
- 删除重复数据
- Sql删除重复数据
- SQL删除重复数据
- Oracle删除重复数据
- MYSQL 删除重复数据。。
- 删除重复数据
- @Repository、@Service、@Controller 和 @Component
- Step into Scala - 21 - I/O 操作与 Shell 操作
- [正在写]新手极速入门反汇编(二)-玩转汇编指令+寄存器
- URL提取关键词的value值
- 设计模式学习之旅——里氏替换原则
- 重复数据删除
- mysql 的tinyInt(1)
- Step into Redis- 05 - 过期时间
- 2015/5/10 省赛总结--重新上路
- 黑马程序员——IO流3:字节流
- 指针数组
- Linux下ME3760_v2驱动移植方式,中兴4G网卡移植
- 发送邮件
- android apk版本更新