重复数据删除技术简介+各厂商重复数据删除的简单介绍

来源:互联网 发布:七天网络怎么绑定不了 编辑:程序博客网 时间:2024/06/03 17:52
 虽然存储的售价一直都在不停的下降,但也远远赶不上公司内需要保存和备份的数据量的攀升速度。由于存储器管理人员急需降低备份数据量,重复数据删除(data de-duplicantion)技术从而成为近来十分热门的技术。这项技术是否像厂商所宣称的那样神奇呢?让我们一起了解重复数据删除技术。

(1)什么是重复数据删除技术

  首先,重复数据删除技术不同于普通的压缩技术。压缩是通过压缩算法消除文件内的冗余数据来缩减文件大小,而重复数据删除是通过算法消除分布在存储系统中的相同文件或者数据块。

  其次,重复数据删除也不同于普通的增量备份。增量备份的要旨是只备份新产生的数据,而重复数据删除技术的关键是只保留唯一的数据实例,所以重复数据删除技术在减少数据存储量方面更加有效。大部分厂商声称其重复数据删除产品能将数据缩减到正常容量的1/20。重复数据删除技术的基本原理是将数据分块筛选,找出相同的数据块并以指向唯一实例的指针取代。   

  重复数据删除技术是一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。高度冗余的数据集(例如备份数据)从数据重复删除技术的获益极大;用户可以实现10比1至50比1的缩减比。而且,重复数据删除技术可以允许用户的不同站点之间进行高效,经济的备份数据复制。

(2)基于软件的重复数据删除和基于硬件的重复数据删除的优缺点

  基于软件的重复数据删除旨在消除源的冗余,而基于硬件的重复数据删除强调存储系统本身的数据削减。虽然基于硬件的重复数据删除无法提供带宽补偿,而在源中进行重复数据删除中有可能获得带宽补偿,但是基于硬件的重复数据删除的压缩级别通常会更高,并且基于硬件的重复数据删除产品需要的维护更少。

  硬件重复数据删除设备以它们的高性能、可扩展性以及相对不间断的部署而备受关注。正常情况下,备份软件会将专用设备看作是一种一般的“磁盘系统”,并且完全不会发觉其内部正在进行的重复数据删除进程。小型企业或远程办公通常会避免使用设备,因为这些设备的费用要比用软件来实现重复数据删除的费用高,但是,它们确实是企业级部署的理想选择。

  基于硬件的重复数据删除也可能融合到其它存储(目标)平台上。例如,重复数据删除经常是VTL系统的一项功能之一。VTL系统通过使用磁盘而不是磁带进行存储,从而提高备份任务的速度,而且,添加重复数据删除使VTL磁盘使用率达到最大。在很多情况下,VTL重复数据删除是作为一种out-of-band进程来执行的。这是其一项优势,因为所有VTL的内容都可以通过重复数据删除技术以达到很好的压缩比率。不好之处在于重复数据删除不是实时的。然而,一些VTL系统在接收到备份服务器的数据之后,引入了in-band重复备份数据删除的处理能力。

(3)硬件的重复数据删除产品中In-band和Out-of-band比较

  基于硬件的重复数据删除产品的好处:基于硬件的重复数据删除产品能减轻与基于软件的重复数据删除产品相关的处理负担。重复数据删除功能还被融合到其它数据保护硬件中,如备份平台、虚拟磁带库(VTL)系统甚至通用存储系统像网络附加存储(NAS)等。通常这种方法并不旨在缩小备份窗口或恢复目标,但是一般而言,用户能借此达到最高的压缩级别,从而创造最大的可用存储空间。

  in-band重复数据删除在数据写入存储器时削减数据。尽管进程处理需要额外的处理能力从而可能扩大备份窗口的大小,但是in-band重复删除是有效率的,因为它只执行一次。

  out-of-band重复数据删除是在数据存储完之后执行。这种方法不会影响备份窗口的大小,并且能缓解对CPU进程处理的关注,从而避免在备份服务器和存储器之间产生瓶颈。然而,out-of-band重复数据删除在执行过程中使用稍微多一点的磁盘空间。还有,out-of-band重复数据删除需要花费的时间可能要比实际的备份窗口长。磁盘竞争是另一个问题,因为用户在重复数据删除过程期间尝试访问存储器,从而降低了磁盘性能。

(4)两种主要的重复数据删除方法

  目前有两种主要的重复数据删除方法:基于散列的方法和基于字节比较的方法。基于散列的方法利用一种算法对输入数据进行处理来创建很小的表达式和数据唯一的标识符(即所谓的散列值)。然后,将其与保存在查寻表中的散列值进行比较。但是,利用查寻表来确定重复的散列串会造成巨大的性能压力,并且可能需要几周时间才能取得最优的重复删除效率。

  效率更高的方法是在对象级上进行比较。例如,将Word文档与另一个Word文档进行比较,要么采用模式匹配算法;要么采用效率更高的智能分析技术。智能分析在更详细地比较两个文件之前会分析备份文件和参考数据集合来确定可能是冗余的文件。由于把处理重点放在可能的重复数据上,它可以更彻底地去除重复数据和避免不必要的处理新文件。

  一些技术在数据备份过程中进行重复数据删除。这种在线的重复数据删除会降低备份性能,增加备份的复杂性。另一些技术执行带外的重复数据删除,在执行时,它们首先备份数据,然后再执行重复数据删除。

  字节级重复数据删除可提供高达25:1数据压缩率。当与典型的VTL特性,即压缩技术配合使用时,企业无须增加存储容量就可在同样的空间中多保存50倍的数据。这种压缩技术不仅使用户可以在线保存更多的数据,并使数据保持更长的在线时间,还带来了将数据保存在硬盘上的优势。例如,把数据保存在硬盘上比保存在磁带上占用更少的物理空间,并大大减少电源、冷却、安全和其他运营与基础设施费用。

  重复数据删除技术通过使备份到VTL的费用大大低于纯基于硬盘的数据保护解决方案,改进了数据保护的经济性。同时,它也是数据中心应对急剧增加的能源、劳动力和空间费用,以及管理即将出现的电源和冷却容量短缺的重要的途径。

(5)下面是对各厂商重复数据删除的简单介绍:
  
飞康:

  飞康的重复数据删除存储软件名为“Single Instance Repository(SIR)”。SIR提供一个基于策略的冗余数据删除(RDE)引擎,只存储数据文件或数据块的单一实例(single instance)。

SEPATON:

  SEPATON 的DeltaStor技术使用 delta 冗余删除技术,使用这种技术,DeltaStor 软件可以搜索任意数量的数据对象版本,以找出重复的数据序列,然后用一个副本的指针替代重复数据,重复数据序列中只有一个实例真正存储在磁盘上。SEPATON 称DeltaStor可以以 25:1 的比例消除典型混合业务数据中的重复数据,对于某些电子邮件应用则可以达到 60:1。

Data Domain:
  
  Data Domain的重复数据删除技术称作容量优化存储(Capacity Optimized Storage, COS)技术。COS是采用一种压缩算法,任何重复的数据或是重复的模式在进行多次备份时,只对其进行一次备份。这样可以较好提高备份速率和数据压缩比。Data Domain称可以实现近乎20:1的压缩比。目前,Data Domain已经推出了三代DDX阵列。
  
EMC:

  EMC称Avamar重复数据消除和全局单实例存储 (SIS) 技术可确保备份数据段在全局范围内仅存储一次,还可以有效地将移动和恢复的数据量缩减300倍,同时还可以实现每日完整备份和快速恢复。
  
Diligent Technologies:

  Diligent的 ProtecTier技术将数据分成块,并且采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。HDS的虚拟磁带库解决方案采用的就是Diligent的ProtecTIER VT with HyperFactor重复数据删除技术,HDS声称VTL 解决方案在保证100%数据完整性的同时消除了冗余数据,从根本上将物理存储需求降至原来的二十五分之一甚至更低。
  
昆腾:
  
  昆腾的重复数据删除技术是由澳大利亚开发的。数据重复删除技术按自然边界把数据拆分为非常细粒度的子块元素。昆腾称,利用数据重复删除技术,1TB的备份数据可根据备份数据的共性,存储为300-700GB不等。在这种情形下,每月实现10:1到50:1的备份比率是完全可能的。
  
ExaGrid Systems:
  
  ExaGrid Systems的InfiniteFiler就是一个基于内容识别的重复删除设备,当备份数据时,它采用CommVault Galaxy 和Symantec Backup Exec等通用的备份应用技术从源系统中识别文件。完成备份后,它找出已经被多次备份的文件,生成增量文件(deltas)。多个 InfiniteFilers合成一个网格,支持高达30TB的备份数据。
  
赛门铁克:

  赛门铁克NetBackup PureDisk远程办公室备份软件,具有全局单一实例存储的基于磁盘的安全数据保护将备份所消耗的存储和网络降低10倍到50倍。PureDisk能将备份的存储和网络消耗降低10至50倍。

0 0
原创粉丝点击