基于IBM Tivoli TSM系统构建某局备份系统实施方案

来源:互联网 发布:阿里云域名解析后 编辑:程序博客网 时间:2024/05/16 12:51

本实施TSM的关键字解释

文件备份:

指文件级别的数据备份,基于操作系统的文件系统进行备份。

数据库备份:

指数据库基本的备份。在数据库处于open状态下,对数据库数据进行备份,并保持备份数据的一致性。

离线备份

也叫冷备份或脱机备份,一种备份方法,在离线备份中,正在备份的数据在备份过程中不能被应用程序访问。通常用于普通文件备份。

在线备份

也叫热备份或联机备份,一种备份方法,在线备份一般使用即时技术来构造原始数据的一致性映像,备份时,文件或数据处于打开状态,通常用于数据库和应用系统的备份。

备份时间窗口:

它是指在用户正常使用的业务系统不受影响的情况下,能够对业务系统中的业务数据进行数据备份的时间间隔,或者说是用于备份的时间段。


某局数据同城容灾备份主要是为了满足我局登记系统、住房保障系统、维修资金系统、房屋评税系统、合同备案系统、资金监管系统、房屋安全维修系统等相关业务系统的核心数据完整、安全地存放在异地,当出现误操作、火灾等人为破坏或者自然灾害时能够及时的恢复数据,保障业务的正常办理。


实施目标:

1、完成某局信息中心机房和区机房备份系统硬件及软件的安装和调试工作;

2、将信息中心机房现有数据库、各种类型文件等数据约50-80T容量备份(全量备份)至区机房内,并完成数据完整性校对工作;

3、通过敷设电信10MMSTP链路并入我局现有房产专网中,以满足今后的增量备份工作;

4安装和调试通过后进入试运行,在试运行期间,需实现增量备份要求,并测试当本地数据出现故障时,能使用备份数据对其进行恢复的功能。      


人员及组织安排


序号

姓名

项目组职位

 联系方式

备注

一、建设单位组成人员

01

     

负责整个项目的管理、监督和控制

02

     

负责整个项目的管理、监督和控制

03

     

中心机房应用及数据库资源使用协助

04

     

机房硬件环境及网络资源使用协助

其它相关联系人:

二、承建单位组成人员

06

 

项目总监

 

技术负责

07

 

项目经理

 

项目实施管理

08

 

TSM实施工程师

 

TSM软件安装调试

09

 

TSM实施工程师

 

TSM软件安装调试

10

 

TSM实施工程师

 

TSM软件安装调试

11

 

Oracle工程师

 

TSM实施技术支持

12

 

系统工程师

 

负责项目服务器、存储、操作系统安装



根据项目实施任务,对现状和需求进行调研,本次灾备数据主要分两部分。一部分是文件数据的备份,这部分文件数据主要由档案图片文件、图纸文件、数据库导出数据文件、数据库冷备份文件等组成,这部分数据约50-70TB。另外一部分数据是现有各种应用的数据库系统,共有约42套数据库系统备份,主要是Oracle数据库和SQL SERVER数据库,当前数据量约为1-2TB,为减少备份对系统运行的影响,这部分数据备份以数据库联机备份为主要备份方式;所有需要备份的数据在中心机房(市局)和灾备机房(关山)各至少保留一份,当出现系统故障或灾难时,优先从中心机房(市局)的备份数据中执行本地恢复。本期备份的系统需求见附表。


根据对以上现状机需求的分析,所有需要保护的数据,在中心机房(市局)和灾备机房(关山)各保留一份,当需要执行数据备份时,数据应能优先从中心机房(市局)本地进行恢复。对于本项目容灾备份系统架构设计如下:


图:4.2-1


图:4.2-2

如图所示,中心机房(市局)和灾备机房通过10M专线实现网络连通。分别在中心机房、灾备机房各部署一台TSM备份服务器,用于完成本地备份和异地灾备任务。中心机房(市局)利用现有IP-SAN用于备份的中心存储存放本地备份数据,划分为两个区域,文件备份区域和数据库备份区域。文件备份区域大小约65TB,用于文件备份数据的存放,数据库备份区域大小约5TB,用于数据库备份数据的存放。灾备机房采用本次新购置的DSC3700作为容灾备份存储。其中约100TB作为文件备份的空间,20TB用于存放数据库备份的数据。

所有的文件备份数据,包括档案图片、图纸文件、数据库导出文件、数据库冷备份文件等,首先通过手工或者脚本方式集中备份到中心机房的文件备份区域,然后通过灾备机房(关山)TSM备份服务器以网络方式存放到灾备机房的容灾备份存储的文件备份存储区中,实现文件数据的异地备份。

所有数据库系统的备份数据,主要指数据库的联机备份(热备份)数据,首先通过中心机房(市局)内TSM备份服务器自动备份到本地IP-SAN的数据备份区域,实现数据库数据的本地备份,然后本地TSM服务器(中心机房)将本地备份数据通过网络传输到灾备机房TSM备份服务器,灾备机房TSM备份服务器将数据存放到灾备存储(关山机房)数据库备份存储区中,从而实现数据库数据的异地备份。

由于本次项目备份数据总量在50-70TB,而用于灾备的通信线路带宽仅为10M(传输速度约3.6GB/小时),无法满足异地全量备份的要求,因此,本次灾备项目实施分三个阶段:初始全备份阶段、系统搬迁阶段、后期

 

备份方式的选择

针对市局不同类型的主机、应用的不同类型数据备份要求,我们使用了两种级别的备份方式,第一种是基于文件级别的备份;第二种是基于数据库级别的备份.


文件级别的备份

考虑到IT环境中除了数据库服务器和应用服务器以外,基本上属于文件级别的服务器,其它类型的文件服务器等。

对于这些文件服务器,我们会直接使用IBM Tivoli Storage Manager来实现对这些文件服务器的备份和恢复的功能。

本次项目中档案图片、图制文件、数据库导出文件、数据库冷备份等文件均采用文件级别的备份方式,对于这些超过50TB的海量文件系统的备份,TSM可以实现永久增量备份的备份策略,这样对于文件系统可以实现永远使用增量备分数据,而恢复时始终以全量方式一次性快速恢复,是最高效率的文件系统备份。


数据库的备份

系统需要对于Oracle和SQL数据库进行备份。为了确保这些数据库7 x 24小时的运行状态,我们提供了数据库的备份接口,以满足数据库的在线备份的功能,这些备份任务既不影响业务系统的运行,同时通过调度的方式自动实现,方便系统的管理和维护。

对于Oracle和SQL数据库,我们会使用IBM Tivoli Storage Manager和IBM Tivoli Storage Manager for Databases来实现这两类数据库进行数据库的在线备份和恢复的功能。


备份方式的设计

由于本次项目备份数据总量在50-70TB,而用于灾备的通信线路带宽仅为10M(传输速度约3.6GB/小时),无法满足异地初始全量备份的要求。因此初始数据的全备份只能在中心机房(市局)局域网内完成,初始化数据全备份完成后,灾备TSM备份服务器和灾备存储DSC3700将搬迁到灾备机房(关山),实现后期的日常灾备任务。

数据备份速度与网络关系表

网络拓扑

网络带宽

备份速度(GB/hr

10 Mbps Ethernet

1

3.6

100 Mbps Ethernet 

10

36

Gigabit Ethernet 

100

360

10 Gigabit Ethernet 

1000

3600

初始全备份

初始全备份在中心机房进行(市局)。

1、文件备份数据的全备份

文件数据全备份数据主要包括两部分内容:第一部分主要是将分散的数据以手工或脚本的方式备份到中心机房(市局)IP-SAN的文件备份区域。第二部分主要是将集中到IP-SAN的文件备份数据,通过TSM备份服务器备份到灾备存储DSC3700。做初始全备的时候,由于是在主机房,备份的速度按照千兆网络来考虑,文件数据50TB的备份时间约为50000/360=139小时。考虑到主要利用非上班时间,在12-16小时之间,需要9-12天完成初始数据全备。

2、数据库初次全备份。

数据库初次全部分同样包含两部分内容:第一部分就是通过中心机房(市局)TSM备份服务器将各数据库系统全备份备份到中心IP-SAN的数据库备份区域;第二部分,通过两台TSM备份服务器之间的数据通信,将存放在IP-SAN的数据库备份数据备份到灾备存储DSC3700的数据库备份存储区域。

对于数据库数据的初次全备,整体数据量小于1TB,按照1000/360*2=6小时完成。数据库系统的初次全备可以在1天之内完成。

后期全备份

文件备份

对于文件备份,后期不再执行数据的全备份,采用基于文件的永久增量备份方式,也就是,后期的文件备份仅备份新增的文件数据。

数据库备份

根据需要备份的数据库的统计,需要执行数据库备份数量约1TB,备份第一步是在中心机房(市局)进行,通过中心机房TSM备份服务来实现数据库备份,由于是在局域网内,这些数据合计的本地备份时间约为3-4小时。备份第二步是将数据备份到灾备机房(关山),由于带宽仅为10M,主要的瓶颈在于数据传输,经过计算,数据库备份数据不压缩传输的时间窗口约为200个小时,压缩后数据传输时间可以降低到100小时以内。

全备份数据库备份数据传输的周期尽量在周末开始,建议图档数据从周六中午12点开始,预计20点可以完成图档数据的备份。12-20点之间,各子系统可以完成本地全备份,之后时间,可以用于数据的传输。每周数据传输的时间在30-40小时。由此看来,整个全备备份周期按照一个月的时间周期来设计比较合适。

后期增量备份

文件数据备份

由于文件备份主要是永久增量方式,根据估算,每个月数据增量为1TB.每天增量约40-50GB,按照10M带宽估算,文件增量备份数据的传输时间约12-15小时。

数据库备份

从表中数据库数据增量看,数据库备份数据每天的增量约0.5GB,因此日常在中心机房(市局)本地备份时间小于30分钟,增量备份数据传输时间也同样小于0.5小时。整个数据库日常的增量备份时间(包括本地和异地灾备)约1小时内完成。

 

项目

初始数据全备份

数据全备份

增量数据备份

数据量(GB)

次数

备份时间窗口(天)

数据量(GB)

备份周期

备份窗口(小时)

传输窗口(小时)

备份压缩

备份周期

数据量(GB)

备份窗口(小时)

传输窗口(小时)

文件数据备份

50000

1

12

1000

部分压缩

每天

50

14

数据库联机备份

900

1

1

1000

每月

8

100

压缩

每天

0.5

小于0.5

小于0.5


数据恢复方式:

当需要进行数据恢复时,优先从中心机房(市局)的本地备份进行恢复。

对于需要恢复的文件数据,直接从中心机房(市局)的IP-SAN 文件备份区域进行恢复。

对于需要恢复的数据库数据,通过TSM管理界面(或通过EM界面)恢复需要的备份集即可。

当需要恢复的数据无法从中心机房(市局)IP-SAN备份区域进行恢复时,需要进行异地恢复或进行灾备恢复。

1、文件备份异地恢复(恢复数据量小于36GB或者不紧急数据恢复)

图档数据恢复,通过客户端节点连接TSM服务器,通过搜索选定文件或文件夹恢复到客户端或制定的路径。

2、文件数据站点恢复(恢复数据量大于36GB或者紧急情况恢复)

由于数据量较大,数据传输受限。在这种情况下,建议到灾备机房进行恢复。和异地恢复步骤基本一致,只是之前和之后需将客户机节点运送到灾备机房或者通过移动设备运送到主机房。

3、数据库备份异地恢复(恢复数据量小于30GB)

当客户机节点数据库损坏,而中心机房备份服务器或者备份发生故障,本地无法完成恢复操作时,当需要恢复的数据量不大或者恢复要求不够紧急时,在重建客户机节点环境后,通过网络连接到关山机房TSM服务器进行数据库文件恢复,在进行数据装载,恢复系统。

4、数据库备份站点恢复(或恢复数据量较大)

当中心机房发生灾难性的站点故障时。通常首先在关山灾备机房重建核心业务系统,恢复网络连接;需要恢复的应用节点安装TSM客户端环境并连接TSM服务器,首先执行文件恢复,再执行数据库数据恢复装载,从而实现数据库系统的恢复。


实施过程计划:

本次灾备项目实施分三个阶段:初始阶段、系统迁移阶段、后期运行阶段。


1、初始阶段

初始阶段的主要目标是通过在中心机房(市局)搭建完整的灾备环境,完成文件数据和数据库数据的在IP-SAN的本地初始备份,并利用局域网的带宽,通过TSM复制到灾备存储DSC3700响应的灾备存储区域,完成后进行恢复测试校验。

初始阶段主要包括以下内容:

系统安装调试:设备到货、设备开箱、设备加电测试、网络环境安装调试、备份服务器安装调试、备份客户端安装调试、线路调试。

本地数据二次备份:在备份环境建立完成后,进行文件数据和数据库数据的备份,整个备份分两个子阶段,第一个子阶段是将数据备份到中心机房IP-SAN的备份存储区域;第二个子阶段是通过TSM备份服务器,将IP-SAN备份数据复制到新购置的灾备存储DSC3700的存储备份区域中去。

数据校验:数据校验主要是对于二次备份的数据库和文件数据备份进行校验,并测试数据恢复。


2、迁移阶段

迁移阶段的主要目标就是将完成初始备份后的灾备TSM服务器和灾备存储迁移到灾备机房(关山)并进行重新部署,部署完成后进行数据校验。

迁移阶段的前置条件:完成初始阶段的数据备份工作以及10M链路的网络调试工作。

迁移阶段主要包括以下内容:

中心机房系统停机:对于需要搬迁的设备进行关停机操作,主要包括用于灾备机房的网络设备、灾备服务器、灾备存储等。

灾备设备运输:将停机后的灾备设备从市局中心机房安全运输到关山灾备机房。

灾备设备调试:在灾备机房进行上架、部署。通过安装调试,确保从中心机房(市局)到灾备机房(关山)系统和设备正确运行。

系统校验:执行备份和恢复测试,对备份数据进行校验,确保灾备环境和灾备数据的正确性。


3、后期运维阶段

在期运行阶段的主要目标是,在初始全备份和灾备环境部署正确的情况下,通过确定增量备份策略和备份调度策略,灾备系统投入试运行并完成系统验收。后期运行阶段主要包括以下内容:

确定备份策略:确定增量备份的规则、策略、调度方式等内容,并实现增量数据的备份按要求执行。

数据校验:对于增量备份的数据进行校验和恢复测试,验证增量备份环境和数据的正确性

试运行和验收:系统投入试运行,通过TSM查看、检查备份和灾备情况,系统稳定运行一段时间后,组织系统验收。


主要工作内容计划表

 

序号

项目名称

完成时间

人员

备注

 

初始阶段

   

 

2

项目实施计划确认

   

 

3

通信链路申请

   

 

4

设备到货、开箱、加电

   

 

5

主机房设备安装环境准备

   

 

6

硬件环境安装

   

 

7

存储、服务器、交换机加电及连接

   

文件备份(100T按现有每月数据增量预计可满足两年 包括(图片、文档 、冷备文件 )

数据库热备(热备文件 10T

8

存储安装及磁盘空间划分

   

(服务器、操作系统)已完成

交换机安装、配置

9

服务器、操作系统、交换机安装、配置

   

(服务器、操作系统)已完成

交换机安装、配置

10

TSM培训

   

第一次非原厂培训已完成

第二次原厂培训:

11

TSM软件安装实施(中心机房)

   

 

12

TSM服务器端软件安装配置

   

 

13

文件备份实施及文数据备份

   

 

14

文件备份TSM客户端软件安装及配置

   

 

 

中心机房存储数据迁移(数据量约1T

   

 

15

文件备份速度测试

   

 

16

文件备份及监控

   

根据实际备份情况调整工作计划。1月10日检查备份情况,确定后期迁移阶段工作计划。

17

文件恢复测试

   

2天时间(100G文档数据)

22

数据库热备客户端部署及数据备份

   

 

 

收集各数据库的配置参数、密码

   

 

23

整理热备份备份脚本

   

(ORACLE、SQLSERVER)房管局提供逐步提供参数,TSM实施人员按照业主提供的信息完成数据库的备份脚本

24

数据库恢复环境准备

   

准备服务器(虚拟机)一台(ORACLE、SQLSERVER)

数据库环境(要安装控制台)

26

TSM客户端部署(含数据库模块)

   

 

27

执行数据库热备

   

 

28

数据库备份校验与恢复测试

   

 

 

迁移阶段

   

 

30

通信链路调试(两端)

   

 

31

机房环境准备

   

 

32

备份系统搬迁前关停准备

   

 

33

备份系统搬迁至灾备机房

   

 

34

备份系统在灾备机房安装调试

   

 

35

灾备机房恢复环境准备

   

 

36

文件备份校验及恢复测试

   

 

37

数据库热备份校验及恢复测试

   

 

 

后期运行阶段

   

 

 

增量备份策略机实施

   

 

 

增量备份校验机恢复测试

   

 

 

TSM培训

   

 

40

灾备系统试运行

   

 

 

系统验收

   

 

 

0 0
原创粉丝点击