大磁盘(超过2TB)阵列的部署以及使用rsync的数据迁移方案

来源:互联网 发布:软件测试的艺术 编辑:程序博客网 时间:2024/04/30 05:24

  最近因为磁盘阵列升级,我们需要把旧的两个磁盘整列分别升级到18TB和24TB,由于是第一次碰到这样的大硬盘,所以自然还有一些技术问题需要去了解。

 


 

首先是LBA 64bits

  这个东西是做什么用的呢?LBA好像是叫逻辑快寻址什么的,实际上就是按照每512byte为一块的方式来在硬盘上寻址的,因此,传统的32位的LBA只能最大找到2^32×512bytes 一共就是2TB左右的空间,因此,在你的阵列上启用超过2TB的磁盘的时候就必须要开启LBA64bits的支持,听说还有个LBA48bits,可以支持到144PB,不过我的阵列没这个选项。

 


 

然后是分区表格式

  我们自己的小硬盘用MBR就OK了。但是当你的空间大于2TB的时候,就必须使用GPT的格式了。这个在linux底下非常容易办到:

 

 

 

 

root@mystot:~# parted

GNU Parted 1.7.1

Using /dev/sda

Welcome to GNU Parted! Type 'help' to view a list of commands.

(parted) mklabel gpt  #设定分区表类型为GPT

 

(parted) print#打印磁盘信息

 

Disk /dev/sda: 16.5TB

Sector size (logical/physical): 512B/512B

Partition Table: gpt

 

Number  Start  End  Size  File system  Name  Flags

 

 

 

(parted) mkpart primary 0 16000000#创建一个从0到16000000MB位置的分区

(parted) mkpart primary 16000001 -1#创建一个从16000001MB到这个磁盘末尾的分区

 

 

(parted) print                                                            

 

Disk /dev/sda: 16.5TB

Sector size (logical/physical): 512B/512B

Partition Table: gpt

 

Number  Start   End     Size    File system  Name     Flags

 1      17.4kB  16.0TB  16.0TB                primary       

 2      16.0TB  16.5TB  500GB                primary       

这样,就成功的在这个阵列上分了两个分区。

接下来是文件系统类型的问题:
  通常,超过2TB的一个分区,可选的文件系统的方案有这些:
  • ext3:块大小肯定要超过1KB,我这个16T以上的分区必须要设置为8KB的。然而,ext3对于这样一个存储系统来说性能上是无法接受的
  • ReiserFS:最大单个文件2T,最大卷容量16TB。这种日志文件系统处理小文件非常快捷,但是大文件性能就稍逊了。而且由于分区限制不适合在这个阵列上用
  • ext4:新的ext4文件系统各方面性能都比ext3有很大提升,当个文件最大16TB,最大卷容量1EB。
  • xfs:这个文件系统是专为大文件设计的,当个文件最大9EB,最大倦容留18EB,而且不论文件大小性能都非常棒,只是这种文件系统创建和处理文件的时候非常慢。
  • zfs:易于管理,事务性能上佳,支持NVRAM等缓存的ARC优化架构,各方面性能均超越ext3,且具备高级的日志文件系统特性,创新的存储池管理理念。从任何一方面看都是个优秀的文件系统,只是问题是目前只有Solaris和FreeBSD支持的比较完美。linux的支持不好弄。

  虽然想弄个zfs,但是由于其他原因,现在不能大幅度动系统,所以先试着用xfs来处理。

 

  在ubuntu下要安装xfs还是很方便的。直接

apt-get install xfsprogs xfsdump

  更新完以后直接用

 

root@stt:~# mkfs -t xfs /dev/sda2

meta-data=/dev/sda2              isize=256    agcount=16, agsize=7629354 blks

         =                       sectsz=512   attr=0

data     =                       bsize=4096   blocks=122069664, imaxpct=25

         =                       sunit=0      swidth=0 blks, unwritten=1

naming   =version 2              bsize=4096  

log      =internal log           bsize=4096   blocks=32768, version=1

         =                       sectsz=512   sunit=0 blks, lazy-count=0

realtime =none                   extsz=4096   blocks=0, rtextents=0

 

 

另外,如果在红帽下用xfs可以参考这篇文章:http://www.sudone.com/linux/rhel5_xfs.html

弄好区以后,通常你会需要让阵列开机自动挂载,你应该会使用到的命令是查看某个卷的uuid信息的命令

vol_id /dev/sda1

ls -l /dev/disk/by-uuid


 

接下来是数据迁移的问题了

  第一次由于原来阵列只有2TB,所以迁移阵列数据的时候只用了简单的nfs的方法来处理,但是,结果发现,即使是nfs,打大量的文件下,速度也慢的可以,使用time命令得出的结果基本上是10倍以上的时间浪费了。按照实际情况,我的阵列里面的文件多数是50MB-100MB的,大约只有10MB/s-20MB/s的速度。这个对于迁移大阵列来说是难以接受的。

  因为也没有找到什么好的办法,所以这次我开始尝试用另外一种工具——rsync

  rsync使用的是delta encoding的按differences的方式来进行文件镜像的工具,这个东西能够保持整个目录结构的一致性,其中的inotify相当牛逼,可以事实监控和记录文件系统里面文件的变化,可以单独使用,引申用途那可就多了。回到主题,rsync备份海量文件(别人是800万以上的文件数目)的时候会大量占用内存,实际上只要升级到3.04以上的版本就好了,新的rsync使用的是边列表边备份的方法,所以可以节约大量的内存。

  这个rsync的配置是一台服务器应该以deamon的形式运行,一台作为client的形式运行。

  你需要配置一下你的文件,默认装好rsync是没有这个文件的,自己建即可。下面这段从网上直接摘过来的,已经说明的很好了:

配置一个简单的rsync服务并不复杂,你需要修改或建立一些配置文件。
  1.rsyncd.conf
  # vi /etc/rsyncd.motd
  rsyncd.con是rsync服务的主要配置文件,它控制rsync服务的各种属性,下面给出一个
rsyncd.conf文件的例子:
  #先定义整体变量
  secrets file = /etc/rsyncd.secrets
  motd file = /etc/rsyncd.motd
  read only = yes
  list = yes
  uid = nobody
  gid = nobody
  hosts allow = 192.168.100.90 #哪些电脑可以访问rsync服务
  hosts deny = 192.168.100.0/24 #哪些电脑不可以访问rsync服务
  max connections = 2
  log file = /var/log/rsyncd.log
  pid file = /var/run/rsyncd.pid
  lock file = /var/run/rsync.lock
  #再定义要rsync目录
  [terry]
  comment = Terry 's directory from 192.168.100.21
  path = /home/terry
  auth users = terry,rsync
  [test]
  comment = test rsync
  path = /home/test
  在上面的配置文件中,限定了192.168.100.0/24这个子网中,只有192.168.100.90的机器可以来访问这台rsync服务器的 rsync服务。配置文件的后面部分定义了两个rsync的目录,terry目录是只有知道terry、rsync两个账号的人才能使用的,而text目录是无需账号就可以访问的。rsync在定义目录时还提供了一些其它选项,可以作更严格的控制。

  2.rsyncd.secrets
  # vi /etc/rsyncd.secrets
  rsyncd.secrets是存储rsync服务的用户名和密码的,它是一个明文的文本文件,下面给出一个rsyncd.secrets文件的例子:
  terry:12345
  rsync:abcde
  因为rsyncd.secrets存储了rsync服务的用户名和密码,所以非常重要,因此文件的属性必须
设为600,只有所有者可以读写:
  # chmod 600 /etc/rsyncd.secrets

  3.rsyncd.motd
  # vi /etc/rsyncd.motd
  rsyncd.motd记录了rsync服务的欢迎信息,你可以在其中输入任何文本信息,如:
  Welcome to use the rsync services!

  4.services
  # vi /etc/services
  services并不是rsync的配置文件,这一步也可以不做。而修改了services文件的好处就在于
系统知道873端口对就的服务名为rsync。修改services的方法就是确保services中有如下两行,
没有的话就自行加入:
  rsync  873/tcp  # rsync
  rsync  873/udp  # rsync
  5./etc/xinetd.d/rsync
  # vi /etc/xinetd.d/rsync
  建立一个名为/etc/xinetd.d/rsync文件,输入以下内容:
  service rsync
  {
    disable = no
    socket_type  = stream
    wait      = no
    user      = root
    server     = /usr/local/rsync/bin/rsync
    server_args  = --daemon
    log_on_failure += USERID
  }
  保存后,就可以运行rsync服务了。输入以下命令:
  # /etc/rc.d/init.d/xinetd reload
  这样rsync服务就在这台机器上(192.168.100.21)运行起来了,接下来就是如何来使用它了。

  三、rsync命令的用法
  在配置完rsync服务器后,就可以从客户端发出rsync命令来实现各种同步的操作。rsync有很
多功能选项,下面就对介绍一下常用的选项:
  rsync的命令格式可以为:
  1. rsync [OPTION]... SRC [SRC]... [USER@]HOST : DEST]
  2. rsync [OPTION]... [USER@]HOST:SRC DEST]
  3. rsync [OPTION]... SRC [SRC]... DEST]
  4. rsync [OPTION]... [USER@]HOST::SRC [DEST]
  5. rsync [OPTION]... SRC [SRC]... [USER@]HOST :: DEST]
  6. rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST]

rsync有六种不同的工作模式:
  1. 拷贝本地文件;当SRC和DES路径信息都不包含有单个冒号":"分隔符时就启动这种工作模式。
  2.使用一个远程shell程序(如rsh、ssh)来实现将本地机器的内容拷贝到远程机器。当DST
路径地址包含单个冒号":"分隔符时启动该模式。
  3.使用一个远程shell程序(如rsh、ssh)来实现将远程机器的内容拷贝到本地机器。当SRC
地址路径包含单个冒号":"分隔符时启动该模式。
  4. 从远程rsync服务器中拷贝文件到本地机。当SRC路径信息包含"::"分隔符时启动该模式。
  5. 从本地机器拷贝文件到远程rsync服务器中。当DST路径信息包含"::"分隔符时启动该模式。
  6. 列远程机的文件列表。这类似于rsync传输,不过只要在命令中省略掉本地机信息即可。
  下面以实例来说明:
  # rsync -vazu -progress terry@192.168.100.21:/terry/ /home
  v详细提示
  a以archive模式操作,复制目录、符号连接
  z压缩
  u只进行更新,防止本地新文件被重写,注意两者机器的时钟的同时
  -progress指显示
  以上命令是保持客户机192.168.100.90上的/home/terry目录和rsync服务器上的terry目录同
步。该命令执行同步之前会要求你输入terry账号的密码,这个账号是我们前面在rsyncd.secrets
文件中定义的。如果想将这条命令写到一个脚本中,然后定时执行它的话,可以使用--password-file
选项,具体命令如下:
  # rsync -vazu -progress --password-file=/etc/rsync.secret
  terry@192.168.100.21:/terry/ /home
  要使用--password-file选项,就得先建立一个存放密码的文件,这里指定为/etc/rsync.secret。
其内容很简单,如下:
  terry:12345
  同样要修改文件属性如下:
  # chmod 600 /etc/rsyncd.secrets

  四、利用rsync保持Linux服务器间的文件同步实例
  现在假设有两台Linux服务器A(192.168.100.21)和B(192.168.100.90),服务器A中的
/home/terry和服务器B中的/home/terry这两个目录需要保持同步,也就是当服务器A中文件发生
改变后,服务器B中的文件也要对应去改变。
  我们按上面的方法,在服务器A上安装rsync,并将其配置为一台rsync服务器,并将/home/terry
目录配置成rsync共享出的目录。然后在服务器B上安装rsync,因为B只做客户端,所以无需配置。
然后在服务器B,建立以下脚本:
  #!/bin/bash
  /usr/loca/rsync/bin/rsync -vazu -progress --delete
  --password-file=/etc/rsync.secret terry@192.168.100.21:/terry/ /home
  将这个脚本保存为AtoB.sh,并加上可执行属性:
  # chmod 755 /root/AtoB.sh
  然后,通过crontab设定,让这个脚本每30分钟运行一次。执行命令:
  # crontab -e
  输入以下一行:
  0,30 * * * * /root/AtoB.sh
  保存退出,这样服务器B每个小时的0分和30分时都会自动运行一次AtoB.sh,AtoB.sh是负责
保持服务器B和服务器A同步的。这样就保证了服务器A的所有更新在30钟后,服务器B也一样取
得了和服务器A一样的最新的资料。

  五、其它应用
  rsync除了同步文件及目录之外,还可以利用它来实现对远程网站的远程备份。如果再结合脚本和Crontab就能实现定时自动远程备份。其可以实现与商业化的备份和镜象产品的类似效果,但完全免费。

附:rsync有六种不同的工作模式:
  1. 拷贝本地文件;当SRC和DES路径信息都不包含有单个冒号":"分隔符时就启动这种工作模式。
  2.使用一个远程shell程序(如rsh、ssh)来实现将本地机器的内容拷贝到远程机器。当DST
路径地址包含单个冒号":"分隔符时启动该模式。
  3.使用一个远程shell程序(如rsh、ssh)来实现将远程机器的内容拷贝到本地机器。当SRC
地址路径包含单个冒号":"分隔符时启动该模式。
  4. 从远程rsync服务器中拷贝文件到本地机。当SRC路径信息包含"::"分隔符时启动该模式。
  5. 从本地机器拷贝文件到远程rsync服务器中。当DST路径信息包含"::"分隔符时启动该模式。
  6. 列远程机的文件列表。这类似于rsync传输,不过只要在命令中省略掉本地机信息即可。

 

 

  附带一说:从结果看rsync的性能应该比nfs要强一些,而且可以省去自己打命令拷文件的烦恼,也算不错。我把链接数开到20,拷贝的小文件的速度还可以接受。。

----

更新:刚才使用千兆双绞线直连测试了一下,文件传输速度达到60MB/s以上,非常非常棒。。。

原创粉丝点击