Cluster（群集）介绍

来源：互联网发布：台湾旅游知乎编辑：程序博客网时间：2024/05/07 01:53

什么是Cluster?

    Cluster（群集）是紧密连接的一组计算机，用来持续性地提供高性能的计算服务。
把一组计算机连在一起并非难事，但要让它们获得很高的性能就不那么容易了。Cluster
的初衷在于以没有单点故障的体系结构来达到系统的高可用性和可伸缩性，而且要求采
用通用标准的计算机，而不是特殊专用的计算机部件，从而能以较低的成本获得较好的
可伸缩性。Cluster中的计算机应当具有非常好的协同性。如果其中一台发生故障，马上
就有另一台去接替它的工作，如果一台计算机的性能不足以完成某项任务，其他的系统
成员就会加入进来，共同执行这项任务。应用实践证明，由通用的计算机部件协同工作
，完全可能使其运算能力超过大型主机、超级计算机和容错系统，而且具有更低的成本
。

为什么选Cluster?

    评估计算机系统体系结构的优劣的确不是一件容易的事。
    SMP（对称多道处理）、FT（容错）、MPP（海量并行处理）和Cluster（群集）以其
各自的特色在市场上占有一席之地。MPP以系统的可伸缩性见长，FT的可用性比较高，而
SMP和Cluster的结构在可伸缩性和可用性之间的兼顾与融合使其成为最成熟、适用范围
最广的技术方案，在实际应用中可以满足绝大多数用户的需求。
    可用性是指系统正常运行的比例，最高的理论指标值是100%，而常用的表征方法是
“9”的数量。例如“3个9”就是指99.9%的可用性，“4个9”是指99.99%的可用性。一
套具有“3个9”的可用性系统，只有0.1%的时间处于不能正常运行的状态。这看起来似
乎不错，但实际上意味着在一年的时间里有9个小时系统不能正常工作。如果能够让这9
个小时的停机时间都安排在非业务高峰时段，也许问题并不十分严重。但是如果一家零
售商场的业务系统在圣诞节前意外停机9个小时，那商场业主来说简直无异于一场噩梦。
所以说，用户需要更多的“9”。对于不能停顿的关键业务应用，要达到更高的可用性就
应该选择Cluster。因为即使是在最坏的情况下，严重的系统故障在Cluster之中也只会
表现为几分钟内系统性能的略微降低，服务的反应速度稍微慢一点。
    近年来，Cluster和RAS（Reliability、Availability和Serviceability）等相关领
域的进步极大地改善了应用系统的可用性，减少了停机时间。Cluster技术越先进，计算
部件成员之间配合就越默契，故障部件的接替与切换就更加平衡。例如多通道I/O特性使
存储或网络控制器发生故障的节点可以方便地切换到其他备用控制器上。
    在更先进的Cluster技术中，任何部件发生故障都不会影响到系统的正常运行，甚至
是在备用部件或者系统总线发生故障的情况下，计算节点同样可以通过远程方式利用其
他节点的存储控制器继续执行自己的任务。在各个计算节点都正常的情况下，也可以自
动均衡所有计算资源上的负载，使整个系统的运行性能达到最佳状态。而且，与分别管
理相同数量的独立单机相比，对于Cluster之中的节点进行管理要容易得多。

    真正的Cluster减少系统停机时间，高可用性自然是功不可没。通过将单个的服务器
连接成Cluster，有可能获得3个、4个甚至5个“9”的可用性，但同时又面临着一大堆复
杂的技术细节问题--设备驱动程序、磁盘卷标、IP地址、故障接替路径、服务定义和控
制脚本等等。随着Cluster中节点数量的增加，这类问题就会越来越复杂，常常使系统管
理员望而生畏。事实上，有不少用户由于追求可用性而选择Cluster，但又由于系统的复
杂性和管理上的困难而导致Cluster远远没有发挥其应有的效益。
    所以说，Cluster要想凭借其高性能、高可用性和高可伸缩性而在当今的商业应用中
担当重任，就必须改善自身在部署和维护方面的简便程度，让人们感到它并非高深莫测
。负载平衡、多路故障接替、多通道I/O和管理集中化等功能应当成为操作系统理所应当
的普通功能，这才是真正具有实用意义的Cluster。