宣传6个9的可靠性就真的可靠吗

来源：互联网发布：安阳日报社网络投稿编辑：程序博客网时间：2024/04/29 04:55

ICT架构师技术交流(微信号ICT_Architect)

分析和交流ICT行业最前沿技术，分享云计算、存储、服务器、数据中心、网络、软件定义和虚拟化等相关知识，旨在知识交流、开放共享和共同进步。

宣传6个9的可靠性就真的可靠吗

可靠性是人们长期以来讨论的热点话题，随着分布式系统的发展，可靠性的问题早已是每个存储、分布式系统、融合系统和服务器等厂商的一门必修课程。

由于数据是客户的核心资产，所以跟数据打交道的这些设备是否可靠就显得格外重要，服务器的RAS特性(Reliability, Availability和Serviceability，Intel又引入了Manageability可管理性，对部件进行监控、管理和错误预测)是直接决定服务器档位和优劣的重要指标，无论是RAS1.0，还是目前大家炒的火热的RAS2.0。存储跟数据的紧密关系决定了它与生俱来就应该是可靠的，那么存储系统的可靠性应该如何评估呢，目前各个厂商都吵的5个9、6个9甚至更高的可靠性标准，这些数据如何得来，通过这些数据就能说明系统真正可靠吗。

关于存储的可靠性的评估有不同的行业标准和理论体系，每个厂商也有自己不同于别人的理解。如美国电子设备可靠性标准MIL-HDBK-217、英国电信可靠性标准HRD5、BELLCORE TR-332等。目前采用比较多的可靠性模型是BELLCORE TR-332《Reliability Prediction Procedure for Electronic Equipment》商业产品通用的国际标准。这套标准也提供了几种单元可靠性预测方法，其中比较常用的一种方法叫计数法，该方法计算的是在工作温度40℃，50%的电应力下的失效率。

针对冗余单元组成的系统，一般采用Markov状态图的方法进行可靠性指标建模。针对串联单元组成的系统，直接将各单元的可用度相乘计算系统的可用度。根据系统模块、器件的MTBF(平均故障间隔时间，一般适用于可修系统)和MTTR(平均修复时间)，再结合级联器件单元和串联器件单元求和算出系统可用性，系统可用性Availability = MTBF/(MTBF+MTTR)。

存储的可靠性可以基于不同标准和理论体系建模，而且预测方法也存在差异。首先采用不同模型和方法就会影响计算结果；再者厂商的宣传大多还是却反官方材料证明，基本上都是拿最好的一面示人，但实际上客户实际环境和业务情况是非常复杂的；最重要的一点是这些都是理论值，理论和实践的差距往往较大，宣传归宣传，站在客户角度，客户是不是更应该看重厂商设备在现网的运行时间，故障率、套数和行业分布等。

这些纸面上宣传的东西对部分客户来讲，可能还是比较有效的。但站在我个人角度来讲，随着产品硬件技术的发展和工艺提高，硬件芯片、模块本身的可靠性无论来自哪个硬件厂商，其故障率和可靠性基本都是保持在一个量级或水平线的，而且目前大多数厂商硬件也就来自那么几家芯片公司。设备厂商拿着芯片厂商的硬件研发自己的产品，除了在产品架构、管理、易用性和服务性上做些优化和差异外，其他的可靠性还是依托于底层芯片和架构来保证，所以单纯地从产品谈可靠性意义不太大，还应该更多的从产品特性功能、软件增强和解决方案级别来讨论。

服务器产品在设计时，RAS设计主要来源于CPU、芯片和服务器生产厂商，CPU提供的RAS 特性功能在BIOS初始化阶段，就会使能各项RAS特性，但CUP级别的RAS特性主要是服务于上层RAS或扩展能力，服务器系统级别的RAS特性需要依靠厂商设计，如分区、内存镜像、CPU和内存热维护等。

宣传6个9的可靠性就真的可靠吗

衡量一个服务器系统的主要标准就是RAS(可靠性是重要指标之一)，服务器系统RAS涉及的内容包含每个部件，最主要的部件是CPU、内存、管理时钟模块等。当然，各个模块的RAS包含很多方面；如内存的RAS就涉及了Cache保护、故障巡检、错误纠正、故障内存隔离和定位等方面。

宣传6个9的可靠性就真的可靠吗

为了提升服务器系统级的RAS能力和竞争力，服务器厂商需要在Firmware级别进行差异性设计，最常见的例如，主动预警内存、CPU等风险部件，不依赖于具体OS全方位自动故障数据收集，带外完成故障收集、分析、定位、预警及处理任务分发等待。

分布式系统(也包含分布式存储系统)也可以把RAS、MTBF、MTTR等作为可靠性衡量指标，但是比较被认可的专业指标是CAP指标，可用性作为其中重要因素之一。CAP理论阐述了在分布式系统的设计中，没有一种设计可以同时满足一致性，可用性和分区容错性。既然不能同时满足，那如果宣传5个9、6个9的可用性就难以服众，即使在分布式系统设计中，大多数厂商都是牺牲一致性来成全可用性和分区容错性，但一致性也必须是分布式系统设计考虑的重点。

针对分布式系统设计中，BASE理论作为CAP理论的折中或延伸，在分布式系统中被大量使用。分布式系统的可靠性竞争力的建设，似乎更多要依托上层软件能力体现(主要原因可能也是基于便宜的X86通用服务器，硬件最求的就是便宜)，如数据多副本、EC纠删码(跨节点存放数据，多节点故障容忍等)，数据Scrub校验、ECC，存储池故障域隔离、数据快速修复等等。方案层面的可靠性也尤为重要，数据异地复制容灾，数据Multiple Available Zone、Region等。

存储系统，尤其是企业级存储系统，存放着客户核心数据资产，光凭借基于可靠性模型评估的5个9、6个9的器件模块理论数据，基本是无法胜任业务真实所需可靠性任务的。也正因如此，存储产品的可靠性往往被厂商和客户更为关注，所以存储方案的端到端方案的可靠性也就是核心竞争力。

硬盘是数据存储基本单元，硫化腐蚀、高压、高温、灰尘、振动和磁头退化都会导致磁盘故障，除了对单个进行磁盘防硫化和防灰尘处理外，更多的如抗高温、振动、坏块修复、故障预测等处理都需要存储系统在设计时考虑。卷镜像、快照、多路径、性能提升(包括硬件加速)和数据保护功能也需要在系统级别进行设计和严格测试，更好的来保证存储系统可靠、稳定，保证存储系统内数据安全。

RAID是数据冗余可靠的最基本技术，目前RAID技术种类繁多，除了如CRAID、FastRAID、RAID2.0、VRAID等基于Block的RAID技术外，还有如RAID DP、RAID5E、RAID MP和RAID ADG等复合性RIAD优化技术，很多RAID或EC技术支持跨机柜分布数据，提升系统重构速度和机柜之间可靠性。

在数据中心内，存储系统通过提供数据端到端一致性来保证数据一致可靠，如基于SCSI的DIX+T10 PI端到端一致性技术，在存储系统支持标准的T10 PI的情况下，跟特定数据库(Oracle 11g)、操作系统(Oracle Linux 5 or 6)和HBA(Emulex、Qlogic特定型号)等组件联合保证数据一致性。

宣传6个9的可靠性就真的可靠吗

在存储系统中，静默数据数据破坏无法实时检测出来，导致被破坏的数据恢复难度很大，甚至不可恢复，所以该方案提供了数据端到端的一致性功能保证数据可靠性。

异地、跨数据中心间的可靠性能力，让客户应用和数据具备跨城域或多数据中心灾难容忍能力，这才是客户所需要的实实在在的能力。支持这种能力的技术通常是数据复制、双活，多数据中心(如3DC)等方案。但每种方案对应的场景和能满足的需求也不一样，这主要取决于数据对RTO、RPO和距离、网络、时延等的要求。所以我个人认为，与其单纯的宣传单产品或产品硬件本身几个9的可靠性数字，还不如构建产品软件和方案实力，以整体方案的现网运行数据来证明产品的可靠性。

文章已经同步至微信“ICT架构师技术交流”公众号，关注公众号获取更多精彩技术内容。

温馨提示：

请搜索“ICT_Architect”或“扫一扫”下面二维码关注公众号，获取更多精彩内容。

0 0