Intel MCA 硬件机制概述
来源:互联网 发布:海森伯格矩阵 证明 编辑:程序博客网 时间:2024/06/03 08:55
Intel引入了 MACHINE-CHECK ARCHITECTURE(MCA) 和 machine-check exception(#MC) 机制用来对服务器硬件进行自检,并在发现硬件错误的时候发出中断或异常。系统软件收到中断或异常后,会对其进行响应,进行相应的修复、告警或其他策略等动作。通过Intel的这个RAS特性,保证在发生crash等错误前,服务器可以有机会做一些容错处理,大大提升了Intel在数据中心高可靠服务器领域的竞争实力。
Intel在Xeon,Atom,P6等中,都开始支持MCA特性。通过MCA,系统可以探测硬件错误,如系统总线错误,ECC错误,奇偶校验错误,cache错误,TLB错误等。MCA机制使用到了一组相关的MSR,通过这些MSR,MCA可以对硬件错误进行检测并记录检测到的错误信息。注意这里有一个bank的概念,可以简单理解为组。如bank1里面有MSR1_STATUS, MSR1_CTL, MSR1_ADDR;bank2里面有MSR2_STATUS, MSR2_CTL, MSR2_ADDR;为了方便书写为banks 含有寄存器 MSRi_STATUS, MSRi_CTL, MSRi_ADDR;其中i=0,i=1。后面讲解MSR的时候,还会进行讲解
处理器在探测到 uncorrected machine-check error(硬件不可自修复)的时候,就会发送 machine-check exception (#MC)。这种exception是abort类型的。MCA的实现通常来讲,是不允许在产生#MC后进行可靠的重启。 machine-check-exception的处理函数,可以通过读取相关的MSR来得到相关的错误信息。从Intel 45nm(最新的已经规划10nm门电路的芯片)的芯片开始,处理器在发现 corrected machine-check error(硬件可自修复的错误)的时候,也会发送一个中断给系统软件来响应这类MC 错误,这种中断被称作CMCI( corrected machine-check error interrupt)
在支持MCA和CMCI的Intel 64处理上,还支持一些额外的增强特性,可以让系统软件来恢复一些特性的 uncorrected recoverable machine check 错误(UCR),让服务器得到更大的稳定稳定性
关于特定的芯片兼容性和映射这里就不多讲了,有兴趣的可以参考Intel的SDM
参考文章
Intel UCE和CE,以及register banks的意思
0 0
- Intel MCA 硬件机制概述
- MCA机制:硬件错误检测架构
- intel硬件分页机制
- Intel硬件中断
- Intel Hex概述
- dm6446 硬件概述
- 系统硬件概述学习
- PIXHWAK硬件概述
- 硬件巨头Intel笔试面试题目
- Intel EPT硬件辅助性能评价
- Intel硬件指令加速计算CRC32
- MCA总结稀疏
- 次成分分析MCA
- Opensparc T1概述(硬件)
- ps/2 键盘硬件概述
- Intel IPP 之 视觉计算概述
- Intel MCE CMCI (一) 概述
- Intel MCE CMCI (一) 概述
- Intel处理器中断18 - Machine-Check Exception (#MC)介绍
- 实验室服务器串口配置
- Intel UCE和CE,以及register banks的意思
- Native Linux的MCE基本原理和处理函数入口(基于kernel 4.2.0+ )
- 内核虚拟地址转物理地址的函数
- Intel MCA 硬件机制概述
- MACHINE-CHECK 相关的MSR(一) - 概述
- MACHINE-CHECK 相关的MSR(二) - Machine-Check 全局控制MSR
- 声明 & 推荐博客[置顶]
- 解决C++编译出现的重定义问题:multiple definition of ’XXX‘错误
- Lvs+Keepalived+MySQL Cluster架设高可用负载均衡Mysql集群
- 面向对象设计的基本原则
- 织梦标签大全
- apps被拒绝的各种理由以及翻译