Illegal Instruction小谈

来源:互联网 发布:2016中国网络广告公司 编辑:程序博客网 时间:2024/05/16 23:51

现象描述:

项目开发过程中,遇到一次开服宕机的现象,GDB查看core文件的堆栈很奇怪,F0层为:

mMonsterSpeTabble[idx]=(float)pow(1.3,idx)
外层是一个循环语句,idx从1循环到50
print变量idx为0,数组大小为50,也不会越界,只能猜想是pow函数出错.于是用gdb重新打开并执行程序,下断点单步调试,发现执行到这一句之后,程序奔溃,抛出SIGILL异常,并伴有"illegal instruction"的提示

原因解释:

google了一下这个异常信号量,发现是与CPU指令集有关.从名字上看,SIGILL是启动的某个进程中的某一句不能被CPU识别成正确的指令.此类错误是由操作系统发送给进程的,在进程试图执行一些形式错误、未知或者特权指令时操作系统会使用SIGILL信号终止程序。 SIGILL对应的常数是4.联想到最近正好有同事在修改编译选项,经过询问,果然是因为这个原因.在编译的时候加入了avx(高级向量扩展指令集)选项,而运行程序的VMware虚拟机版本太低,没有支持这项虚拟化的CPU指令,所以运行到pow函数的时候,操作系统就发出中断信号了


扩展:

造成SIGILL的原因

1 将不正确的数据写入代码段
进程在代码段中的数据是要被作为一个指令执行的。 若不小心覆盖了已有的代码段,可能会得到错误格式的指令。 这种错误尤其在Just-In-Time即时编译器中最可能出现。

同样,如果不小心覆盖了栈上活跃记录中的返回地址,程序就可能根据这个错误地址,执行没有意义的内存中的数据,进而操作。

进一步可以认为,任何导致数据错误的问题都可能带来illegal instruction问题。比如硬盘发生故障。

2 指令集的演进
比如SIMD指令,自从奔腾4开始有MMX,X86的芯片就开始不停的增加和拓宽SIMD支持,SSE、SSE2、SSE3、SSE42、AVX、AVX2。 默认情况下,很多编译器都在O2或者O3中开了自动向量化,这就导致很多在新体系结构中编译的可执行程序,在老机器上运行时会有illegal instruction问题。

3 工具链bug
对于普通C语言通过编译器生成的可执行程序。一般都已经通过严格的测试,不会随便发生这种问题。 所以如果你遇到这种错,并且试过了静态链,而且程序中没有嵌入式汇编,基本可以断定是工具链出了问题。 编译器?汇编器或者链接器。

4 访存对齐或浮点数格式问题
根据经验,请注意出现错误的指令可能和访存地址指令有关。 另外,浮点数的格式是否符合IEEE的标准也可能会有影响。

错误排查指南
程序中有没有特权指令、或者访问特权寄存器
有没有将在较新CPU上编译得到的可执行文件拿到老CPU上运行
程序中有没有嵌入式汇编,先检查。
一般编译器很少会生成有这种问题的代码
X86平台上要尤其注意64位汇编指令和32位汇编指令的混用问题
程序有在进程代码段空间写数据的机会吗?
栈操作够安全吗?
注意程序的ABI是否正确
尤其是动态链和静态链是否处理的正确,尽量避免动态链的可执行文件调用错误库的问题(ARM的EABI,MIPS的N32/O32/N64都很可能出这种问题)
用的工具链靠谱吗?


参考链接:

点击打开链接

原创粉丝点击