AVX 指令集架构简介

来源：互联网发布：java 字符串比较编辑：程序博客网时间：2024/04/29 18:40

AVX 指令集架构的改进和增强的功能：

128 位 SIMD 寄存器 xmm0 - xmm15 扩展为 256 位的 ymm0 - ymm15 寄存器
支持 256 位的矢量运算，由原来 128 位扩展为 256 位
指令可支持最多 4 个操作数，实现目标操作数无需损毁原来的内容
引进新的 AVX 指令，非 Legacy SSE 指令移植
新增 FMA 指令子集
引进新的指令编码模式，使用 VEX prefix 来设计指令编码

AVX 提供了一个子集：

FMA 指令集

FMA 指令集进行 fused multiply-add/subtract 类运算，用式子表达为：

± (a * b) ± c

4.1 256 位的 SIMD 寄存器

在 AVX 架构中原 Legacy SSE 指令使用的 128 位 SIMD 寄存器扩展为 256 位，xmm0 - xmm15 相应地扩展为 ymm0 - ymm15 它们使用同一个编码：

xmm 寄存器是 ymm 寄存器的低 128 位，它们的关系就好像是在通用寄存器的 eax 寄存器是 rax 寄存器的低 32 位，在 64 位模式下修改 32 位的寄存器会使 64 位寄存器高 32 位清 0

对于 AVX 指令来说有同样的行为，如下所示：

addss xmm1, xmmword ptr [rax] ; Legacy SEE 指令：结果 ymm1 高 128 位不变

vaddss xmm1, xmmword ptr [rax] ; AVX 指令：ymm1 高 128 位清 0

在 AVX 指令中改变 xmm 寄存器的值结果会使相应的 ymm 寄存器高 128 位清 0，这种行为使得 SSE 指令与 AVX 指令变得不一致，因此在 AVX 代码中混合 SSE 代码时，Intel 建议调用 SSE 代码子例程前清 ymm 寄存器的高 128 位以避免性能损失。AVX 指令提供两条指令执行：

vzeroupper ; 清所有 ymmm 寄存器的高 128 位

vzeroall ; 所有的 ymm 寄存器清为 0

4.2 AVX 指令集的功能

AVX 指令集提供了一系列的 floating-point（浮点）处理指令和 integer（整数）处理指令：

提供的浮点处理指令，包括：
- 两种宽度的 arithmetic（运算）类指令：
  - 256 位宽度的 vector（矢量）运算
  - 128 位宽度的 vector 与 scalar（标量）运算
- 两种宽度的 non-arithmetic（非运算）类指令：
  - 256 位 non-arithmetic 类 vector 操作指令
  - 128 位 non-arithmetic 类 vector 与 scalar 操作指令
- AVX 新增的 non-arithmetic 类指令：这些指令是 AVX 独有的新引进的指令，不存在对应的 SSE 版本
整数处理指令包括：
- 128 位的 packed integer 运算指令
- 128 位的 packed integer 处理指令

除了新增的 AVX 指令外，其余的指令都是从原有的 SSE 指令移值或扩展而来，这些 AVX 指令有对应的 SSE 版本。