begin

来源:互联网 发布:淘宝店铺如何上传图片 编辑:程序博客网 时间:2024/06/10 19:07

参考 [1] http://blog.csdn.net/stn_lcd/article/details/77483224
[2] http://blog.csdn.net/stn_lcd/article/details/77374468

计划 maxpool, slice用 指令实现

armv7 16个128位寄存器

1. 数据类型命名

type size xnum_t

  • type: float,int,uint
  • size:float- 32, int,uint - 8,16,32,64
  • num: size x num = 64/128

example: uint16x8_t,float32x4_t

2. 函数命名

v op_type
- op: 操作 add,dup,mul,mla
- dt:
- type: u8,u19,f32,s8(int8),s16(int16),s32
example: vmal_f32,vmlaq_f32,vmlal_u32,vaddw_s32,vmovn_u64,
3. 的

3. 例子

1. 初始值

float temp[4]={0.f};float32x4_t temp=vdupq_n_f32(0.f);

_n: 因为 源数据有标量(0.f), 目标数据是向量
q: 因为目标数据32x4=128

2. 拷贝数组数据

float A_copy[4]=A[i:i+4]float32x4_t data=vld1q_f32(A+i);int B_copy[4]=B[i:i+4];int32x4_t data=vld1q_s32(B+i);

ld1 : load one vector
q : 32x4=128 (f32,s32)

3. 加乘

// addout=vaddq_s32(src1,src2);// cfor i in range(4) temp[i]+=(data1[i]*data2[i])// neontemp=vmlaq_f32(temp,data1,data2)

4. gemm

这里写图片描述

算数操作 ===========================add,submax,minmul 乘, mla 乘加, mls 乘减neg 负数abs 绝对值比较操作 ===========================c表示 compareceq   = (equal)cge  >= (greater equal)cage ||>= (absolute value >=)cle  <= (less equal)cale逻辑运算 =====================andorr  (or)加载储存操作 ========================ld1   从内存加载数据到1个向量中 (load ->ld)ld2   从内存加载数据到2个向量中ld3   从内存加载数据到3个向量中ld4   从内存加载数据到4个向量中特殊操作 ==========================dup 复制值