x86和arm对于锁实现的差异
来源:互联网 发布:网络发帖推广 编辑:程序博客网 时间:2024/05/16 11:07
最近把一个分布式存储的application从x86移植到aarch64上,经过一大坨编译问题的改动,及一些汇编指令的修改,已经能够正常跑job了(这里已经解决syscall number不一致, page size64k等问题)。但是在测试terasort的时候,跑100G任务没问题,跑1T的任务会出现进程coredump的问题, gdb的发现a=b->c 类似这句话出错,出错的原因是b的不对,要么是0要么是一个非常大的值。
分析代码发现,这个b是从一个list里面取出来的。然后list add是在另外一个线程中操作的,所以直觉是锁不对。然后查看application代码,发现自己实现了一个所谓spinlock的东西,就是类似cmpxchg的东西,循环判断是否执行成功。这里我们已经把cmpxchg替换成gcc builtin的函数,通过汇编看到是ldaxr xx, stlxr。ldaxr 就是Load-acquire exclusive register,stlxr是store-release, 查看arm手册,理解这个是可以对应到x86的spin lock实现
开始怀疑是因为x86里面的store buffer刷新机制跟arm不一样,因为x86里面memory barrier跟 store buffer,集成在一起,mfence类指令,既可以保证顺序也可以保证store buffer,但是arm里面是有两个指令,dmb, dsb, 前者只保证memory barrier, 后者保证pipeline之类的被刷干净。但是仔细一想,如果是因为store buffer的问题,顶多是出现锁拿不到,多等一会儿,不至于出错。
后面再仔细看了下spinlock的实现,关键在于spin_unlock里面。他的实现是asm{":::memory"}, lock=0之类的写法。这个在x86的架构上是没有问题的,因为x86保证写不会乱序,所以lock=0,不会再unlock之前调用。但是在arm里面,写是可以乱序,所以lock=0,可能在unlock之间的保护区代码中间执行。经过测试发现,把memory修改为dmb ish:::memory之后,不在出现coredump
- x86和arm对于锁实现的差异
- [转载]X86和ARM架构的处理器能效差异为什么会这么大?
- ARM和x86的区别
- ARM和x86的区别
- X86和ARM的区别
- 细说ARM和X86的江湖恩怨
- 平板电脑的ARM和X86架构
- X86和ARM的内存安排
- x86 和 arm 的函数调用规则
- [转] ARM 和 X86 的区别
- x86实现ARM CLZ。。。
- x86和ARM处理器
- ARM和x86比较
- Spinlock在ARM及X86平台上的实现
- Spinlock在ARM及X86平台上的实现
- qwt的x86平台和arm平台的移植。
- qwt的x86平台和arm平台的移植
- ARM中的char和X86的char的不同点
- 玩转iOS开发 - 多线程开发
- Horizontal---ProgressBar
- Python基础:17类和实例之一
- <c:forEach varStatus="status">中 varStatus的属性简介
- Java-归并排序
- x86和arm对于锁实现的差异
- runtime之forwardInvocation
- mybatis多长查询缓存问题
- python去除matlab文件中的空行
- Shader Model知识点
- webview与如何利用DisplayMetrics获取屏幕高度和宽度
- vector操作
- file_put_contents之用途
- 新建一个android项目,同时出现appcompat_v7项目。