多线程程序问题分析小结

来源：互联网发布：ableton live mac下载编辑：程序博客网时间：2024/06/06 02:43

多线程程序问题分析小结

程序的核心是逻辑，没有正确逻辑的代码算不上是程序。人脑是物理上的单核，写程序和看代码讲求一个流程，流程其实就是单核顺序执行的过程。怎么保证单核顺序的人脑写出来的多线程程序，在物理上的多核CPU上执行正确的逻辑呢？答案是根本保证不了。多线程程序运行起来就像是开跑的赛马场，谁先跑完，谁会落后，完全无法预测；有时候相互踩踏在所难免。代码里到处充斥锁和共享的内存片段，过多的随机分支和状态导致全路径覆盖的测试case几乎是不可能的。所以多线程程序最痛苦的就是运行中爆出了core，发生了逻辑中认为不可能的事情，而你要在短时间内将其重现，定位，修复，验证。

重现 &&定位

这是最耗时间的一步，也是最重要的，而且重现和定位是不分先后的。多线程的问题最常见的现象就是发生了不该发生的事情，线程之间产生了冲突，其中一个 assert 掉了。当你听到一个码农在调试程序的时候在嘟囔：“不能够啊，这不科学。”，他一定是在定位多线程的问题。所以第一步是找到矛盾的冲突点，基于此来做进一步的分析。

１. 内存状态在线程间不一致：

图1

看图1 左边的情况：116行判断如果mem->hash_del为false，就分配entry，如果116行分配了entry，118行就不应该判断为true。但多线程环境就会跑出116行和118行同时为true的情况，因为mem是多线程可见的内存区，在thread1 执行116行和118行之间，thread2会执行mem->hash_del = 1; 这条语句，这样就导致了前后状态不一致，出现逻辑错误。

这种情况的另一个版本：

图2

图2 左边的线程在使用mem->old_mem指针在给mem_obj和first_mem赋值，但右边的线程却执行了mem->old_mem = NULL; 这一行，所以结果就是，左边的mem_obj是mem->old_mem的指针，而first_mem却是NULL，但在程序中这两个值应该是一样的。这种问题不会core在当前位置，但后续左边的thread一旦对first_mem的指针解引用，就会出现大家熟悉的“Segmentation fault”。

对于内存状态不一致引起的多线程问题，正确的作法应该是图1右边的写法：先将mem->hash_del读到一个局部变量里面，然后再根据hash_del当前的状态执行逻辑。

2. 线程间锁竞争

这种情况是最复杂，也是最容易出错的地方。只能说一句，哪个线程先抢到锁完全随机，每个情况都要考虑到，否则逻辑就会跑到没有处理的空白区域。

图3

图3是左边是对hash table的对象做delete操作，右边是对hash table做lookup操作，如果thread1判断对象不可用，应该delete，然后新建对象，加入到hash table，让后续的请求都lookup新的对象，但总会有请求在thread1执行delete之前，就在另一个thread2中lookup到了该对象，所以请求访问到过期对象的情况一定要处理。

复杂场景，一个流程里面多次申请和释放锁：