寻找更快的内存拷贝方式

来源:互联网 发布:js array的方法和属性 编辑:程序博客网 时间:2024/04/29 23:59

搜到这样一篇文章【http://hi.baidu.com/_kouu/blog/item/c9761112ff2eca0b5baf5342.html】

比memcpy更快的内存拷贝
2009-07-09 22:14

偶然间看到一个叫xmemcpy的工具,用做内存拷贝。号称在拷贝120字节以内时,比glibc提供的memcpy快10倍,并且有实验数据。

这让人感觉很诧异。一直以来都觉得memcpy是很高效的。相比于strcpy等函数的逐字节拷贝,memcpy是按照机器字长逐字进行拷贝的,一个字等于4(32位机)或8(64位机)个字节。CPU存取一个字节和存取一个字一样,都是在一条指令、一个内存周期内完成的。显然,按字拷贝效率更高。

那么,这个xmemcpy是靠什么来实现比memcpy“快10倍”的呢?
看了一下xmemcpy的实现,原来它速度快的根据是:“小内存的拷贝,使用等号直接赋值比memcpy快得多”。
这下就更纳闷了,内存拷贝不就是把一块内存一部分一部分地拷贝到另一块内存去吗?难道逐字拷贝还有性能提升的空间?

写了一段代码:


} 

然后反汇编:


再将libc反汇编,并找到memcpy的实现,以作比较:


原来两者都是通过逐字拷贝来实现的。但是“等号赋值”被编译器翻译成一连串的MOV指令,而memcpy则是一个循环。“等号赋值”比memcpy快,并不是快在拷贝方式上,而是快在程序流程上。
(另外,测试发现,“等号赋值”的长度必须小于等于128,并且是机器字长的倍数,才会被编译成连续MOV形式,否则会被编译成调用memcpy。当然,具体怎么做是编译器决定的。)

而为什么同样是按机器字长拷贝,连续的MOV指令就要比循环MOV快呢?
在循环方式下,每一次MOV过后,需要:1、判断是否拷贝完成;2、跳转以便继续拷贝。
每拷贝一个字长,CPU就需要多执行以上两个动作。

循环除了增加了判断和跳转指令以外,对于CPU处理流水产生的影响也是不可不计的。CPU将指令的执行分为若干个阶段,组成一条指令处理流水线,这样就能实现在一个CPU时钟周期完成一条指令,使得CPU的运算速度得以提升。
指令流水只能按照单一的指令路径来执行,如果出现分支(判断+跳转),流水就没法处理了。
为了缓解分支对于流水的影响,CPU可能会采取一定的分支预测策略。但是分支预测不一定就能成功,如果失败,其损失比不预测还大。

所以,循环还是比较浪费的。如果效率要求很高,很多情况下,我们需要把循环展开(比如在本例中,每次循环拷贝N个字节),以避免判断与跳转占用大量的CPU时间。这算是一种以空间换时间的做法。GCC就有自动将循环展开的编译选项(如:-funroll-loops)。
但是,循环展开也是应该有个度的,并不是越展开越好(即使不考虑对空间的浪费)。因为CPU的快速执行很依赖于cache,如果cache不命中,CPU将浪费不少的时钟周期在等待内存上(内存的速度一般比CPU低一个数量级)。而小段循环结构就比较有利于cache命中,因为重复执行的一段代码很容易被硬件放在cache中,这就是代码局部性带来的好处。而过度的循环展开就打破了代码的局部性,所以xmemcpy一开始就提到拷贝120字节以内。如果要拷贝的字节更多,则全部展开成连续的MOV指令的做法未必会很高效。


综上所述,“等号赋值”之所以比memcpy快,就是因为它省略了CPU对于判断与跳转的处理,消除了分支对CPU流水的影响。而这一切都是通过适度展开内存拷贝的循环来实现的。

 

还有人说 strcpy 比 memcpy 要快

【http://wenda.tianya.cn/wenda/thread?tid=444a79853b705fe2】

memcpy strcpy哪个更快
匿名提问 2008-10-16 11:24:02
很奇怪,strcpy比memcpy快不少,在vc下
strcpy 主要用的是通用算术寄存器EAX,EDX,也是基于机器字长的copy
memcpy 主要用的是EDI,ESI,基于机器字长的copy,而且还有可能使用SSE2加速。
 
我个人开始总觉得应该memcpy快,因为可以成批传送,而strcpy必须检查是否到了串结束。
但是实际测试的结果是,mempcy要慢很多

今天测试一下哪个更快。
原创粉丝点击