DPDK（10）：报文处理中的指令预取（prefetcht0）

来源：互联网发布：linux中如何删除用户编辑：程序博客网时间：2024/06/05 22:51

在DPDK的例子中报文处理时读取报文内容时添加了指令预取命令（prefetcht0）：

/* * Read packet from RX queues */for (i = 0; i < qconf->n_rx_port; i++) {portid = qconf->rx_port_list[i];nb_rx = rte_eth_rx_burst((uint8_t) portid, 0, pkts_burst, MAX_PKT_BURST);port_statistics[portid].rx += nb_rx;for (j = 0; j < nb_rx; j++) {m = pkts_burst[j];rte_prefetch0(rte_pktmbuf_mtod(m, void *));l2fwd_simple_forward(m, portid);}}

static inline void rte_prefetch0(volatile void *p){asm volatile ("prefetcht0 %[p]" : [p] "+m" (*(volatile char *)p));}

这条指令主要的作用是人为判断下面将要处理的内存，指示CPU加载到缓存中，不过一般需要我们进行实测，向上面这种情况，性能肯定会有提升，一般可以提升10%。

下面是这一系列指令的介绍：转自http://blog.csdn.net/igame/article/details/1752430

和缓存预取有关的指令：

操作码指令 Description

0F 18 /1 PREFETCHT0 m8 预取数据到所有级别的缓存，包括L0。

0F 18 /2 PREFETCHT1 m8 预取数据到除L0外所有级别的缓存。

0F 18 /3 PREFETCHT2 m8 预取数据到除L0和L1外所有级别的缓存。

0F 18 /0 PREFETCHNTA m8 预取数据到非临时缓冲结构中，可以最小化对缓存的污染。

Intel® C++ Compiler的Intrinsic等效方法：

void _mm_prefetch(char *p, int i)

从地址P处预取尺寸为cache line大小的数据缓存，参数i指示预取方式（_MM_HINT_T0, _MM_HINT_T1, _MM_HINT_T2, _MM_HINT_NTA，分别表示不同的预取方式）

如果在CPU操作数据之前，我们就已经将数据主动加载到缓存中，那么就减少了由于缓存不命中，需要从内存取数的情况，这样就可以加速操作，获得性能上提升。使用主动缓存技术来优化内存拷贝，理论上应该能够提高性能，看来值得一试。

注意，CPU对数据操作拥有绝对自由！使用预取指令只是按我们自己的想法对CPU的数据操作进行补充，有可能CPU当前并不需要我们加载到缓存的数据，这样，我们的预取指令可能会带来相反的结果，比如对于多任务系统，有可能我们冲掉了有用的缓存。不过，在多任务系统上，由于线程或进程的切换所花费的时间相对于预取操作来说太长了，简直好象一个世纪，所以可以忽略线程或进程切换对缓存预取的影响。

阅读全文

0 0