ARM9五级流水线
来源:互联网 发布:cinema 4d mac 下载 编辑:程序博客网 时间:2024/04/29 20:58
Arm9的流水线分为:取值,译码,执行,仿存,回写
取值
从指令存储器取指令
译码
读取寄存器操作数
执行
产生ALU运算结果或产生存储器地址
仿存
访问数据存储器
回写
完成结果写寄存器
五级流水线技术的问题:如果当前指令(A) 的目的操作数寄存器(也就是写寄存器的操作)和下一条指令(B) 的源操作数寄存器(也就是度寄存器的操作)一致,B 指令就需要等A 回写之后才能译码。这就是五级流水线中的寄存器冲突,所以应该避免写这一种程序。为了解决这个问题,就采用了互锁。来解决这个问题。如图所示:
由于指令LDR的目的地址和他的下一条指令的源地址都是R9,第一条指令对R9的写要发生在回写阶段,也只有第一条指令会写后第二条指令才能进行译码。所以会产生上述的情况。
通常采用的解决的办法是改变程序的顺序就可以了。
例如:现在要实现的是:把0x00001000和0x00002000处的内容放到地址是0x00008000和0x00009000的位置。
其中0x00001000里面的内容是: H E L L O W O R L D
实现的过程是:
全部拷贝过程由两个结构相同的循环各自独立完成,分别实现两块数据的拷贝,并且两个拷贝过程极为类似,分析其中一个即可。
T1~ T3 是3 个单独的时钟周期; T4 ~ T11 是一个循环,在时空图中描述了第一次循环的执行情况。在T12 的时候写LR 的同时,开始对循环的第一条语句进行取指,所以总的流水线周期数为3 + 10 ×10 + 2 ×9 = 121 。整个拷贝过程需要121 ×2 + 2 = 244 个时钟周期完成。考虑到通过减少流水线的冲突可以提高流水线的执行效率,而流水线的冲突主要来自寄存器冲突和分支指令,因此对代码作如下两方面调整:
①将两个循环合并成一个循环能够充分减少循环跳转的次数,减少跳转带来的流水线停滞;
②调整代码的顺序,将带有与临近指令不相关的寄存器插到带有相关寄存器的指令之间,能够充分地避免寄存器冲突导致的流水线阻塞
对代码调整和流水线的时空图如图所示
。
调整之后, T1 ~ T5 是5 个单独的时钟周期, T6~ T13是一个循环,同样在T14的时候BNE 指令在写LR 的同时,循环的第一条指令开始取指,所以总的指令周期数为5 + 10 ×10 + 2 ×9 + 2= 125 。
通过两段代码的比较可看出:调整之前整个拷贝过程总共使用了244 个时钟周期,调整了循环内指令的顺序后,总共使用了125 个时钟周期就完成了同样的工作,时钟周期减少了119 个,缩短了119/ 244 = 48. 8 % ,效率提升十分明显。
因此流水线的优化问题主要应从两方面考虑:
①通过合并循环等方式减少分支指令的个数,从而减少流水线的浪费;
②通过交换指令的顺序,避免寄存器冲突造成的流水线停滞。
- ARM9五级流水线
- ARM9五级流水线 .
- ARM9五级流水线
- Arm汇编学习笔记(七)——ARM9五级流水及流水线互锁
- 五级流水线CPU
- MIPS 五级流水线
- ARM9流水线(转)
- cpu五级流水线基础设计
- 五级经典流水线执行 时间统计
- ARM9流水线PC=PC+8
- 数字电路设计之五级流水线设计(CPU)
- 数字电路设计之五级流水线设计(CPU)
- cpu五级流水线设计优化之低功耗
- CPU五级流水线工程(带Hazard)
- 五级流水线CPU之低功耗设计(1)——旁路(By Passing)
- 五级流水线CPU之低功耗设计(2)——门控(CLOCK GATE)
- 五级流水线CPU之低功耗设计 (一) :Bypassing(旁路)
- 五级流水线CPU之低功耗设计 (二) :Clock Gating(门控)
- 易算数学公式计算器介绍
- 第7章 内部通讯录
- JavaScript 中使用 replace 达到 replaceAll的效果
- 第16章 修改密码
- 如何保证同时只有一个程序在系统中运行
- ARM9五级流水线
- 朝花夕拾:桂林电子工业学院东校区 建筑道路命名征集表
- 电信行业搜索应用概述
- 拿起你的武器
- JavaScript_String对象
- 第15章 关于本软件
- JavaScript写XML
- 第18章 退出系统
- UNIX/LINUX 平台可执行文件格式分析