APU发展史

来源：互联网发布：java 线程wait 编辑：程序博客网时间：2024/05/22 08:03

信息技术的进步一直遵循着摩尔定律，虽然面临着人们不断的猜测与质疑，但该定律仍旧精确的预计了微处理器(Central Processing Unit，简称CPU)的发展趋势。

　　2010年6月2日，AMD在Computex2010台湾电脑展上展示了历史上第一个APU处理芯片，使得频临极限的摩尔定律再次被证明。AMD通过对图形处理器(Graphic Processing Unit，简称GPU)的研发与升级，从传统的串行处理过渡到并行处理，即从CPU转向GPU，将CPU和GPU合为一体成为APU，从而使得微处理器的性能和处理能力再次提高与革新，实乃另辟蹊径之举。

从CPU到APU

　　台北电脑展上，AMD首次展示了Fusion晶圆，同时还运行了一段实时渲染的游戏视频。AMD产品事业部资深副总裁、总经理Rick Bergman表示，PC今天的架构依然是CPU+GPU的架构，从PC诞生30年来没有改变，只是一直提升规格，只有AMD做出改变，将CPU和GPU充分融合在一起，推出了Fusion系列APU处理芯片。

　　从CPU到APU并非一蹴而就，这是 AMD七年磨一剑、厚积薄发的结果。早在7年前，AMD就产生了将CPU和GPU合而为一的想法，不过当时技术条件还不成熟。而自从三年前成功收购了全球顶级的GPU厂商ATI后，AMD才开始逐步实现Fusion系列APU这一构想。

CPU和GPU融合后的APU能给消费者带来什么

　　首先，这是AMD的一次技术革新，也是整个芯片行业的一次技术革命。把CPU与GPU进行整合，需要整合的不仅仅是架构和兼容性、还包括性能。其次，这是AMD的一次产能革新。通过整合的单芯片，能完成以往高端显卡+CPU才能完成的功效;对消费者来说，整合后的单芯片将实现更小的能耗、更长的电池续航时间，并达到更强的处理效果。最后，这是AMD第一次在图文应用领域的革新。Fusion系列APU，将运算与图形处理整合在一块芯片内，针对目前应用环境中大量出现的视觉与数据密集操作，可以有效提升我们PC的处理速度。

不仅是笔记本而已

　　对于今天的中国PC市场来说，台式机方兴未艾，笔记本市场如日中天，而平板电脑蓄势待发。AMD此次首度公开展示AMD Fusion APU，加上已经取得多家厂商的支持的VISION技术，表面来看，这都说明AMD意图进军笔记本市场，而AMD的野心，远远不是笔记本这么简单。

　　AMD总裁兼首席执行官梅德克在接受媒体专访时表示：“AMD在各种不同的价格都提供最好的价值，所以不管是在笔记本或是台式电脑或者是数据中心来讲都是如此，我们也相信未来在整个视觉的体验上所提供给使用者的一定是优于我们的竞争对手。”

　　对于笔记本市场来说，AMD所占的市场份额相对比较低，只有12%。相对于其台式机的市场占有率28%而言还有很大的提升空间。因此，AMD在笔记本领域的发力与发展都是大势所趋，而新的APU技术和新的VISION更使得AMD如虎添翼，在笔记本市场的发展速度将数倍于其台式机。

　　另外，AMD更看重视觉体验。通俗的讲，APU能够让用户在处理数据的时候同时处理图形，对于制图用户和游戏用户来说实在是不二之选。APU赢下的不仅仅是笔记本市场，还有图形、游戏两大PC消费群体。

　　而最容易让人们忽视的，是AMD在企业层面的运作。首先，与英特尔达成和解，关于反垄断的诉讼已经避免;其次，转型为无晶圆厂的模式， Global Foundries作为友好的合作伙伴进行代工;最后，还是回到2006年AMD对ATI的收购，此次收购不仅是技术的重构，也是AMD公司在梅德克的带领下，进行公司架构、产品部门的重构，这次重构使得ADM更加重视笔记本市场，更加重视中国市场，同时也是对AMD发展理念的革新：将CPU与GPU融合为APU，为用户带来更好体验。

　　梅德克说：“现在所有人在使用个人电脑的时候，他们想要的或者他们需要的其实是一个更好的体验，然后是一个逼真的栩栩如生的体验，强调的是一个界面，也强调的是绘图能力GPU的能力，当然GPU的技术要搭配好的CPU，所以最终能给消费者非常好的身临其境的体验。”

　　AMD在历史上已经取得数次技术上的领先，赢得了无数称号和记录;而在用户体验至上的理念驱使下，AMD最终会赢得市场的回报。

　　说白了，用户体验才是王道。

==================================================

　APU，即“Accelerated Processing Units”以为加速处理单元，或加速处理器。APU是融聚了CPU（中央处理器）与GPU（图形处理器）功能的产品，将电脑上两个最重要的处理器融合，能够相互补足，发挥最大性能。APU的特性在于给用户带来更好的性价比，卓越的1080P高清视频播放体验和更具创新的小尺寸设计。

APU的发展简史　　

　　2006 年11月，Nvidia推出GeFce 8800 GPU；2007年5月，AMD发布了Radeon HD 2000系列GPU产品。这两款产品都采用了统一渲染结构，使GPU的运算单元变得通用。

　　2009年1月AMD展出了笔记本电脑平台“Yucon”。Yukon把微处理器和图形处理器集成在一个芯片中，充分利用了图形处理器的运算功能。

　　2009年下半年英特尔宣布，其Westmere将CPU内核芯片与存储器控制器电路及绘图处理电路芯片封装在了一起。

　　AMD公司2009年10月公布新一代支持微软 DirectX 11图像标准的图形处理器GPU。

　　AMD宣布其首款集成CPU和GPU的加速处理器APU将于2011年问世。

　　2009年12月英特尔宣布，其集成GPU和CPU的Larrrabee处理器将推迟至2011年发布。

　　Intel举起Sy Bridge大旗，AMD杀出Fusion APU先锋，2011年的融合处理器之战宣告开始。

APU的结构性能　

　　目前上市的APU数量很少，以AMD最新推出的APU“AMD Fusion”为例：AMD Fusion是AMD与ATi合并后推出的一项新产品的产品代号，它结合了现时的处理器和绘图核心，在处理器进行图像和三维（3D）运算。AMD Fusion的硅芯片上有两个独立的核心，一个负责处理器，另一个负责绘图核心，两个核心而不是融合在一起。处理器有自己独立的缓冲存储器，绘图核心部分同样如此。两个核心会通过CrossBar互相连接。此外，Fusion亦会集成存储器控制器。Fusion中的各个组件之间使用HyperTranspt连接，使各个组件连接成一个整体。处理器和绘图核心可以直接访问存储器，但绘图核心没有独立的显示存储器。南桥不会集成在Fusion芯片中。

　　此技术亦可使笔记本电脑更节省电量。例如一部笔记本电脑配置了Fusion处理器和独立显卡。当流动使用时，独立显示卡会被关闭，只使用Fusion处理器内的显示核心，以节省电量。当接驳了外置式电源时，独立显示卡会被打开，提供更强大的显示性能。

　　纵使处理器和绘图核心二合为一，但独立显示卡不会就此中止，因为高端用户和物理计算仍然依赖独立显示卡的强大运算性能。

APU的优势　　

　　CPU和GPU各有所长。一般而言，CPU擅长处理不规则数据结构和不可预测的存取模式，以及递归算法、分支密集型代码和单线程程序。这类程序任务拥有复杂的指令调度、循环、分支、逻辑判断以及执行等步骤。例如，操作系统、文字处理、交互性应用的除错、通用计算、系统控制和虚拟化技术等系统软件和通用应用程序等等。而GPU擅于处理规则数据结构和可预测存取模式。例如，光影处理、3D 坐标变换、油气勘探、金融分析、医疗成像、有限元、基因分析和地理信息系统以及科学计算等方面的应用。

　　尽管在不少方面GPU表现优异，但在一段时间内，还会维持CPU与GPU各自发展的态势，它们可以继续在各自擅长的领域发挥作用，而未来的演进方向是相互取长补短，走向融合。从CPU角度来讲，为了提高处理能力，以前是多线程，目前是多核，将来的发展方向是众核。CPU正向不断增加吞吐量和提高能效性的方向发展；而从GPU角度来讲，其可编程性能本来是在芯片内部固化的程序，然后发展到局部可编程, 最后是完全可编程。也就是说，GPU是在提高所处理的吞吐量的同时，向通用处理的方向发展。

　　今后，CPU+GPU的异构计算结构将引领处理器的发展方向，这也成为下一代超级计算的发展方向。目前设计GPU+CPU架构平台的指导思想是：让CPU的更多资源用于缓存，GPU的更多资源用于数据计算。把两者放在一起，不但可以减小在传输带宽上的花销，还可以让CPU和GPU这两个PC中运算速度最快的部件互为帮衬。其原因是，CPU中的运算器通常只有几个ALU，而GPU中的ALU则比CPU的数目多很多。另外，CPU中高速缓存相对比较多，而GPU中的高速缓存则比CPU少很多。必要的时候，CPU可以帮助GPU分担一部分软件渲染工作，另一方面GPU可以使用主流编程语言来处理通用计算问题。这就相当于CPU多了一个强大的浮点运算部件，而GPU多了一个像素处理单元。

GPU向APU改进的思考　　

用GPU处理非图形运算

　　多核处理器早已成为业界的主流。但是，4核的同构处理器并不一定能发挥4倍的性能。以目前Intel功能最强的Ce i7处理器为例，其结构方面相比上代Ce 2 Quad发生了天翻地覆的变化：引入三级缓存、高速QPI总线、三通道DDR3内存控制器、超线程技术和诸多内核及指令集优化等; 然而测试表明，这些技术共同作用的结果是：同频率下i7 965的综合性能比上代QX9770仅提升约20%，很难再有单核Pentium D到双核Ce 2 Duo那种飞跃式提升。另外，将AMD的Phenom II处理器与Phenom处理器相比，其性能的提升主要缘于45nm工艺带来的高频率，其中核心结构优化的贡献仅占5%。

　　不久前美国Sia国家实验室的一项模拟测试结果表明:对于超级计算机而言，由于受存储机制和内存带宽的制约，8核之后的16核、32核以至于64核通用处理器可能会引起效率的大幅度下降。这说明，多核处理器核的数目并不能无限制地增加。另外，有消息说，美国Sun公司未能如期开发出16核处理器，除受并购因素影响外，也有这方面的原因。

　　在这种情况下，图形处理器GPU异军突起。过去在处理图形渲染时，根据表达三维空间的三角形数量或在三角形着色时纹理清晰度的不同，各级处理的负载将会发生变化。在传统结构中，由于各级处理的运算单元数量是事先决定的，因此，在负载发生变化的情况下，固定的运算单元数量会成为阻碍系统整体处理能力提高的瓶颈。

　　近年来，研究人员对图形指令结构进行了深入研究。它们发现标量数据流所占比例正在逐年提升，如果还是坚持SIMD(单指令多数据流)的设计会让效率下降。早期的GPU，针对图形处理的关键计算将处理单元分为顶点着色器、光栅化引擎、纹理贴图单元等不同部分，分别完成不同的计算任务。而新一代GPU推出了统一渲染结构，统一的计算单元取代了上述的不同单元。这种结构集成了多个支持顶点坐标计算及三角形着色等多级处理的运算单元，各运算单元的任务可以根据各级处理的负载进行调整。该统一的计算单元被称为统一标量着色器，也被称做流处理器。每个流处理器只完成一维标量的操作。

　　为此，研究人员对 GPU做出变革：流处理器不再针对矢量设计，而是改成标量ALU（算术逻辑运算器）单元。也就是说，把GPU的Shader(着色器)单元内部的运算器ALU完全拆散，设计成为各自独立的流处理器，并分配相应的指令发射端和控制单元。这样的结构在面对任何形式的指令(包括组合指令)时，都能保证最高的执行效率。即这种结构不仅拥有很强的图形处理能力，而且能够处理非图形运算指令。

　　新结构的出现带动了在以浮点运算为中心的通用处理中使用GPU的研究。理论上来讲，只要是浮点运算指令都可以交给GPU来处理。为了把GPU改造成为真正的通用处理器，研究人员在大规模扩充流处理器数量的同时，也对内核结构进行了优化与改进，使其更适合进行超大规模的并行数据处理。

GPU不断进步

　　2006 年11月，Nvidia公司推出基于G80结构的GeFce 8800 GPU。接着，2007年5月，AMD公司发布了Radeon HD 2000系列GPU产品。这两款产品都采用了统一渲染结构。这种结构使GPU的运算单元变得通用，并可以根据图形渲染处理的负载，灵活地改变运算单元的任务。

　　在传统结构中，由于各级处理的运算单元数量是事先决定的，因此，在负载发生变化的情况下，固定的运算单元数目会成为阻碍系统整体处理能力提高的瓶颈。统一渲染结构的出现使得在以浮点运算为中心的通用处理中也可以使用GPU。采用这种结构后，GPU运算单元可在每次处理时读入指令和数据，使其通用性得到了提高。因而，可以说GPU提高了计算机的浮点运算指令的执行速度。

　　2008年美国克莱公司推出企业级电脑CX1，使用了Tesla C1060主板。由于该主板有图形处理器GPU，因而显着地提高了CX1超级电脑的运行速度。源于此，GPU也被称为“电脑加速器”。对于浮点运算，GPU使用专门的运算器，能够高速地进行并行处理，从而提高计算速度。以日本东京工业大学为例，2008年10月，它们采用170个C1070处理器后，将其超级电脑T SUBAME的系统综合运行速度从每秒67兆次提高至每秒77兆次。正因为如此，有人将GPU处理器称为加速处理器。

　　不过， GPU目前面对的问题是，只能读取它专用的存储器，不能读取电脑主存储器。GPU处理器将需要的数据复制到供GPU使用的存储器中，并调用在GPU中执行的函数；此后，GPU根据处理器的指令对互相独立的数据使用多个内核进行并行处理; 最后，处理器会从GPU所使用的存储器中获得处理结果。正因为此，在某些情况下，GPU不能充分发挥其浮点运算速度极快的优点。