智慧云中的FPGA

来源：互联网发布：阿里云地域选择湖北编辑：程序博客网时间：2024/04/23 20:34

人工智能大热之前，Cloud或Data Center已经开始使用FPGA做各种加速了。而随着Deep Learning的爆发，这种需求越来越强劲。本文主要讨论Cloud巨头Amazon和Microsoft的FPGA策略。

在Microsoft Build 2017大会上，微软Azure云计算平台CTO Mark Russinovich做了一个名为 “Inside Microsoft’s FPGA-Based Configurable Cloud”的演讲，介绍了Azure平台中使用FPGA的情况（大家可以点击文末的阅读原文收看视频）；另外，在Amazon的“Amazon EC2 F1 Instances”网站，有一个Webinar视频，介绍AWS的FPGA服务。本文将结合这两个讲座展开讨论，以下分别简称MS和AWS。

智能云对数据处理的需求

从需求层面来看，云端智能对数据处理有了更高的要求，体现在巨大的规模，低时延和高吞吐率几个方面。而从这几个角度来说，FPGA都有自己独特的优势。

AWS在云端部署FPGA所针对的应用主要包括：Real Time Video Processing，Financial Analysis， Genomic Research， Big Data Search and Analytics， and Seurity。这里虽然没有专门提到AI和Deep Learning，但这些应用实际上也都和AI技术有关。而他们预期实现的目标如下：

AWS给出了另外一个视角的比较，CPU为了实现最大的灵活和通用，芯片中的很大一部分芯片面积用来提供控制功能（也包括复杂的存储架构，比如Cache）；而在GPU当中，用作运算的芯片面积比例大大提高，能够支持大规模的并行处理；而到了FPGA，已经没有预先定义的指令集概念，也没有确定的数据位宽。这些你都可以根据应用来自己设计。你可以设计一个只支持几条指令的处理器；也可以只设计数据通道和简单的控制逻辑，根本不用指令。

下图来自MS的讲座，对比了CPU和FPGA进行数据处理的特点。

CPU可以看作是一种时间计算模型，指令顺序进入，每条指令处理一定的数据。FPGA可以看作是空间计算模型，大量数据可以并行的进行处理。Deep Learning的处理，比如CNN的卷积运算，就是非常适合空间计算模型的例子。这一点我在之前的文章“深度神经网络的模型·硬件联合优化”中已有介绍。下面我们具体看看FPGA的内部结构。

此外，一般FPGA中还提供片上Memory模块（Block RAM，UltraRAM），各种高速接口，IP和很多辅助电路。根据应用需求不同，有的型号的FPGA本身也是一个SoC，还集成了处理器核（比如ARM），甚至视频编解码等功能。

下表中列出的Xilinx Virtex UltraScale+ FPGA系列的具体参数。后面要介绍的AWS F1 instance用的就是VU9P。

在这里，我们观察CLB Flip-Flops，CLB LUT和DSP Slices的数量，以及memory的数量，基本就可以了解该FPGA的规模，也就是在这个FPGA上可以实现多大规模的数字电路。

在云端部署FPGA

首先，作为加速功能，FPGA需要配合Host CPU来工作。比如在下图中，一个应用中有一个滤波器功能，需要大量的运算，比较合适放到FPGA来处理；而其它部分功能，主要和控制相关，则放在CPU来运行。

在一块Catapult V2的板卡上，有一颗Altera Stratix FPGA和本地的DRAM，这块卡上有三个和外部连接的接口，一个PCIe，两个QSFP。这种架构中，FPGA和WCS Server Blade的连接非常灵活，同时也支持很大的吞吐率。FPGA可以支持对网络应用（从NIC到Switch的channel），存储应用（CPU到Switch的channel）以及运算应用（CPU和FPGA）的加速。而这种架构也具有高度的伸缩性，如下图所示。

连接在一起的FPGA可以构成一个独立的运算层。多个FPGA可以组合在一起实现不同的加速功能，比如Deep neural network，Web search ranking，SQL，SDN offload等等。

MS还提出一个HW Microservices的概念：“A hardware-only self-contained service that can be distributed and accessed from across the datacenter compute fabric”。使用这个Microservices有如下优势：

总的来说，就是有更多的灵活性，可以更有效的分享和利用FPGA资源。而针对DNN应用，MS也提出了一个专门的架构。首先，在FPGA上提供DNN Engine，包括了Neural FU（数据通道）和Instruction Decoder&control（控制面功能）。而多个FPGA可以部署为一个大规模的HW microservices，实现分布式处理。

而相应的，MS正在研发一套“编译”工具，可以把在常见的Deep Learning Framework中训练好的model自动部署到一个或多个FPGA（也包括GPU，CPU）中。

不过，这些看起来不错的设计和功能我们现在还用不了，只能等MS准备好公开发布的时候才能使用。所以，Mark Russinovich最后说，“We look forward to eventually making this available to you, a major step toward democratizing AI with the power of FPGA”。希望这个时间不会太远吧。

AWS F1 Instance

相对而言，AWS的FPGA云服务离我们更近。它的规格如下图所示：

其中f1.16xlarge由8个FPGA组成，配合64个vCPUs，接近1T的Memory，规模相当大。其中每个FPGA连接4个DDR。FPGA之间则有两种互连方式，第一种是FPGA Link，这是一种双向环状连接，用于支持Streaming方式串联多个FPGA的应用；另一种是FPGA Direct，这是点到点的PCIe链路，可以从一个FPGA连接到任意一个其它FPGA。另外，为了简化FPGA I/O的设计，AWS还提出FPGA Shell的概念。如下图所示：

这里Shell的概念我看的不是很清楚，感觉就是把FPGA的I/O封装起来了。

FPGA的内部逻辑通过AXI4接口和Shell连接，Shell提供对外的PCIe和一个DDR接口；而前面提到的FPGA Link（FPGA间互连）和其它三个DDR接口好像还是在Core Logic中的。如果我看的不对，还请指正。

AWS F1的开发流程和使用的工具如下图所示：

规格族特点：

采用 INTEL ARRIA 10 GX 1150 计算卡
CPU 和 Memory 配比为 1:7.5
处理器：2.5 GHz 主频的 Intel Xeon E5-2682 v4 (Broadwell)
高性能本地 SSD 盘存储
实例网络性能与计算规格对应（规格越高网络性能强）
适用场景：

适用于深度学习推理
基因组学研究、金融分析
实时视频处理及安全等计算工作负载

其工具链使用Altera FPGA自家的工具，方法和AWS类似。而腾讯云公开的信息比较少，这里就不再讨论了。

总结

本文简单分析了一下Amazon和Microsoft在Cloud中使用FPGA加速的实现方法。相比Google的TPU（ASIC）针对Deep Learning的设计，FPGA虽然在效率上有差距，但在灵活性方面有自己的优势。不管是在AWS和Azure中，FPGA可以更广泛用于不同的加速任务当中。如果能够配合更好的开发环境，形成完整的生态，相信未来它在云端会有更大的发展空间。

阅读全文

0 0