NVIDIA:关于深度学习Benchmark,英特尔错了

来源:互联网 发布:md5加密 java 编辑:程序博客网 时间:2024/06/16 16:06

针对Intel发表的一份关于Xeon Phi与NVIDIA GPU深度学习性能对比的Benchmark,NVIDIA加速计算业务副总裁Ian Buckf撰写博客文章,对Intel的核心观点进行逐一驳斥,重点指责Intel在与过时的软硬件PK。

图片描述

基准(benchmark)是衡量性能的一个重要工具,但是在一个快速发展的领域,它很难跟得上技术发展的脚步。最近,英特尔就针对其传闻已久的Xeon Phi处理器公布了一些错误的“事实”。

深度学习技术在发展速度上超过了绝大多数其它领域。现今的神经网络,其深度已经比短短数年前提升了6倍,并且也变得更加强大。多GPU扩展技术中的全新功能甚至还能实现更快的训练效果。

此外,我们已经从Kepler、Maxwell升级到目前基于Pascal的系统,比如配有8颗Tesla P100GPU的DGX-1超级计算机,从而在短短一年内将神经网络训练时间缩短了10倍。

因此完全可以理解,该领域的后来者可能无法洞悉目前这一领域软硬件的整体发展情况。

例如,英特尔最近发布了一些过时的基准,并宣称其Knights Landing Xeon Phi处理器在深度学习性能上具有以下三项优势:

  • Xeon Phi的训练速度要比GPU快2.3倍(资料
  • Xeon Phi的跨节点扩展性能比GPU高38%(资料)
  • Xeon Phi可大幅扩展至多达128个节点,而GPU则无法实现(资料)

让我们逐条分析这三项优势,并纠正可能出现的一些错误认知。

新版与旧版Caffe深度学习框架

英特尔采用了18个月前开发的Caffe AlexNet模型数据,并对采用四颗Maxwell GPU的系统与四台Xeon Phi服务器进行了对比。而如果采用新版Caffe AlexNet模型(点击获取),英特尔就会发现采用四颗Maxwell GPU的系统,训练时间要比四台Xeon Phi处理器快30%。

实际上,一台采用四颗基于Pascal 架构的NVIDIA TITAN X GPU的系统,其训练速度要比四台Xeon Phi服务器速度快90%,而单台NVIDIA DGX-1的训练速度则比四台Xeon Phi服务器快5倍还多。

图片描述

扩展性提升38%

英特尔将Caffe GoogleNet在32台Xeon Phi服务器上的训练成效与橡树岭国家实验室泰坦超级计算机的32台服务器进行了对比。泰坦采用了四年前的GPU(Tesla K20X)以及之前美洲豹超级计算机所用的互连技术。而Xeon Phi的结果则基于最近推出的互连技术。

百度使用更新的Maxwell GPU及互连技术,结果显示其语音训练工作负载的扩展几乎呈现为直线,高达128颗GPU。

英特尔着手发展深度学习当然值得称道,我们正面临人工智能时代一次最重要的技术革命,而如火如荼的深度学习肯定不能被忽略。但是,他们应该把事实搞清楚。

图片描述

数据来源:持久递归神经网络:藏匿于芯片上的递归权重,G.Diamos

可扩展性不仅取决于底层处理器,代码的互连与架构优化同样重要。GPU为百度等客户带来了极佳的扩展性。

大幅扩展至128个节点

英特尔声称,128台XeonPhi服务器可带来比单个Xeon Phi服务器快50倍的性能,而GPU则没有此类扩展性数据。如上所述,百度已经公布的结果显示,扩展几乎呈直线形态,多达128颗GPU。

为了实现强扩展,我们认为强节点要优于弱节点。与许多采用一到两个如Xeon Phi这样性能不足的处理器的弱节点相比,采用多颗高性能GPU的单台服务器的性能要更加优越。例如,单台DGX-1系统可比至少21台Xeon Phi服务器提供更好的大幅扩展性能(DGX-1要比四台Xeon Phi服务器快5.3倍)。

人工智能时代

深度学习有望彻底改变计算,改善我们的生活,提升我们业务系统的效率和智能化,并推动人类的深远发展。为此,我们多年来一直在提升并行处理器的设计,并创建软件和技术来加速深度学习。

我们为深度学习做出深入而广泛的努力。每个框架都有NVIDIA的优化支持,每位主要的深度学习研究者、实验室和公司都在使用NVIDIA GPU。

我们可以逐个纠正他们的误导性言论,不过我们认为,和以前的Kepler GPU架构以及过时的软件进行深度学习对比测试是错误的做法,很容易就可以纠正。这样也有利于让整个行业与时俱进。

0 0
原创粉丝点击