【​观察】从异构计算产品家族首次亮相 看阿里云人工智能价值新主张

来源:互联网 发布:mac删除应用程序 编辑:程序博客网 时间:2024/04/29 08:49


我们知道,人工智能的三大要素是算法、数据和计算。特别是随着人工智能深度神经网络的快速发展,更深更大的算法模型、更复杂的架构正在成为趋势。


不过,当如此庞大的数据用于人工智能的训练学习时,数据量将超出内存和处理器的承载上限,如果计算力不能相应增长,整个学习过程将变得无比漫长,甚至完全无法实现最基本的人工智能。


在此背景之下,9月12日,阿里云宣布推出全新一代异构加速平台,涵盖GPU、FPGA在内等6款异构实例,可满足从图形渲染到高性能计算及人工智能等复杂应用的计算需求。


与此同时,基于阿里云异构平台的全新高性能计算实例E-HPC也将在近期正式上线,更可帮助用户一键部署获得媲美大型超算集群环境的“云上超算中心”。


在我看来,无论是阿里云异构计算家族的首次亮相,还是E-HPC的重磅推出,都是阿里云为降低人工智能计算门槛的重要体现。更为关键的是,阿里云这一系列的努力,更为人工智能赋能中国的科技创新,助力中国成为数字化转型浪潮的赢家提供了重要的支撑。


异构计算产品家族首次亮相


在阿里云异构计算负责人张献涛看来:“人工智能的概念提出60多年了,但这几年才呈现出爆发的趋势,不单单是因为算法改进、数据积累,更重要的是计算能力的变革。如今,大部分企业都有自己的算法和数据,但在计算力的获取上一直有比较高的门槛。”


阿里云异构计算负责人张献涛


确实如此,从计算力层面来看,人工智能对于计算的要求确实不同于以往的应用需求,我们可以从三个维度来做观察:


第一,人工智能中的深度学习需要大量的样本进行训练,以图像分析为例,它的样本量级大约为百亿级,而语音分析也达到了十万小时级,随着人工智能的应用越来越广,训练数据的样本量越来越大,对并行存储容量和带宽都提出了很大挑战。


第二,对于线下训练平台,由于深度神经网络(DNN)、循环神经网络(RNN)、卷积神经网络(CNN)等算法往往可扩展性不高,那么就需要在节点内进行高效计算。因此,GPU/MIC异构计算的技术架构就成为了高性能线下深度学习平台的未来方向。


最后,对于线上识别平台,常常伴随着亿万级别的用户和用户请求,需要成千上万个节点,实时响应,这就要求线上平台需要低功耗并且高性能,他们大多采用云计算方式运行。那么,FPGA的异构计算模式因低功耗、高性能、易编程等特点,也成为了线上识别平台,或者说无监督学习训练平台的首选。



正是看到了市场中上述“痛点”,阿里云推出了全新一代的人工智能计算引擎,包括基于GPU平台的GA1、GN4、GN5、GN5i以及基于FPGA平台的F1、F2共6款异构实例,为面向多场景的异构计算提供了强有力的支持。


其中,GA1实例适用于图形图像渲染,可使视觉渲染计算成本降低50%;GN5实例则为计算而生,计算能力相比上一代产品,提升近100倍;而GN5i实例深度匹配在线推理场景,能有效降低人工智能在线服务成本50%以上。


据阿里云高级技术专家龙欣介绍,GN5i实例被称之为“阿里云异构计算小鲜肉”,这款实例采用了NVIDIA Pascal架构P4图形处理器,提供最大45Tops INT8整型计算能力和11TFlops FP32单精度浮点计算能力。



与此同时,GN5i实例还可根据深度学习计算力的要求,分钟级即可完成实例的创建。此外,GN5i实例还依托阿里云高性能SSD云存储和OSS存储服务,在满足数据处理IO的基础上,时延最低可达微秒级。


不仅如此,随着集成英特尔(F1)和赛灵思(F2)芯片的FPGA计算实例相继面世,阿里云也率先完成对主流FPGA方案的全覆盖,成为全球FPGA领域产品线最全、场景最多的公共云服务商。


例如,最新推出的F2实例基于赛灵思Xilinx KU115器件,提供145万逻辑门电路,单实例的单精度浮点计算性能可达1.5TFlops。阿里云还单独针对非标准位宽场景做了大幅优化,以物联网时序数据库为例,F2实例的处理效率可比CPU高30倍,为用户大幅降低了硬件加速时间和成本。



对此,龙欣表示,阿里云为使用FPGA开发平台的用户还提供了更为轻松、简单的方式,通过三个步骤就能享受FPGA提供的计算能力,再加上阿里云业已推出的FPGA镜像市场,也可帮助更多用户完成更多定制化FPGA加速方案,提高特定业务和算法的效率。


由此可见,无论是基于GPU平台实例的不断升级和迭代,还是率先完成对主流FPGA方案的全覆盖,都是阿里云希望通过强大的异构计算能力带来的人工智能的普及,为中国的产业升级发展赋予新动能的体现。


E-HPC重新定义超算新边界


更值得一提的是,在阿里云计算平台上,还长出了一个帮助人类文明延展长度与宽度的工具,它就是阿里云刚刚发布的弹性高性能计算平台E-HPC。



这并不是煽情的写作,因为超算最早的应用领域是在科学计算,包括国防、航空、能源、电力、汽车、生物、气象、仿真等领域,因此亦被称之为“国之重器”,它不仅代表着国家在科学计算方面的实力,更是一个国家在经济建设中打造核心竞争力的关键武器。


但在过去,超算的商用化、普及化并不是一件容易的事情,因为超算系统不仅贵,而且应用也相对复杂,对大部分企业而言使用超算无疑是一件很有困难的事情,所以,在多年报道和跟踪超算发展的我看来,阿里云E-HPC的发布可谓意义重大。


一方面,很多中小公司、创业公司由于资金成本的限制,往往无法购买价格昂贵的高性能计算服务器,这时候HPC的云计算服务就显得十分的重要。


另一方面,HPC云化服务在高校、科研计算领域也有很大的需求,但多年来高校现行的IT建设体制,造成了资源冗余、系统分散、软件部署难度大等诸多问题,而如果采用云超算服务,就可以实现云中交付集群应用,大大减轻了高校的计算和科研单位的压力。


目前,在美国,亚马逊AWS、微软Azure都已相继推出了各自版本的HPC集群服务。而阿里云E-HPC的发布,也标志着中国首个公共云上的HPC as a Service产品的诞生。


据阿里云资深专家何万青介绍,E-HPC基于阿里云异构计算平台在高性能虚拟化、并行计算、低延迟网络和HPC软件栈等方面的特性,帮助生命科学,气象预报,石油勘探,工业设计和航空航天等领域的客户,快速获得高性能计算集群计算能力、调度能力和软件能力,并可实现一键部署和弹性伸缩。



相比线下使用超算平台,E-HPC优势非常明显,可以总结为三个方面:首先,使用门槛低,用户通过硬件配置、软件配置和基础配置三个步骤的设置即可搭建超算应用。


其次,E-HPC还提供了丰富的超算软件生态环境,包括基础软件GNU、Autotools等;高性能运行时库OpenMPI、NetCDF等;超算中间件如应用测试集NPB、文件系统IOR等以及诸多应用软件,涉及计算化学、气候气象、生命科学等领域。


最后,E-HPC还提供了混合云解决方案,这意味着即使用户在本地有超算集群,同样也可以通过E-HPC实现云端的计算能力的扩展,不但保护了用户过往的超算投资,也为今后使用超算提供了更有效的途径。


正如阿里云资深专家何万青所言:“如果把传统超算中心比作‘珠穆朗玛峰’,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,成为高性能计算的‘青藏高原’。”可以说,E-HPC的对外亮相,不但让超算创新的边界正在被重新定义,更被不断的无限延伸和扩展。


阿里云人工智能价值新主张


毫无疑问,人类对计算的需求是永无止境,而阿里云也对外表达了愿意“为人工智能产业的发展提供最强的计算平台”的新愿景。在我看来,这不仅是阿里云价值新主张的体现,也是阿里云在人工智能新时代的新角色和新使命。



一是驱动者,阿里云对人工智能领域的提前布局和不断的深入研究,以及如今对外发布全新的异构计算家族产品和云化的高性能计算方案,无疑将让阿里云打破计算力瓶颈制约,有机会实现人工智能更大的突破。


二是普惠者,阿里云不断降低人工智能计算力工具的使用门槛,也将推动更为广泛的人工智能创新。如今,除了产品层面,阿里云还提供了全方位的人工智能产业服务,包括智能语音交互、图像/视频识别、交通预测、情感分析等技术服务,这些技术正通过阿里云ET为客户服务。


实际上,仅过去一年,阿里云推出ET城市大脑、ET工业大脑、ET医疗大脑等行业垂直的人工智能系统,更让人工智能技术加速落地到产业中去。


三是使能者,虽然人工智能发展很快,但处在“风口浪尖”的大部分是以互联网巨头为主,对于很多正处于转型的大部分企业而言,他们其实也处在需要人工智能技术服务来加快信息化建设的关键时刻,所以阿里云不但积极参与一线实践,更广泛联合生态链合作伙伴,这无疑将促进中国人工智能更加健康的发展。


总结来看,阿里云通过强化异构计算的能力,不断推动高性能计算的亲民化,并积极赋能自身没有技术优势和人工智能技术基因的企业,无疑也体现了阿里云希望通过技术、生态输出的方式,让更多中国企业受益于人工智能普及带来更多价值的决心和信心。


申耀的科技观察(微信号:shenyao),由非著名科技媒体人申耀创办、10万公里公路自驾经验老斯基,在各大自媒体平台拥有专栏,致力于科技行业的观察和思考,在这里读懂科技行业,知趋势,赢未来!


阅读全文
0 0