阿里云张献涛:人工智能催生计算迭代需求 传统计算无法满足
从1956年的达特茅斯会议算起,人工智能的概念的提出已经有60多年的时间了,但直到近几年才呈现出爆发的趋势。在阿里云异构计算掌舵人张献涛看来,爆发背后必须具备三个要素:首先是人工智能相关的算法方面的研究,还有数据的积累,最为重要的是计算力。
如果把人工智能比作“火箭”,算法就是“控制台”,数据是“燃料”,那么计算力就是“加速引擎”。“特别是人工智能浪潮催生的计算迭代需求,远超摩尔定律。”张献涛在接受一财科技采访时说。
传统通用计算已经无法满足人工智能对于爆发的计算能力需求,现在异构计算中GPU/FPGA等高并行、高密集的计算能力被视作现阶段挑起人工智能产业的大梁。
今年9月,阿里云异构计算宣布推出新一代的异构加速平台,涵盖了GPU、FPGA在内等6款异构实例,解决从图形渲染到高性能计算及人工智能等复杂应用的计算需求。特别是在人工智能领域,可将深度学习成本缩减一半,大幅降低人工智能计算门槛。
与此同时,异构计算的使能领域不仅支撑人工智能计算力升级需求,也能为图形计算、生命科学、材料力学、分子动力学等科研计算领域提供普惠计算能力。
异构计算凭什么?
数据+算法+计算力三要素构成了人工智能产业爆发的要素。
IT企业都有自己的算法和数据,但在计算力的获取上,一直有比较高的门槛。
2009年,几名斯坦福的学者向世界展示,使用 GPU可以在合理的时间内训练深度神经网络,引发了GPU热潮。过去,借助通用计算完成的智能模型训练需要几天才能完成,如今使用异构计算只需要1小时就能完成。
异构计算因此被认为是更适合人工智能的计算形态。它是一种把不同类型的指令集和体系架构的计算单元组成的系统的计算方式,如“CPU+GPU”,“CPU+FPGA”等,更适合深度学习、基因匹配、金融分析等计算密集型领域。它的优点在于具有比传统CPU并行计算更高效率和低延迟的计算性能,在处理物联网场景下的AI应用时,异构计算比CPU的处理效率高30倍以上。
阿里云异构计算产品解决方案就在这样的背景下诞生,掌舵者是张献涛。
张献涛花名旭卿,武汉大学信息安全博士。加入阿里巴巴前,他就职于英特尔亚太研发中心,是Xen、KVM等多个开源虚拟化项目的主要贡献者,同时,他也是IntelHAXM加速器的主要作者和贡献者,并因此获得英特尔最高成就奖。
2014年,张献涛正式加入阿里巴巴任资深专家,目前主要负责阿里云虚拟化技术、高性能计算产品、异构计算产品以及创新类型产品的技术和研发的团队。
在研发异构计算产品的同时,张献涛发现:对于一般用户而言,使用异构计算也有痛点。他举例,小量的用户基本没有议价能力,特别是购买FPGA(现场可编程矩阵门阵列)板卡,量少的话采购价格高昂。此外,交付周期是另一大痛点,从机型选择、硬件架构设计、供应商选择、机房选择、财务审批通常要几个月时间。采购之后型号就固定了,有新品出现只能追加预算购买,线下的GPU/FP又无法和线上服务打通。
他还提到,做FPGA产品的最大的挑战在于整个FPGA的生态环境很差,具备FPGA开发能力特别是开发FPGA做计算加速的客户非常少。
既然云已经证明了是提供计算能力的最佳交付方式,张献涛认为,把GPU/FPGA的计算能力放在云端对外服务是“水到渠成”。
云计算可以说是计算能力的“放大器”,张献涛介绍,虚拟化技术让GPU/FPGA的计算资源可以即买即用,弹性伸缩,无需担心性能瓶颈,还能以更低的价格享受到性能更强的GPU/FPGA计算能力,解决了用户使用异构计算方案的痛点。
“阿里云在短时间里先后推出弹性GPU和FPGA解决方案,目的就是降低异构计算资源使用的门槛,对人工智能有计算需求的企业可以随买随用。”张献涛说。
据介绍,异构计算产品特别适合在计算密集的企业环境下,人工智能在线业务的高性能,高可靠场景,包括但不限于:深度学习、神经网络训练、图像识别、语音识别、人脸识别、自动驾驶、基因分析、油藏勘探、视频渲染等计算密集领域。
张献涛还透露,现在不少客户都在单机上训练模型,通常需要几周到一个月的时间,阿里云推出一款超高性能异构集群的产品,提供了25/100Gb RoCE(基于融合以太网的RDMA)走RDMA(技术全称远程直接数据存取)协议直连,可以多机多卡,用非常多的GPU/FPGA设备集群来共同训练一个模型,大大减少用户训练的时间,可以缩短到一天甚至几个小时的级别。
GPU、FPGA、ASIC三分天下
业界专家预测,到2020年,与人工智能相关的计算力需求将会增长12倍。可以预见的是,异构计算的需求比重将越来越大。
异构计算的发展也得益于国家战略的推动。张献涛提到,今年国务院印发《新一代人工智能发展规划》,人工智能由此上升为国家战略,到2020年,整个人工智能核心产业达到1500亿规模。这势必会刺激异构计算的需求。
目前,张献涛所带领的团队主要有两个目标:一是致力于让异构计算变成用户即买即用的计算资源,提供最为全面的异构计算产品方案;另一个是致力于让用户能够用好异构资源,充分发挥云上各个产品之间的统一调度能力,让阿里云在人工智能方面的服务更具备竞争力,把异构计算变成一种普惠的计算能力。
事实上,此前阿里巴巴集团内部不少业务通过异构计算取得计算加速效果,包括淘宝天猫上的拍照购,以及商品风格预测、图片质量控制、CRT预估、千人千面、人脸识别、内容鉴定、图片创意、图像搜索等。而阿里云弹性FPGA异构计算的解决方案主要面向人工智能、半导体设计、基因计算、视频图像处理、数据分析决策等场景,目前的应用案例包括深度学习推理、深度学习模型裁剪、非规整数据计算、视频图像处理、硬件半导体设计等。
对外,阿里云异构计算产品已经有包含微博、陌陌、华大基因、中国工程院等数千家企业在应用。
同时,阿里云提供了从产品、服务、生态等维度的人工智能平台服务,比如用户可以在阿里云异构平台上快速搭建TensorFlow深度学习框架,同时调用视频识别、图像识别、语音识别等服务,开发出类似ET工业大脑、环境大脑的应用服务。
在异构计算的背后,GPU处理器仍占据了异构计算的主流地位。相比CPU,GPU有更高的并行度、更高的单机计算峰值、更高的计算效率;而FPGA则拥有更高的每瓦性能、非规整数据计算更高的性能、更低的设备互联延迟。
不过,对于未来的趋势,张献涛表示,“随着FPGA的生态环境的建立和完善、ASIC芯片的逐渐成熟,未来异构计算领域会呈现GPU、FPGA、ASIC(为专门目的而设计的集成电路)芯片三分天下的局面,GPU、FPGA、ASIC芯片都会有自己独特的特长和应用领域,有自己独特的客户群体。”
阿里云提供同时覆盖Intel和Xilinx两大FPGA厂商的解决方案。这也是张献涛团队专注的方向。他对记者透露,接下来团队会发布包括8卡/16卡GPU产品、下一代的Volta架构的GPU产品、新一代的FGPA的产品,而ASIC芯片的产品上云也正在研发当中。