【移动通信网】太平洋时间2018年3月27日—NVIDIA(纳斯达克代码:NVDA)今日宣布了一系列新技术与合作,将其潜在的推理市场扩展至全球3000万台超大规模服务器,同时为交付基于深度学习的服务大幅降低成本。
在GTC2018主题演讲中,NVIDIA创始人兼首席执行官黄仁勋表示,基于在数据中心、汽车应用、以及包括机器人和无人机等嵌入式设备领域中,诸如语音识别、自然语言处理、推荐系统、以及图像识别等新功能的支持,面向深度学习推理的GPU加速正在获得越来越多的关注。
NVIDIA宣布推出新版TensorRT推理软件,并将TensorRT集成至谷歌的TensorFlow框架。NVIDIA还宣布,最受欢迎的语音识别框架Kaldi现已针对GPU进行了优化。NVIDIA与亚马逊、Facebook及微软等合作伙伴的紧密协作,让开发者更易于使用ONNX与WinML充分发挥GPU加速的优势。
NVIDIA加速计算副总裁兼总经理IanBuck表示:“即便是最大规模的神经网络,面向量产型深度学习推理的GPU加速也能够让其以最低成本实时运行。随着对更多智能应用及框架支持的快速扩展,我们现在能够提高深度学习的质量,并帮助降低3000万台超大规模服务器的成本。”
TensorRT和TensorFlow集成
NVIDIA发布了TensorRT4软件,以针对广泛的应用加速深度学习推理。TensorRT提供高度精确的INT8与FP16网络执行,最高可减少70%的数据中心成本。(1)
TensorRT4可用于快速优化、验证及部署在超大规模数据中心、嵌入式与汽车GPU平台中经过训练的神经网络。相比CPU,针对计算机视觉、神经网络机器翻译、自动语音识别、语音合成与推荐系统等常见应用,该软件最高可将深度学习推理的速度加快190倍。(2)
为了进一步精简开发,NVIDIA与谷歌的工程师已将TensorRT集成至TensorFlow1.7,使得在GPU上运行深度学习推理应用更加容易。
谷歌工程总监RajatMonga表示:“TensorFlow团队正在与NVIDIA密切协作,致力于将NVIDIAGPU的最佳性能推向深度学习社群。现在,通过TensorFlow与NVIDIATensorRT的集成,可利用VoltaTensorCore技术将NVIDIA深度学习平台的推理吞吐量提高8倍(相比低延迟目标下的普通GPU执行),从而让GPU在TensorFlow内的推理实现了最高性能。”
NVIDIA优化了全球领先的语音框架Kaldi,以实现运行于GPU的更快性能。GPU语音加速意味着消费者将获得更加准确与实用的虚拟助手,并降低数据中心运营商的部署成本。
广泛的业界支持
全球各地众多公司的开发者正在使用TensorRT从数据中获取新洞察,并部署面向企业与消费者的智能服务。
NVIDIA与亚马逊、Facebook及微软密切合作,确保使用Caffe2、Chainer、CNTK、MXNet与Pytorch等ONNX框架的开发者现在可以在NVIDIA深度学习平台轻松部署。
SAP机器学习负责人MarkusNoga表示:“通过在NVIDIATeslaV100GPU上运行我们基于深度学习的推荐应用,我们对TensorRT进行了评估。相比基于CPU的平台,我们在推理速度与吞吐量方面获得了45倍的提升。我们相信,TensorRT能够大幅提高我们企业客户的生产力。”
TwitterCortex负责人NicolasKoumchatzky表示:“通过使用GPU,在我们的平台上得以实现媒体识读,这不仅显著减少了媒体深度学习模型训练时间,而且还能够让我们在推理时间获得对于即时影像的实时解读。”
近期,微软也宣布了针对Windows10应用的人工智能支持。NVIDIA与微软合作创建了GPU加速的工具,帮助开发者向Windows应用引入更多智能特性。
NVIDIA还宣布了面向Kubernetes的GPU加速,以促进企业在多云GPU集群上的推理部署。NVIDIA将针对开源社群强化GPU性能,以支持Kubernetes生态系统。
此外,MATLAB软件开发商MathWorks今天宣布了TensorRT与MATLAB的集成。工程师与科学家现在可以利用MATLAB自动生成面向NVIDIADRIVE"、Jetson"与Tesla®平台的高性能推理引擎。
面向数据中心的推理
数据中心的运营者需要不断地寻求性能与效率的平衡,以使其服务器群保持最大的生产力。针对深度学习推理应用与服务,NVIDIATeslaGPU加速的服务器能够替代数个机架的CPU服务器,从而释放宝贵的机架空间,并减低能源与降温需求。
面向自动驾驶汽车、嵌入式平台的推理
TensorRT也可以部署在NVIDIADRIVE自动驾驶车辆与NVIDIAJetson嵌入式平台上。基于各个框架的深度神经网络均可在数据中心内的NVIDIADGX"系统中加以训练,然后部署至包括从机器人到自动驾驶车辆的所有类型的设备,并在终端实现实时推理。
利用TensorRT,开发者可以集中于开发基于深度学习的新型应用,而非针对推理部署进行性能调节。利用可显著降低延迟的INT8或FP16精度,开发者可使用TensorRT交付闪电般快速的推理,这对于嵌入式与汽车平台上的目标检测与路径规划等功能而言至关重要。
NVIDIA开发者计划成员可了解关于TensorRT4候选发布版的更多信息:https://developer.nvidia.com/tensorrt。