Amazon EC2 Inf2实例正式可用助力低成本、高性能的生成式AI推理

发布: 2023-04-21 12:00 | 作者: MSCBSC | 来源: 移动通信网 | 字体: 小中大

北京2023年4月21日 /美通社/ -- 深度学习（DL）的创新，特别是大语言模型（LLM）的快速发展，已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿，为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用，如生成式AI或医疗保健和生命科学的高级研究。亚马逊云科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新，加速深度学习工作负载的大规模应用。

亚马逊云科技在2022 re:Invent 全球大会上，以其最新的自研机器学习推理芯片Amazon Inferentia2为基础，发布了Amazon EC2 Inf2系列实例的预览版。Amazon EC2 Inf2类型实例专门针对全球大规模运行高性能深度学习推理应用程序，为部署在EC2上的生成式AI应用提供最佳性价比，其中包含 GPT-J或开放式预训练Transformer（OPT）语言模型。

现在，亚马逊云科技宣布Amazon EC2 Inf2实例正式可用。

Inf2实例是Amazon EC2上首个推理优化的实例，支持可扩展的分布式推理，可实现多个inferentia2芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与Amazon EC2 Inf1实例相比，Inf2实例的吞吐量提高4倍，延迟降低10倍。

新Inf2实例的亮点

Inf2实例目前有四种可用实例类型，最高扩展至12个Amazon Inferentia2芯片和192个vCPU配置。在BF16或FP16数据类型下，它们能够提供2.3 petaFLOPS的综合计算能力，并具有芯片间超高速NeuronLink互连的功能。NeuronLink可在多个Inferentia2芯片上扩展大模型，避免通信瓶颈，实现更高性能的推理。

每个Inferentia2芯片内有32 GB的高带宽内存（HBM），最高配置的 Inf2 实例可提供高达384 GB的共享加速器内存，总内存带宽为9.8 TB/s。对于需要大内存支持的的大型语言模型而言，这种带宽对于支持模型推理尤为重要。

基于专门为深度学习工作负载而构建的 Amazon Inferentia2芯片的 Amazon EC2 Inf2，相比同类实例，单位功率性能高出了50%。

Amazon Inferentia2的创新之处

与亚马逊自研机器学习训练芯片 Amazon Trainium类似，每个Amazon Inferentia2芯片都配有两个经过优化的NeuronCore-v2引擎、高带宽内存（HBM）堆栈和专用的集体计算引擎，以便在执行多加速器推理时实现计算与通信的并行。

每个NeuronCore-v2都有专为深度学习算法构建的标量、向量和张量三种引擎，其中张量引擎针对矩阵运算进行了优化；标量引擎针对ReLU（修正线性单元）函数等元素性操作进行了优化；向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。

以下是Amazon Inferentia2芯片和服务器硬件其他创新总结：

数据类型——Amazon Inferentia2 支持多种数据类型，包括 FP32、TF32、BF16、FP16 和 UINT8，用户可以为工作负载选择最合适的数据类型。它还支持新的可配置 FP8（cFP8）数据类型，该数据类型特别适用于大模型，因为它减少了模型的内存占用和 I/O 要求。

动态执行和动态输入形状——Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器（DSP），因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状，这些形状对于具有未知输入张量大小的模型（例如处理文本的模型）至关重要。

自定义运算符——Amazon Inferentia2支持用C++语言编写的自定义运算符。Neuron自定义C++运算符使用户能够编写在NeuronCore上天然运行的C++自定义运算符。用户可以使用标准的 PyTorch自定义运算符编程接口将 CPU 自定义运算符迁移到 Neuron 并实现新的实验运算符，所有这些都无需对 NeuronCore 硬件有任何深入了解。

NeuronLink v2——Inf2实例是Amazon EC2类型中首个将 NeuronLink V2 用于推理优化的实例，NeuronLink v2 为Inferentia2芯片间的提供超高速连接，加强分布式推理性能。NeuronLink v2使用all-reduce等聚合通信（CC）运算符，将高性能推理管道扩展到所有的推理芯片上。

新Inf2实例现已可用

用户可在亚马逊云科技美东（俄亥俄州）和美东（北弗吉尼亚州）地区启动Inf2实例，以按需、预留和竞价实例或Savings Plan方式调用。用户仅需为其实际使用的服务付费。如需了解更多相关信息，请访问Amazon EC2定价网站。

Inf2实例可使用亚马逊云科技深度学习镜像进行部署，并可通过Amazon SageMaker、Amazon Elastic Kubernetes Service（Amazon EKS）、Amazon Elastic Container Service（Amazon ECS）和Amazon ParallelCluster等托管服务调用。

如需了解更多信息，请访问Amazon EC2 Inf2实例页面，并将相关反馈发送给Amazon re:Post for EC2；或垂询您的Amazon Support联系人。

←←微信扫描二维码，即可将本文分享到朋友圈
版权申明：部分文章转载或来源于投稿，不代表本站赞同其观点，如有异议，请联系我们。
上篇文章：赋能行业数智化提供有温度有深度的服务，华为是如何做到的？
下篇文章：陶朗全新AI分选机亮相坚果炒货展
电信网络测试解决方案网络联通北京时间

扫码关注5G通信官方公众号,免费领取以下5G精品资料

1、回复“YD5GAI”免费领取《中国移动：5G网络AI应用典型场景技术解决方案白皮书》

2、回复“5G6G”免费领取《5G_6G毫米波测试技术白皮书-2022_03-21》

3、回复“YD6G”免费领取《中国移动：6G至简无线接入网白皮书》

4、回复“LTBPS”免费领取《《中国联通5G终端白皮书》》

5、回复“ZGDX”免费领取《中国电信5GNTN技术白皮书》

6、回复“TXSB”免费领取《通信设备安装工程施工工艺图解》

7、回复“YDSL”免费领取《中国移动算力并网白皮书》

8、回复“5GX3”免费领取《R1623501-g605G的系统架构1》

本周热点本月热点

最热通信招聘

业界最新资讯

123

Amazon EC2 Inf2实例正式可用助力低成本、高性能的生成式AI推理

最热通信招聘

业界最新资讯

每日5G科技快讯|中国移动小额话费充值被下架；中国电信关停部分国家地区漫游；芯片设备商欠薪270亿；微信或将迎史诗级瘦身；三…

华为"欧洲创新日"倡导合作共赢，释放欧洲创新潜力

每日5G科技快讯|美国通信巨头关停；华为赶超比亚迪；苹果曝光中国开发者收入；中移集成被【暂停采购】；卢伟冰公开小米空调利…

最新招聘信息

最新技术文章

最新论坛贴子

Amazon EC2 Inf2实例正式可用 助力低成本、高性能的生成式AI推理

最热通信招聘

业界最新资讯

每日5G科技快讯|中国移动小额话费充值被下架；中国电信关停部分国家地区漫游；芯片设备商欠薪270亿；微信或将迎史诗级瘦身；三…

华为"欧洲创新日"倡导合作共赢，释放欧洲创新潜力

每日5G科技快讯|美国通信巨头关停；华为赶超比亚迪；苹果曝光中国开发者收入；中移集成被【暂停采购】；卢伟冰公开小米空调利…

最新招聘信息

最新技术文章

最新论坛贴子

Amazon EC2 Inf2实例正式可用助力低成本、高性能的生成式AI推理