北京2023年9月28日 /美通社/ -- 近日,大模型智算软件栈 OGAI 发布会在北京开幕,作为大模型智算软件栈的重要基座,会上重磅发布了大模型算力服务的智能算力底座--智算 OS。智算 OS 是面向大模型算力服务的智能算力运管平台,通过池化通用、智能等算力,满足多租户弹性 AI 算力供给需求,不断驱动产业 AI 转型升级,为百行千业开启智慧算力新征程。
OGAI,即 Open GenAI Infra 元脑生智,是为大模型业务提供 AI 算力系统环境部署、算力调度以及开发管理能力的全栈全流程的智算软件栈。
基于全栈全流程、算力充分释放、实战验证提炼等设计理念,OGAI 分为 L0-L4 共5层,旨在为大模型开发与应用全力打造高效生产力。浪潮云海智算 OS 作为智算软件栈的基座,能够满足多租户以裸金属为主的弹性 AI 算力运管需求。其中,高效的裸金属服务支持分钟级部署上千规模裸金属节点,并按需进行弹性扩展,实现异构计算芯片、IB、RoCE 高速网络、高性能存储等环境一键获取,并实现计算、网络、数据隔离以保障业务安全。
智算 OS 是智算中心的基础底座
作为智慧算力时代的典型应用,AIGC(人工智能生成内容)自出现起便备受关注,也大大加速传统数据中心向“智算中心”的转型进程。智算中心不仅需要提供通用算力,还需具备GPU、DPU、FPGA 等多元异构算力,并且能够根据用户的不同需求,提供算力的发放或售卖服务。
智算 OS 聚焦智算中心场景,在融合云、服务器、存储、网络、AI 等基础设施产品的基础上,整合各类算力资源,为智算中心提供基础硬件设施以及云、数、智等软件平台的统一运营、运维门户和智能管理,帮助企业解决智慧算力时代的种种难题,满足互联网、教科研、金融等行业客户智算中心建设及运营运维需求。
通过算力的生产、聚合、调度和释放,帮助企业高效开发专属大模型,形成与企业适配的 AI 开发模式,助力生成式 AI 落地。
在大模型场景下,通过智算 OS 统一化算力平台,能够简便灵活获取 GPU 裸金属服务,分钟级即可部署上千规模裸金属服务器,按需进行弹性扩展。异构计算芯片、IB、RoCE 高速网络、并行存储等计算环境,一键获取,计算、网络、数据、隔离保障业务安全,像虚拟机一样易用,充分释放算力潜能。
智算 OS 最大化提升资源利用率
在用户场景中,常出现通用算力、AI 算力独立建设,这会导致一系列问题:
- 信息孤岛:不同类型资源之间相对独立,信息无法实现共享、互换;
- 资源独占:用户独占设备,算力无法共享,资源利用率低;
- 人力浪费:不同算力资源独立运维,给管理和运维带来巨大复杂性;
智算 OS 支持通用算力、智能算力等多种异构算力统一纳管,并采用弹性计算框架,实现资源弹性调度和多租户体系。根据租户使用情况,自动分配和调度资源,大幅降低资源使用的等待时间。按照用户实际情况进行逻辑体系规划,实现不同租户体系间资源隔离,保障数据安全性。通过自动化运维能力,降低对运维人员的专业性要求和运维复杂度,帮助用户将主要精力集中在 AI 开发中,真正实现降本增效。
智算 OS 最大化提升模型训练效率
针对 AI 大模型训练的计算特点,智算 OS 对集群架构、高速互联、算力调度等方面进行全面优化,在系统架构上,采用单节点集成 8 颗加速器的 AI 服务器,节点内加速器间实现超高速 P2P 通信,节点间建立极低延迟、超高带宽的 Infiniband 通信网络。
在大模型训练技术层面,成功运用了中文巨量 AI 模型“源1.0”的训练优化经验,对分布式训练策略进行了针对性优化,通过合理设计张量并行、流水并行和数据并行,精准调整模型结构和训练过程的超参数,最终实现千亿参数规模AI大模型的训练算力效率达到53.5%,刷新了业内 AI 大模型训练算力效率新高。
智算 OS 促进算力运营
为了保证模型开发资源的正常供给,企业通常会考虑算力高峰、低谷的现象,额外购置部分算力设备作为冗余,造成算力资源的闲置浪费和成本支出。
智算 OS 提供商业化的算力租赁服务,可通过互联网出售算力服务,并配合内置商业化计费系统,对资源使用情况进行精确计费,提供按需计费、包年包月等多样化计费套餐,帮助企业快速建成成熟的算力售卖体系,实现闲置算力资源的最大化价值输出。
目前智算 OS 已经广泛应用于多个省市级智算中心,全栈训练出 2 个 LLM 大模型,具备丰富建设调优经验,为千行百业提供高效的算力支撑。