7月4日,第七届世界人工智能大会暨人工智能全球治理高级别会议在上海开幕,中国移动在大会期间举办“AI赋能 创见未来”生态论坛。中国移动集团级首席科学家冯俊兰博士发表《九天基座模型全模态体验》主题演讲。
冯俊兰博士介绍,中国移动全新升级的九天多模态基座模型支持语言、视觉、语音和结构化数据,九天·语言大模型是业界首个直接面向行业构建的基础大模型,采用自研纯解码结构+多专家的算法架构,训练数据中融合29个行业、占比达10%的行业数据;九天·视觉大模型支持通用目标检测、通用OCR、细粒度图像理解、视频理解、视觉生成等多个视觉子任务,以及视觉与文本的自由转换;九天·语音大模型实现了识别、生成以及分类三大任务统一于同一模型架构,支持多方言语音翻译与重口音识别,构建了百万级声纹识别模型,支持多说话人重叠、跨设备、跨语言和远场等复杂场景的声纹识别;九天·通用结构化数据大模型覆盖了通信、交通、金融、工业、气象等11个领域,实现跨领域跨任务结构化数据通用表征建模,支持感知、预测、诊断、决策等任务。
冯俊兰博士在会上宣布,中国移动正式开源JIUTIAN-139MoE基础语言模型及其后续演进版本,开源内容包括模型权重、微调代码、推理代码。目前,开发者已经可以在Gitee、魔搭社区和九天汇聚平台上下载开源的模型以及相关代码,并获取技术报告。
冯俊兰博士在演讲中详述了九天·语言大模型开源版本的四大核心技术:一是模型训练,九天语言大模型大部分训练工作是在自研的九天人工智能平台上完成,平台集成了异构的智算资源,包括英伟达的GPU和国产的NPU,具备大模型训练、微调、推理、Agent构建等全生命周期工具链,自研的断点续训功能最长保障了集群连续21天无人工干预,实现训练任务自动恢复;二是模型结构,九天语言大模型在预训练阶段就融合了大量行业知识,使得模型深度吸收高质量的行业知识,但行业知识和通识知识存在较大的分布差异,实现这些不同数据集之间的有效协作依然充满挑战。为解决这一挑战,中国移动提出基于稀疏专家混合(SMoE)语言模型的新框架;三是训练数据,在预训练阶段采用了5万亿Token的训练数据,引入了10%的行业知识数据,包括电信、能源、交通、航空、钢铁、金融等,占比90%的通识训练数据中,中文占比16%,英文占比82%;四是模型安全,基于九天大模型评估框架,从内容安全上创建了68个子类别、35000个评估数据,指令安全上构建跨15种类型漏洞的30种攻击方法。
冯俊兰博士也展现了九天·语言大模型的优异性能。在通识性能评测上,对比同等规模参数的开源模型,九天大模型在六个评测指标上取得了最高得分;在行业性能评测上,九天大模型的得分也是遥遥领先。
为了更好的呈现九天基础大模型的能力,冯俊兰博士在现场进行了四个特色功能演示。首先演示的是九天个人助理“九九”,“九九”具备查找和分析技术文献、制定日程等功能,体现了九天大模型的图文并茂的文案/故事生成能力,专业深度的文献检索能力;第二个演示的是两个智能体助手,设备运维助手从行业专家的维度为运维人员提供专业信息识别与语言交互,内容整合助手提供细粒度视觉信息挖掘能力,为交互提供更全面的视觉交互能力;第三个演示是智能会议场景,九天语音大模型可实现八大方言区方言翻译、高拟人语音合成及百万级声纹识别;第四个演示是九天结构化大模型在网络运维优化场景的应用。不同于语言、视觉等通用大模型,中国移动网络依托各类结构化数据,和语言模型的融合,实现开放环境的自反馈,从而达到感知-诊断-优化-评估-再感知的闭环融合。