移动赛场上的新“10号”,AI引擎将如何策动智能新体验

飞象网讯(魏德龄/文)“10号”这一足球场上代表了球队核心的号码,随着战术理念的变化,其所属球员的定义也正在发生改变,从原来的传统组织核心,转变为倾向于全能中场的设定,要求球员在拥有聪明的头脑之上,既能在关键时刻爆发能量、组织发起攻势,还要有更高体能的耐力要求,与球队达到共同施压的效果。

随着生成式AI在移动终端上的初露端倪,对于如何策动智能新体验,也在硬件能力上有了全新要求,就移动赛场上的新“10号”而言,同样少不了如同全能型中场一样的上述三样关键能力,并能够实现有效协同。

 

生成式AI时代的全能中场

聪明的头脑确保了瞬间反应能力,如在球场上敏锐地发现空档,或快速进行拦截。在智能终端上则代表了由用户发出的按需型用例,并立即进行响应。例如图片或视频的拍摄、在PC上生成会议摘要,或在开车时用语音查询最近的加油站。

爆发能量组织发起攻势则需要在一段时间内进行高强度的带动串联。对于智能终端而言,则对应了运行时间较长的持续型用例,如语音识别、游戏和视频的超级分辨率、视频通话的音视频处理及实时翻译。

持续的跑动让新10号能够时刻能够对整体阵型与战术作出贡献,好比是智能终端上的泛在型用例,包括始终开启的预测性AI助手、基于情景感知的AI个性化和高级文本自动填充。

从上述三项能力要求中不难发现,如同对于全能型中场的要求,终端上的移动平台其实存在着如在“性能爆发与持久续航”之间的矛盾点,这就需要利用内部不同的处理器来进行不同的任务,CPU擅长于顺序控制和即时性,GPU适合并行数据流处理,NPU擅长标量、向量和张量数学运算,可用于核心AI工作负载。

也就是说,通过使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新增强的生成式AI体验。让跑不累的新“10号”,还能有细腻的脚法与关键时刻的爆发力。

于是,不妨就来具体看看这名新“10号”的具体各项能力如何,以及它将如何进行灵活运用,来实现在AI上的全面表现。

 

高效组织的AI引擎

从上文中不难发现,移动平台中的众多单元其实都参与了AI用例的运算工作。在高通技术公司刚刚发布的最新白皮书《通过NPU和异构计算开启终端侧生成式AI》中将高通AI引擎定义为包括Hexagon NPU、Adreno GPU、高通Kryo或Oryon CPU、高通传感器中枢和内存子系统,能够支持按需型用例、持续型用例和泛在型用例,为生成式AI提供业界领先的异构计算解决方案。

对于新“10号”,“球商”高不高无疑决定了上限将能够达到何种水平。其中Hexagon NPU在近年来可谓迎来了巨大升级,在2020年高通Hexagon NPU实现了标量、向量和张量加速器的架构融合,打造了专用大共享内存,为未来的进一步升级奠定了基础。2022年的第二代骁龙8中引入了微切片推理能力,可将神经网络分割成多个能够独立执行的微切片,可最大化利用NPU中的加速器并降低功耗。2023年发布的第三代骁龙8,为持续AI推理带来了98%的性能提升和40%能效提升,Hexagon NPU成为了面向终端侧生成式AI大模型推理的领先处理器。

Adreno GPU可用于以高精度格式进行AI并行处理,支持32位浮点、16位浮点和8位正数运算。在第三代骁龙8中,基于Adreno GPU,Llama 2-7B每秒可生成超过13个tokens。

高通Oryon CPU在骁龙X Elite计算平台上可谓实现了一鸣惊人,在功耗仅为竞品三分之一的情况下,可提供高达竞品两倍的CPU性能,非常擅长时延敏感型的低计算量AI工作负载。

同时,在整体架构上,高通进一步提升了AI引擎的运行能力。例如作为大语言模型token生成瓶颈的内存带宽,一方面移动平台上的共享内存机制带来了天生的优势,另一方面高通还为第三代骁龙8配置了最快的内存之一:4.8GHz LPDDR5x,支持77GB/s带宽。

异构计算也带来在运行生成式AI工作负载时的最佳解决方案,可充分利用所有处理器的能力,包括跨处理器和处理器内核扩展生成式AI处理,以及将生成式AI模型和用例映射至一个或多个处理器及内核。

高通技术公司产品管理高级副总裁Ziad Asghar就举例表示:当应用使用小模型时,CPU通常是正确的选择。而当模型变大时,GPU和NPU往往更合适。电池续航和能效对于持续和泛在型用例至关重要,因此NPU是最佳选择。

当新“10号”AI引擎具备了全面的能力,移动赛场的新体验升级也将开始策动,下面不妨来看看当下这个最为经典的本地AI案例背后,新10号带来了什么样的临场表现。

 

策动智能新体验

AI个人助手恰好是一个充分体现AI引擎如何通过不同的处理器来完成工作负载的案例。

当用户与AI助手进行交谈时,通过高通传感器中枢上运行的OpenAI自动语音识别生成式AI模型Whisper,可将语音转化为文本。随即在通过NPU上运行的大语言模型Llama 2-7B生成文本回复。CPU再通过运行开源TTS模型将文本转化为语音。整个过程中,NPU还负责实现虚拟化身与语音的输出同步,再借助音频创建融合变形动画,为嘴形和面部表情带来合适的动画效果。GPU还会在最后完成虚拟化身的渲染。

综上不难发现,整个过程尽可能的实现了本地完成。只有当遇到如机票预定这类联网问题时,才会通过云端的插件来完成操作。最大限度的确保了用户隐私安全,同时也大大减轻了云端的功耗压力。

大语言模型落地至端侧的案例背后,其实也预言了生成式AI对于电子终端在交互方式上的变革。当用户只需通过简单的对话就能获得想要的结果,调用开启相关功能,甚至是直接完成机票、商品的消费时,就意味着电子终端将在交互上打破如今在不同应用间的隔阂,用户不用反复跳转,就能在单一入口下达成所需。就像如今很多人开始通过具备联网能力的生成式AI,来替代传统搜索引擎。

策动这场智能新一轮体验变革的核心,无疑正是AI引擎。移动赛场上正在迎来的战术与理念变化,同样也需要对于核心的重新定义,已经展现出全能属性的新“10号”正在跃跃欲试。


微信扫描分享本文到朋友圈
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“YD5GAI”免费领取《中国移动:5G网络AI应用典型场景技术解决方案白皮书
  • 2、回复“5G6G”免费领取《5G_6G毫米波测试技术白皮书-2022_03-21
  • 3、回复“YD6G”免费领取《中国移动:6G至简无线接入网白皮书
  • 4、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 5、回复“ZGDX”免费领取《中国电信5GNTN技术白皮书
  • 6、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 7、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 8、回复“5GX3”免费领取《R1623501-g605G的系统架构1
  • 本周热点本月热点

     

      最热通信招聘

      最新招聘信息

    最新技术文章

    最新论坛贴子