2008年两个重要的专门术语 - 移动性和汇聚性 - 正在以多种方式对无线产业界施加影响。
客户需要无论在哪里都能联络,并且享受尽可能快的连接速率,从客户到满足客户要求的多种正在形成的4G标准的开发人员的眼中,由于要做出一个选择能适合于整个产业链的所有部分,以致很难评估出完美的产品设计以及实现何种无线标准协议。
尽管面向4G的关于空时分集,空分复用,波束成形,CDMA与OFDMA . HSPA, LTE, WiMAX, 和IMT-advanced的驱动器能共存,就如同802.11g/b/n,但收发器不同的标准及协议的差别正在变大。
与此同时,通过不同的数字广播标准 —DVB-T/H, ISDB-T, DMB-T, T-DMB 和 DAB,各国纷纷树立起壁垒,且正在为使其成为当地最终的协议而战。结果是不可避免(终端)将有多个实现方式,依赖于产品开发时所处的场合(见图1)。
图1:如图示中中间的部分所示,不同标准的汇聚性将导致它们需要被用在许多相异的应用中。
移动性和汇聚性有这样的要求,即日常中用户可能会穿越不同的通讯环境,为了保持与媒体服务器的连接,能够在不同的协议中切换 --- 换句话说,就是能够支持多模。
多模的要求
如此看来,基带处理器被要求能够支持几种不同的模式,且有能力在它们之间切换。在半导体设备这一级,意味着制造商能实现一个可编程解决方案,在理想情况下整合成主应用处理器,由其创造一个新的增值设备途径,这远超出了目前通讯设备的认识范畴。
典型的基带处理解决方案已经着眼于定位多种标准调制解调器需求的挑战,它们通过简单的扩充能更好的操控额外的数据处理的能力来完成。
这种设计的主要缺陷是仅仅试图操作额外的数据业务量,而没有关注这些额外的数据流是如何通过系统的 - 或者更糟糕的是,怎样才能真正的为它编程。
但是,随着每一代通讯标准的沿革,基带处理越来越复杂,而且需要支持越来越多的标准于一个基带设备上,只是通过单纯的扩大设备的数据处理业务来进行设计已经不可行。这么做会增加功耗,也影响了电池的寿命。
传统的可编程基带方案只是专注于数据处理的改善,而疏漏了解决方案的数据吞吐和编程能力所产生的重要影响。
因为一直未能确认设计真实的瓶颈,这样的系统将终结于远超过所需的复杂性。这样的复杂性最终减少了电池的寿命,当设备被用于移动时,这似乎是不易觉察的(尽管拥有3G手机的用户知道这是当前的现实情况);4G标准甚至更加的复杂,如果没有什么改变,情况只会变得更坏。
新的途径
有没有可能使用不同的途径来应对多模和可编程的挑战?答案是有,假如所有的三个关键设计点,数据处理,数据流以及编程效率能够被一个单一的架构解决,以提供机动性同时促使功耗达到优化,并且最小化实施时间和成本。
一个新的处理架构已经被一家瑞典的公司, Coresonic AB开发出来,新的架构提供一种能克服传统DSP架构局限性的可编程基带解决方案。
通过如此的方式,它仅仅专注于数据处理问题,且迎合手持式设备的成本与功耗的要求,由IP来传送数据,这样能与别的公司设备集成在一起提供引人注目的增值产品。
新架构,被称作单指令多任务(SIMT),能够达到超长指令字架构所拥有的性能,但只需较低的控制开销,和更低的程序与内存用量。其指令集被优化用于基带处理任务,能显著的减少固件代码尺寸,即使对复杂的标准也一样。
小心的选择一些不合适软件完成的操作通过硬件加速是可以被所述架构所容纳的,不但可以得到非常有效的运行,而且仍能保证足够的灵活性以致硬件在不同的标准间得到复用。
一个创新的互联方案和内存架构能容纳高度的并行性,还有在处理器内核,内存,加速芯片和I/O接口之间高效的通讯,以及最小化数据内存需求和高效的内存访问。
可编程解决方案为达到效果,需要在各功能的灵活性与性能间寻求折中。调制解调器需要基带处理高度的灵活性,但FEC(前向纠错)和数字前端处理通常更合适使用具有较低灵活性的加速器模块。为了得到基带处理中所要求的高运算能力,需要使用超长指令字(VLIW)和单指令多数据(SIMD)架构。
基于VLIW架构的缺陷是其低效的功率应用,这是因为宽指令需要在每个时钟周期被取出。另一方面,基于纯SIMD的DSP缺乏完成不同的并行运算的可能性,导致了数据通道的低利用率。
SMIT架构
SIMT架构利用基带算法的特性,比基于VLIW/SIMD架构的基带处理器减少了控制方面的开销,并且增强了内存的利用率。
处理器架构使用向量指令,在SIMD执行单元中操作大数据集。关键是做到每个时钟周期仅有一条指令执行,但允许并行执行若干个操作,如同向量指令可以在SIMD单元上持续运行数个时钟周期。
这种方法导致一定程度的等效于VLIW处理器的并行性,却无需因为需要庞大的控制通道所带来的开销。调制解调器很大程度上,由在巨大的向量型数据上所执行的操作组成,用于获得一个拥有高利用率低开销运行单元的处理器。
例如,当CMAC(复数乘加器)执行FFT的一层运算时,整型数据通道能够运行操作系统任务;当加速维特比解码器以最大吞吐速率并行执行时,CALU(复数算术逻辑元)能完成导频的提取。
要想能充分利用SIMT的架构,几个关键组件是必须的:高效的向量执行单元,一个匹配的内存机制,并行的内存寻址系统,以及有能力管理多个线程的控制核心。
SIMT架构利用多重复数SIMD执行簇,如4路复数乘加器(MAC)和4路复数算术逻辑单元(ALU)。每个SIMD簇能够独立于其它的执行单元处理一个任务。
为了能协同各向量的操作,一个分布式内存被使用。系统的内存被分割成若干个具有独立的地址产生单元的内存段,与片上网络一起提高了内存部分的功率效率。
片上的网络由受限的四通开关来实现,直接受软件的控制。因为允许软件工具使用静态调度算法,所以无需仲裁器且其性能是可以充分预期的。
所述处理器是由RISC内核控制的,它包含指令分发逻辑和支持多上下文的功能。RISC内核执行所有的控制流功能以及整数型指令。
SIMT处理器管理所有的复数型处理函数,这些函数介于ADC/DAC和FEC单元之间。处理器在RISC内核和一个数字前端加速器外增加了两个SIMD单元,一个是4路CMAC,另一个是4路CALU。
SIMT架构的处理器已经在实验室的环境中得以实现。这个开发出的芯片总共包含1.5M比特内存,被分配为43k word用于复数存储器,4k word用于整数存储器,2k word用于程序存储器。当单个的向量指令执行计算时,程序存储器的利用率是非常高的,如执行一个向量的复数点乘,或一个完整的FFT运算层。
本架构合适于在典型的仅有2k word的程序存储空间和少于8k word的但完整的WiMAX协议栈内执行完整的DVB-T/H协议。
可编程能力
可编程能力赋予了硬件的重利用不仅仅在于不同的无线通讯标准之间,还包括不同的处理流程部分之间。通过硬件的复用,可编程的解决方案比硬件连线的方案减小了硅片面积,甚至比只需实现单一标准的硬件连线方案更小。更小的硅片也导致了更低的功耗,这是因为减少了漏电及片上通讯的功耗。
使用本文所述的SIMT架构的面向移动WiMAX和 DVB-T/H所开发的处理器已经在一个完整的接收器上得到了实现。结果是 - 相比于尖端的硬件方案,用于运行31.67Mb/s的DVB-T业务的基于SIMT的处理器估计少了18%的硅片面积和21%的功耗,当与可编程方案比较,典型的差异在尺寸的50%和70%之间。
通过算法映射,调度算法,以及在实际硬件上进行的模拟和测试,可以实现对WiMAX的支持。与其他可称得算是尖端的解决方案相比较,基于SIMT架构的方案被证明具有更高效的面积和功率利用率。
除了借助于现代合成技术和后端工具的低功率物理材料设计工艺之外,低功耗是通过结构级的设计而不是通过使用特殊的低功耗工艺(器件)获得的。
通过使用向量指令和分散的内存系统,增强了数据和控制的局部性,因此SIMT架构减少了控制的开销。内存访问功耗由于仅使用小型单端口存储器和减少了内存访问量而减少。
不采用任何优化和现代功率控制技术,在实验室中,完全可编程的DVB-T/H 基带处理器原型机被实现在11平方毫米,0.12微米的CMOS芯片上,它包括1.5M比特的单端口内存和200k逻辑门电路。
DVB-T/H基带原型机当承载最大数据流,31.67Mb/s时所测出的功耗为70毫瓦,运行频率为70MHz。在原型机上所作的工作说明本架构在尺寸和功耗上都强于以往的非可编程 DVB-T/H解决方案,甚至可以忽略相当程度的在结构设计上所做的优化。
SIMT付诸实现
SIMT描述的架构和图示过去一直是实验室工作的一部分。现在可用于完全硬件的方案中,这些方案被用于无线半导体制造业中,使用Coresonic公司的LeoCore工艺把完整的WiMAX基带功能整合到WiMAX个人可携式设备中(见图2)。
图2:Coresonic公司所提供完整解决方案的WiMAX个人便携式设备,从RF接口直到CPU中运行的MAC层接口。
此设备支持移动WiMAX802.16e-2005,移动系统概要1.4版, 此版本也支持其他的模式,如802.16d和802.16j.
设备执行所有从ADC/DAC接口到FEC的工作,包括数字前端信号调节,同步,MIMO信道估计/补偿,纠错和卷积码。
图中所有的构建方块实现了从RF接口至CPU上运行的MAC层完整的解决方案;这个密集处理阵列由硬件完成用以把MAC CPU的负荷减到最小。除了硬件之外,也提供了固件来支持多种不同的标准,更进一步减少了开发的时间和风险。
结论
综合地说,本文所述新的SIMT架构为整合出高效的复合基带处理器提供了一个方法。作为这个方法的一个部分,有着大量核心构建块,围绕它们补充有额外的加速器,接口和存储块来构建所需要的方案。
本架构克服了数据处理,数据流和易编程性的挑战,展示了一个极精炼的4G基带解决方案。其效果可使一个完整的解决方案尺寸达到其它方案中高速指令缓存器一样小,且只需很低的时钟速率,但提供了更高的功率效率。
通过使用这样一种经过特别优化的用于多模无线基带处理的架构,可编程解决方案将能支持4G等多种无线标准,如WiMAX,而功率和空间利用率相当于或优于硬件解决方案。
基于SIMT架构的处理器可以单指令流并行处理 - 消除了为支持多标准而产生的对多个DSP的需要 - 且能与设计者自己独有的产品设计结合在一起来提供一个高附加值的组件。
作者介绍
Dake Liu 教授,16年大学中研究和教学经验,另有6年瑞典业界的研发经历。曾为Freehand DSP AB 的CTO和合作创始人,后又为VIA Technologies Sweden的首席科学家。先前曾为Ericsson Microelectronics和 Ericsson UAB的资深成员。他也是Linkping 大学的计算机工程学教授。
Coresonic AB的主要系统工程师和共同创始人。他曾在瑞典Linkping 大学学习并获得应用物理和电子工程硕士学位,和‘多标准基带处理器设计’方面的博士学位。他的研究方向包括高速无线移动连接,无线电工艺和基带处理其设计;他有3个美国专利(2个正处在申请中),同时是 'Radio Design in Nanometer Technologies' 和 'Handbook of WiMAX'的联合作者