基于FPGA的语音信号实时处理[图]

发布: 2012-06-04 14:13 | 作者: 姜元亭樊昌元杨军华 | 来源: | 字体: 小中大

相关专题：芯片

设计信号处理算法的图形化电路模块，运用硬件环（HIL Hardware in the Loop）技术对模块进行软硬件协同仿真。满足设计要求后，再用Signal Compiler 将模块转换成VHDL语言和Quartus II工程文件下载至目标芯片。结果表明此方法可以快速灵活地设计出语音处理模块，语音数据能在要求的时间范围内处理完毕，达到了实时处理的目的。

随着语音识别技术的应用越来越广，对其实时性的要求也越来越高。专用的DSP语音芯片虽然有硬件加速功能，但其指令依然是串行计算，在实时性方面有所欠缺。如今，具有并行运算能力的FPGA主频不断提高，加上其设计灵活、功耗低、体积小等优点[1]，可以满足语音信号实时处理的要求。目前很多语音处理算法都是基于软件平台的，真正的语音处理硬件实现很少。本文针对非特定人的语音信号,研究当前主流的语音处理算法，并将这些基于软件平台的算法“硬件化”。在保证一定精度的前提下将浮点运算转换成便于FPGA实现的定点运算[2]。

本文以通过对语音信号滤波、分帧、加窗、能量计算等模块的设计为例,介绍语音信号实时处理的方法，需要运用到MATLAB.、DSP Builder、QUARTUS II、ModelSim等EDA工具联合设计[3]。语音信号经过模数转换进入FPGA以后，对其滤波,因为要对信号进行实时处理，需要采用动态分帧，最后计算出每帧的能量为语音信号的下一步处理如端点检测、特征提取[4]等做好前期准备。

1 实时处理算法分析

语音数据经过A/D转换之后进入芯片，首先对其进行滤波。为了使信号的频谱趋向平坦，需要对其进行预加重滤波，这里采用一阶FIR滤波器[5]：

语音信号虽然是一种非平稳信号,但在短时内(10 ms~30 ms)可以看作是平稳的[2]，这样就可以对其进行分帧处理。在实时系统中无法确定语音的长度和大小，只能对其进行动态分帧。考虑到帧的连续性,采用交叠分帧，帧移取0.5，硬件中可以用两个FIFO实现，其中FIFO1的读时钟频率是写时钟的两倍，且FIFO2的读写时钟频率与FIFO1读时钟频率相同。

分帧后的数据需要窗函数对其加权，加窗后的语音信号为sω(n)=s(n)×ω(n)。由于汉明窗在语音频段的平滑特性，因此本文采取汉明窗[4]：

2 硬件模块的实现

仿真时通过读取hex文件来模拟实时的数据流。通过MATLAB将采样频率16 kHz，宽度8 bit的wav格式音频文件转化成hex文件的数据。部分代码如下[6]：

……

[y,fs,n]=wavread(‘speech.wav’);

y1=int8(y×(2^n-1)+128);

[a,b]=size(y1);

fid=fopen(‘speech.txt’,’wt’);

for i=1:a;

line=[num2str(i-1),’:’,num2str(y1(i)),’;’];

fprintf(fid,’%s ’,line);

end

fclose(fid);

……

在模块中通过地址计数器将ROM中的数据不断读出，然后对数据流进行滤波。其DSP Builder模块实现如图1所示。

考虑到语音信号的短时平稳性，将256点数据分为一帧写入Dual-Clock FIFO，写入128点后以两倍的写入速度读出，同时以两倍速度写入深度为128的FIFO2。如此循环便可以实现帧的交叠。具体实现如图2所示，左半部分为时钟控制模块。

为了使每帧的数据点与窗函数的数据点一一对应，在加窗之前搭建了一个时序控制模块。Constant1控制模块延时384个时钟周期，counter是模为256的计数器。将LUT设为17 964-15 073×cos([0:2×pi/255:2×pi])[6]。分帧后的信号取模然后与窗函数相乘再累加便得到其能量，由Multiply Accumulate模块实现[2]。Clock提供基础时钟，PLL产生模块所需要的两个时钟，Signal Compiler对模块进行编译，转化成VHDL语言。具体模块如图3所示。

3仿真测试

将上述三个子模块和Simulink中的模拟示波器Scope连接在一起，读取ROM中语音”1、2、3”的数据流。结果显示在示波器上，如图4所示。从上到下依次为原始信号、滤波信号、分帧信号、能量信号。

从图中可以看到设计模块已经可以实时处理数据，达到了设计要求。接下来便可以将其转换成VHDL语言在QUARTUS II中进行仿真，生成pof文件下载到FPGA里面。打开Signal Compiler，Family选择Cyclone II，Device选择ALTERA公司的EP2C5T144C6芯片。点击compile，便可以生成工程文件、VHDL代码及配置文件[1]。

以上属于软件仿真，具有速度慢、内容不易控制等缺点。ALTERA的DSP Builder提供的HIL模块可以在Simulink模型与FPGA开发板之间通过JTAG通信口建立联系，从而实现基于MATLAB/DSP Builder平台的硬件仿真。打开HIL模块，设置好工程文件speech.pof路径，连接上FPGA开发板，点击Configure FPGA便可以进行硬件仿真。打开示波器查看仿真结果与软件仿真结果吻合。在QUARTUS II中对生成的工程文件进行编译。整个系统使用了306个LE、214个寄存器、62个管脚,非常节省资源。

通过DSP Builder进行FPGA设计无论是建模还是仿真都非常方便快捷，并可以在外部硬件测试平台不够完善的条件下引入HIL模块进行软硬件联合仿真。相对于传统开发方式，具有更大的优势。在时序仿真时可以看出从语音输入到能量的输出占用640个周期,在100 MHz的工作频率下仅耗时6.4 μs，是在MATLAB下运行速度的50多倍，实时性得到了充分的体现。

参考文献

[1] 潘松,黄继业.EDA技术与VHDL(第2版)[M].北京:清华大学出版社,2007:12-19.

[2] 刘军海,基于DHMM非特定人孤立词语音识别及硬件设计研究[D].上海:上海大学,2007:35-37.

[3] 潘松,黄继业,王国栋.现代DSP技术[M].西安:西安电子科技大学出版社,2003:237-242.

[4] 王炳锡,屈丹,彭煊.实用语音识别基础[M].北京:国防工业出版社,2005:56-59.

[5] 刘静萍,姜占财,德熙嘉措.语音信号的预处理技术探讨[J].甘肃联合大学学报(自然科学版),2006,20(5):61-64.

[6] 谢秋云.基于FPGA的语音识别技术研究[D].南京:江苏大学,2007:42-48.

作者：姜元亭樊昌元杨军华来源：《微型机与应用》