在语音编码技术中,对语音质量的评价是一个很重要的问题。如何评价语音编码质量也成为语音编码领域所研究的一个重要课题。对此多年来人们提出了许多方法,归纳起来大致可分为两类,即客观评定方法和主观评定方法。
客观评定方法用客观测量的手段来评价语音编码的质量,常用的方法有信噪比、加权信噪比、平均分段信噪比等。它们都是建立在度量均方误差的基础上,其特点是计算简单,但不能完全反映人对语音质量的感觉。这个问题对于速率为16Kbit/s以下的中、低速率语音编码尤为突出,因此主要适用于速率较高的波形编码类型。
主观评定方法符合人类听话时对语音质量的感觉,因而目前得到广泛应用。最主要的主观评定方法是主观评定等级(Subjective Opinion Scale),或称平均评定得分(Mean Opinion Score,缩写MOS)。MOS得分采用五级评分标准,其方法是,由数十名试听者在相同信道环境中试听并给予评分,然后对评分进行统计处理,求出平均得分。由于主观和客观上的种种原因,每次试听所得的评分会有波动。为了减小波动的误差,除了试听者人数要足够多之外,所测语音材料也要足够丰富,试听环境也应尽量保持相同。
在这里要特别需要说明的是,试听者对语音质量的主观感觉往往是和其注意力集中程度相联系的,因而,对应于主观评定等级,还有一个收听注意力等级(Listening Effect Scale)。下表给出主观评定等级的质量等级、分数和相应的收听注意力等级。
主观评定等级表
质量等级 | 分数 | 收听注意力等级 |
优 | 5 | 可完全放松,不需要注意力 |
良 | 4 | 需要注意,但不需明显集中注意力 |
满意(正常) | 3 | 中等程度的注意力 |
差 | 2 | 需要集中注意力 |
劣 | 1 | 即使努力去听,也很难听懂 |
从用户角度看,通常认为MOS分4.0~4.5分为高质量语音编码,达到长途电话网的质量要求。MOS分3.5分左右称作通信质量,这时听者能感觉到语音质量有所下降,但不影响正常的通话,可以满足多数通信系统使用要求。MOS分3.0分以下常称为合成语音质量,这种语音一般只有足够高的可懂度,但是自然度较差,不容易识别讲话者。
语音编码技术标准的制定,对数字语音技术的实用化和发展起到了推动作用。