现在的位置: 首页 > 综合 > 正文

Voice Quality Test 基本概念介绍

2013年10月14日 ⁄ 综合 ⁄ 共 2028字 ⁄ 字号 评论关闭

国际电信联盟ITU在90年代中开始对端到端的语音质量自动客观测试技术进行标准化的工作,并从此发展出三个主要的测试算法可供进行自动和可重复性的测试:

  - PAMS(Perceptual Analysis/Measurement System)是由英国电信开发出来,它根据收听费劲程度和收听质量,利用感官模型比较声源信号和经过网络传输后退化的接听信号。PAMS分析退化信号中发现的不同类型的错误,将不同类型错误参数化并映射到预测感官模型上。这个模型是在进行大量的主观听力测试后建立的一个数据库。评测的结果给出一个综合意见评分值MOS,分值范围在1-5之间,5分代表最佳质量分值。

  - PSQM(Perceptural Speech Quality Measurement)是由荷兰的KPN研究机构开发出来,用于测量数字编码器的客观质量。最早被广泛应用的编码器测量手段是测试语音信号的信噪比S/N,但这种测试方法对现代越来越多的低压缩比编码器并不适用。PSQM则比较声源信号和退化信号,测出后者的失真程度、噪音和保真度。它已被ITU制定成R.861推荐规范,并有了一个增强型算法PSQM+,可更有效地分析大量瞬时失真。但这两种算法对信号过滤、不同的延时和短暂局部失真不作处理。

  - PESQ(Perceptual Evaluation of Speech Quality)是由英国电信和KPN共同开发出来,并在2001年被ITU采纳为P.862规范。它比较声源信号和退化信号并给出一个类似人工听力评估测试的MOS分值。但它的功能要强大得多,不仅能测试象解码器这样的网络单元的效果,也能测量端到端的声音质量。它着重针对不同的信号退化原因,如编解码失真、错误、丢包、延时、抖动和过滤,给出-0.5到4.5的分值范围内的值。大多数情况下正常的分值范围在1到4.5之间,1代表最低值。

 

       - E-Model:该方法定义在ITU-T G.107当中。

PSQMPAMS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。PESQ结合了PSQMPAMS的优势,并针对MOSMOS-LQ(Listening Quality)计算方法做了修改。最开始这些方法被用于测量编码算法和在实验室分析设备问题,如分析电话机的语音质量;并且都是基于PSTN网络,因此并不适合应用到VoIP网络系统的语音测量。这些方法主要缺点体现在:

不是基于IP网络的方法,不能反应IP网络的衰减问题,如网络传输中的DelayJitterPacket Loss等问题;

不能说明End-to-End的网络延迟,而其他过多的延迟因素影响到了MOS值;

只能输出在任何时间内的某一方向的语音质量,不是真实通话中的双向结果;

无法模拟多个或成百上千个重复同步的通话。

而在ITU-T G.107中定义的E-Model方法则很好地克服了上述问题,因此非常适合VoIP语音质量的测量。E-Model模型是欧洲电信标准协会(ETSI)开发的,本来用作电信网络的传输规划工具,但该模型也在VoIP服务质量测量中广泛使用。

 

语音质量测试的主要参数包括:
  (1)时延(Delay),当一个数据包发送时,发送端在RTP报文头上增加一个时间戳;当在另一端被接收时,接收端同样记下接收包的时间戳;计算这两个时间戳之差可以得到这个数据包在网络中的通路时间,即时延。

  (2)抖动(Jitter),语音信号在发送端经过压缩打包后在网络中传输时,由于数据包传送的路径可能不同,因此不同的数据包到达接收端的时间也可能不同,计算连续语音包端到端时延的差值,即抖动值。

  (3)丢包(Packet Loss),是影响语音质量的又一个关键因素。数据包发送端和接收端之间的数据包数目的差值即为网络传输丢失包数目。当少量的丢包且是随机地分布时,人耳并不容易感觉到较差的语音质量,当丢包数量变大时,语音质量也就相应的变差。

  (4R系数,ITU-TG.107标准提出了E-Model的模型,这种模型考虑了时延、抖动、丢包、回音、编码器性能等网络损伤因素对有噪语音质量的影响[45]。根据RTP包提供的信息,在计算出时延、抖动、丢包等参数后,根据E模型提供的算法就可以求出相应的R值。R值的范围是01000是最差的,100是最好的。

  (5MOS值,MOS模型是主观评价方法,根据E模型MOS值是通过R值计算得到的。MOS值是15之间的数,1是最差的,5是最好的[6]RMOS值的关系式如下所示:

 
 
 

 

 

 

VAD: Voice Activity Detection 语音行为检测

语音行为检测(VAD)是一种当被在语音端口或拨号对等体上被开启时,只有可以听见的语音能够被传输的功能。当 VAD 被开启时,语音的质量的级别会被稍微降低,但此种连接占用的宽带相对要少一些。

 


 

抱歉!评论已关闭.