现在的位置: 首页 > 综合 > 正文

语音编码

2013年06月06日 ⁄ 综合 ⁄ 共 2924字 ⁄ 字号 评论关闭

语音编码

 

第一章  音频

1.1 音频和语音的定义

   声音是携带信息的重要媒体,是通过空气传播的一种连续的波,叫声波。对声音信号的分析表明,声音信号有许多频率不同的信号组成,这类信号称为复合信号。而单一频率的信号称为分量信号。声音信号的两个基本参数频率和幅度。

1.1.1声音信号的数字化

  声音数字化包括采样和量化。采样频率由采样定理给出。

1.1.2声音质量划分

根据声音频带,声音质量分5个等级,依次为:电话、调幅广播、调频广播、光盘、数字录音带DAT(digital audio tape)的声音。

 

第二章  语音编码技术的发展和分类

现有的语音编码器大体可以分三种类型:波形编码器、音源编码器和混合编码器。一般来说,波形编码器的话音质量高,但数据率也很高。音源编码器的数据率很低,产生的合成话音音质有待提高。混合编码器使用音源编码器和波形编码器技术,数据率和音质介于二者之间。语音编码性能指标主要有比特速率、时延、复杂性和还原质量。

其中语音编码的三种最常用的技术是脉冲编码调制(PCM)、差分PCMDPCM)和增量调制(DM)。通常,公共交换电话网中的数字电话都采用这三种技术。第二类语音数字化方法主要与用于窄带传输系统或有限容量的数字设备的语音编码器有关。采用该数字化技术的设备一般被称为声码器,声码器技术现在开始展开应用,特别是用于帧中继和IP上的语音。

在具体的编码实现(如VoIP)中除压缩编码技术外,人们还应用许多其它节省带宽的技术来减少语音所占带宽,优化网络资源。静音抑制技术可将连接中的静音数据消除。语音活动检测(SAD)技术可以用来动态跟踪噪音电平,并将噪音可听度抑制到最小,并确保话路两端的语音质量和自然声音的连接。回声消除技术监听回声信号,并将它从听话人的语音信号中清除。处理话音抖动的技术则将能导致通话音质下降的信道延时与信道抖动平滑掉。

2.1波形编码

波形编解码器的思想是,编码前根据采样定理对模拟语音信号进行采样,然后进行幅度量化与二进制编码。它不利用生成语音信号的任何知识而企图产生重构信号,其波形与原始话音尽可能一致。

最简单的脉冲编码调制(PCM),即线性PCM,对语音作数/模变换后再由低通滤波器恢复出现原始的模拟语音波形。在数据率为64Kbps的时候,重构话音质量几乎与原始的话音信号没有什么差别。该量化器在20世纪80年代标准化,在美洲的压扩标准是μ律(μ-Law,在欧洲的压扩标准是A律(A-Law)。它们的优点是编解码器简单,延迟时间短,音质高。不足之处是数据速率比较高,对传输通道的错误比较敏感。

线性PCM编码还可以通过非线性量化、前后样值的差分、自适应预测等方法实现数据压缩。比如差分脉冲编码调制DPCM使用预测技术,认为话音样本之间存在相关性,因此它试图从过去的样本来预测下一个样本的值。但是这种方法对幅度急剧变化的输入信号会产生大的噪声。改进方法之一是使用自适应的预测器和量化器。如自适应差分脉冲编码调制ADPCM

另外一种频域波形编码技术叫自适应变换编码ATC。这种方法使用快速变换(如DCT)把话音信号分解成多频带,用来表示每个变换系数的位数取决于话音谱的性质,数据率可低到16Kbps

波形编码的方法简单,数码率较高,在64Kbps32Kbps之间音质优良,当数码率低于32Kbps的时候音质明显降低,16 Kbps时音质非常差。

2.2信源编码

信源编码器又称为声码器,是根据人的发声机理,在编码端对语音信号进行分析,从话音波形信号中提取出话音参数,并使用这些参数通过话音生成模型重构话音。声码器每隔一定时间分析一次语音,传送分析获得的有/无声和滤波参数。在解码端根据接收的参数再合成声音。声码器编码码率很低,可以达到1.2K---2.4Kbps,但复杂度比较高,合成语音质量较差。尽管其音质较差,但因保密性能好,一般用于军事领域。

2.3混合编码

混合编码是将波形编码和信源编码的原理结合起来,数码率约在4Kbps16Kbps之间,音质比较好,性能较好的算法所取得的音质甚至可与波形编码相当,该类算法复杂程度介于波形编码和信源编码之间。

上述的三类语音编码方案还可以分成许多不同的编码方案。

 

 

第三章    G.729编码原理与实现

1995年,国际电联批准了一个被称为G.729的新的话音压缩建议。该建议的全称为:8Kbps速率下使用共轭结构算术编码激励的线性预测编码(CS_ACELP)。该建议的算法采用8Kbps的带宽传输话音,话音质量与32KbpsADPCM(差分脉冲编码调制)相同。此后,这一压缩话音标准又得到了进一步的优化改进。

3.1介绍

G.729建议包含使用共轭结构算术编码激励的线性预测编码(CS_ACELP)的算法描述。

G.729编码器的输入是对模拟输入信号先用电话带宽滤波并按8000Hz频率采样、然后转换为16比特线性PCM的数字信号。解码器的输出则采用类似的方法转换回模拟信号。

本章主要给出一个关于CS_ACELP的概述,并简要讨论CS_ACELP编码器和解码器原理。

3.2 概述

CS_ACELP编码器是基于编码激励线性预测编码模型的。编码器针对在8KHz采样频率下长度为10毫秒的语音帧进行编码,每帧包含80个采样。对于每个10毫秒的帧,编码器对语音信号进行分析,抽取CELP模型(线性预测滤波器系数,自适应/固定码本索引和增益)。这些参数经过编码并被传输。编码器参数的比特分配如表1中所示。在解码端,这些参数被用来提取激励和合成滤波器系数。这些激励通过短期合成滤波器滤波后,语音获得重建,如图1所示。短期合成滤波器基于10次线性(LP)滤波器。长期合成滤波器(音节合成滤波器)由使用被称作适应码本的方法实现。语音重建计算完成后,还要继续经过后处理滤波器增强。

 

1

参数

码字

子帧1

子帧2

每帧合计

线性谱对

L0,L1,L2,L3

 

 

18

适应码本延迟

P1,P2

8

5

13

音节延迟奇偶

P0

1

 

1

固定码本索引

C1,C2

13

13

26

固定码本符号

S1,S2

4

4

8

码本增益(阶段1

GA1,GA2

3

3

6

码本增益(阶段2

GB1,GB2

4

4

8

总计

 

 

 

80


             
1   CELP模型框图

 

该建议的语音编码算法的描述是以位相关的定点数学运算进行的。编码器和解码器的数学描述也可以用几种其它的方法实现,但可能会导致编解码器的具体实现与该建议不完全一致。

3.3 标注习惯

在本文中都保持如下的标注习惯:

。码本用斜体字母标注(C)

。时域信号用它们的符号和用括号括住的采样下标表示[s(n)]。符号n用作采样下标。

。括号中的上标(如g(m) )用来指示时域相关的变量。根据上下文,变量m指示一帧或一子帧的序号,变量n用于指示采样序号。

。递归序号用方括号中的上标表示(如E[k]

。下标序号指示一个系数数组中的某个元素。

。符号^指示一个量化版本的参数(如g^c

。参数范围用方括号括住,并包含边界(如[0.6,0.9]

。函数log表示以10为底的对数

。函数int表示取整

。使用的十进制浮点数是16比特定点ANSI C实现的一个近似版本

2列出了建议中最密切相关的符号。表3总结了建议中的字母缩写。

 

 

 

抱歉!评论已关闭.