语音编码器汇总

现在的位置: 首页 > 综合 > 正文

语音编码器汇总

2013年10月10日 ⁄ 综合 ⁄ 共 25430字 ⁄ 字号小中大 ⁄ 评论关闭

语音编码器汇总：

EVRC系列：QCELP(8kbps,13kbps)->EVRC(RCELP技术，FR 8.55Kbps,1995年在CDMA2000中替代前者)->EVRC-B(2007年替代前者)->SMV(CDMA2000 4GV中替代前者)->VMR-WB(Nokia和VoiceAge开发)

AMR系列：GSM(6.5kbps,13kbps)->AMR-NB(ACELP技术，1997年替代前者在GSM中)->AMR-WB(WCDMA)->AMR-WB+(WCDMA)->VMR->WB(FD-LTE(我分析))

MBE系列: MBE->IMBE->AMBE->AMBE+->AMBE+2->MQ-HTC

ILBC->ISAC(GIPS)

SVOPC->SILK(Skype)

Speex(Xiph)

ALCWI(Spirit DSP)

G.722(ADPCM),G.726(ADPCM),
G.723(DPCM)
G.723.1(MPC-MLQ)：6.3 kbit/s， MOS 3.9
G.723.1(ACELP 6.3 kbit/s，MOS 3.62),G.728(LD-CELP),G.729(CS-CELP),G.729a(ACELP)
G.729.1(CELP + TDBWE)

EVRC-B 使用 Prototype Pitch Period (PPP) 方法编码stationary voice frames

使用 Noise Excitation Linear Prediction (NELP) 编码efficient coding of unvoiced or noise frames.

欧洲数字电话标准（ETSI制定），移动电话标准

北美数字电话标准

日本数字蜂窝电话标准

保密通话标准（美国国防部制定DoD）

卫星电话标准（国际海事卫星公司（INMARSAT））

编码标准	IMBE	AMBE
年代	1990	1997
比特率/kbps	4.15	3.6
质量
延时/ms	78.75

Speech codecs
ITU-T [G.711, G711.1, G.722, G.722.1, G.722.2, G.723.1A, G.726, G.728, G.729/A/B/D/E/G, and G.729.1]
GSM/ETSI/CDMA/Bluetooth [AMR-NB, AMR-WB, AMR-WB+, EVRC-A, EVRC-B, EVRC-C, and SBC]
Open Source [iLBC and Speex]

Audio codecs
IMA-ADPCM, MP3, EAAC+, Microsoft® RTA, WMA Pro, Ogg Vorbis, and FLAC
Video codecs
H.264 Encoder/Decoder

Miscellaneous modules
Voice activity detection (VAD), comfort noise (CNG), packet loss concealment (PLC), DTMF generation/detection, etc. 语音压缩编码 (G.711, G.723, G.726, G.729，AMR)

各种各样的编解码在各种领域得到广泛的应用，下面就把各种codec的压缩率进行一下比较，不正确之处望各位同行指正。
Speech codec：
现主要有的speech codec 有: G.711, G.723, G.726 , G.729, ILBC
QCELP, EVRC, AMR, SMV

主要的audio codec 有:
real audio, AAC, AC3, MP3, WMA, SBC等，各种编解码都有其应用的重点领域。

本文主要对speech codec相关指标进行总结：
ITU 推出G.7XX系列的speech codec, 目前广泛应用的有：G.711，G.723, G.726, G.729. 每一种又有很多分支，如G.729就有g.729A, g.729B and g.729AB

G.711:
            G.711就是语音模拟信号的一种非线性量化，细分有二种:G.711 A-law and G.711 u-law.不同的国家和地方都会选取一种作为自己的标准. G.711 bitrate 是64kbps. 详细的资料可以在ITU 上下到相关的spec，下面主要列出一些性能参数：
    G.711（PCM方式：PCM＝脉码调制：Pulse Code Modulation）
• 采样率：8kHz
• 信息量：64kbps／channel
• 理论延迟：0.125msec
• 品质：MOS值4.10

G.723.1:
        G.723.1是一个双速率的语音编码器，是 ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法；
其目标应用系统包括H.323、H.324等多媒体通信系统，目前该算法已成为IP电话系统中的必选算法之一；编码器的帧长为30ms，还有7.5ms的前瞻，编码器的算法时延为37.5ms；编码器首先对语音信号进行传统电话带宽的滤波（基于G.712），再对语音信号用传统8000-Hz速率进行抽样（基于G.711），并变换成16 bit线性PCM码作为该编码器的输入；
在解码器中对输出进行逆操作来重构语音信号；高速率编码器使用多脉冲最大似然量化（MP-MLQ），低速率编码器使用代数码激励线性预测（ACELP）方法，编码器和解码器都必须支持此两种速率，并能够在帧间对两种速率进行转换；
此系统同样能够对音乐和其他音频信号进行压缩和解压缩，但它对语音信号来说是最优的；采用了执行不连续传输的静音压缩，这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外，这种技术使发信机的调制解调器保持连续工作，并且避免了载波信号的时通时断。

G.726:
       G.726有四种码率：, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM)，最为常用的方式是 32 kbit/s，但由于其只是 G.711速率的一半，所以可将网络的可利用空间增加了一倍。G.726具体规定了一个 64 kbpsA-law 或 µ-law PCM 信号是如何被转化为40, 32, 24或16 kbps 的 ADPCM 通道的。在这些通道中，24和16 kbps 的通道被用于数字电路倍增设备(DCME)中的语音传输，而40
kbps 通道则被用于 DCME 中的数据解调信号（尤其是4800 kbps 或更高的调制解调器）。
G.726 encoder 输入一般都是G.711 encoder的输出：64kbps A-law or u-law.其算法实质就是一个ADPCM，自适应量化算法。

G.729:
    G..729语音压缩编译码算法
采用算法是共轭结构的代数码激励线性预测(CSACELP)，是基于CELP编码模型的算法；能够实现很高的语音质量（长话音质）和很低的算法延世；算法帧长为10ms，编码器含5ms前瞻，算法时延15ms；其重建语音质量在大多数工作环境下等同于32kb/s的ADPCM（G.726），MOS分大于 4.0；编码时输入16bitPCM语音信号，输出2进制比特流；译码时输入为2进制比特流，输出16bitPCM语音信号；在语音信号8KHz取样的基础上，16bit线性PCM后进行编码，压缩后数据速率为8Kbps；具有相当于16：1的压缩率。
    G.729系列在当前的VOIP得到广泛的应用，且相关分支较多，可以直接从ITU网上得到source code 和相关文档。
   G.729（CS-ACELP方式：Conjugate Structure Algebraic Code Excited Linear Prediction）
• 采样率：8kHz
• 信息量：8kbps／channel
• 帧长：10msec
• 理论延迟：15msec
• 品质：MOS值3.9

iLBC(internet low bitrate codec):
是全球著名语音引擎提供商Global IP Sound开发，它是低比特率的编码解码器，提供在丢包时具有的强大的健壮性。iLBC 提供的语音音质等同于或超过 G.729 和 G.723.1，并比其它低比特率的编码解码器更能阻止丢包。iLBC 以13.3 kb/s (每帧30毫秒)和15.2 kb/s (每帧20毫秒)速度运行，很适合拨号连接。
iLBC的主要优势在于对丢包的处理能力。iLBC独立处理每一个语音包，是一种理想的包交换网络语音编解码。在正常情况下，iLBC会记录下当前数据的相关参数和激励信号，以便在之后的数据丢失的情况下进行处理；在当前数据接收正常而之前数据包丢失的情况下，iLBC会对当前解码出的语音和之前模拟生成的语音进行平滑处理，以消除不连贯的感觉；在当前数据包丢失的情况下，iLBC会对之前记录下来的激励信号作相关处理并与随机信号进行混合，以得到模拟的激励信号，从而得到替代丢失语音的模拟语音。总的来说，和标准的低位速率编解码相比，iLBC使用更多自然、清晰的元素，精确的模仿出原始语音信号，被誉为更适合包交换网络使用的可获得高语音质量的编解码。
　　此外，大部分标准的低位速率编解码，如G.723.1和G.729，仅对300Hz——3400Hz的频率范围进行编码。在这个频率范围里，用 G.711编解码所达到的语音质量，就是传统PSTN网络进行语音通话的效果。
　　iLBC充分利用了0——4000Hz的频率带宽进行编码，拥有超清晰的语音质量，这大大超出传统300Hz——3400Hz的频率范围。
　　广受欢迎的Skype网络电话的核心技术之一就是iLBC语音编解码技术，Global IP Sound称该编码器语音品质优于PSTN，而且能忍受高达30%的封包损失。
　　总的来说，在相同的包交换通信条件下，iLBC的语音质量效果比G.729、G.723.1以及G.711更好，声音更加圆润饱满，且丢包率越高，iLBC在语音质量上的优势就越明显！
　　目前，在国际市场上已经有很多VoIP的设备和应用厂商把iLBC集成到他们的产品中。如：Skype, Nortel等。在国内市场上，目前尚无VoIP厂家正式推出支持“iLBC”的网关设备，迅时公司率先推出支持“iLBC”的中继网关和IAD设备。

音频编码器汇总：

音频编码汇总

PCMU(G.711U)
类型：Audio
制定者：ITU-T
所需频宽：64Kbps(90.4)
特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。
优点：语音质量优
缺点：占用的带宽较高
应用领域：voip
版税方式：Free
备注：PCMU and PCMA都能够达到CD音质，但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低，可以选用低比特速率的编码方法，如G.723或G.729，这两种编码的方法也能达到传统长途电话的音质，但是需要很少的带宽（G723需要5.3/6.3kbps，G729需要8kbps）。如果带宽足够并且需要更好的语音质量，就使用PCMU 和 PCMA，甚至可以使用宽带的编码方法G722(64kbps)，这可以提供有高保真度的音质。

PCMA(G.711A)
类型：Audio
制定者：ITU-T
所需频宽：64Kbps(90.4)
特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。
优点：语音质量优
缺点：占用的带宽较高
应用领域：voip
版税方式：Free
备注：PCMU and PCMA都能够达到CD音质，但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低，可以选用低比特速率的编码方法，如G.723或G.729，这两种编码的方法也能达到传统长途电话的音质，但是需要很少的带宽（G723需要5.3/6.3kbps，G729需要8kbps）。如果带宽足够并且需要更好的语音质量，就使用PCMU 和 PCMA，甚至可以使用宽带的编码方法G722(64kbps)，这可以提供有高保真度的音质。

ADPCM(自适应差分PCM)
类型：Audio
制定者：ITU-T
所需频宽：32Kbps
特性：ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：
   ①利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值；
   ②使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。
优点：算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）
缺点：声音质量一般
应用领域：voip
版税方式：Free
备注：ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一种针对 16bit (或者更高?) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比 1:4. 而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径。

LPC(Linear Predictive Coding，线性预测编码)
类型：Audio
制定者：
所需频宽：2Kbps-4.8Kbps
特性：压缩比大，计算量大，音质不高，廉价
优点：压缩比大,廉价
缺点：计算量大，语音质量不是很好，自然度较低
应用领域：voip
版税方式：Free
备注：参数编码又称为声源编码，是将信源信号在频率域或其它正交变换域提取特征参数，并将其变换成数字代码进行传输。译码为其反过程，将收到的数字序列经变换恢复特征参量，再根据特征参量重建语音信号。具体说，参数编码是通过对语音信号特征参数的提取和编码，力图使重建语音信号具有尽可能高的准确性，但重建信号的波形同原语音信号的波形可能会有相当大的差别。如：线性预测编码（LPC）及其它各种改进型都属于参数编码。该编码比特率可压缩到2Kbit/s-4.8Kbit/s，甚至更低，但语音质量只能达到中等，特别是自然度较低。

CELP(Code Excited Linear Prediction，码激励线性预测编码)
类型：Audio
制定者：欧洲通信标准协会（ETSI）
所需频宽：4～16Kbps的速率
特性：改善语音的质量：
   ① 对误差信号进行感觉加权，利用人类听觉的掩蔽特性来提高语音的主观质量；
   ②用分数延迟改进基音预测，使浊音的表达更为准确，尤其改善了女性语音的质量；
   ③ 使用修正的MSPE准则来寻找 “最佳”的延迟，使得基音周期延迟的外形更为平滑；
   ④根据长时预测的效率，调整随机激励矢量的大小，提高语音的主观质量；    ⑤ 使用基于信道错误率估计的自适应平滑器，在信道误码率较高的情况下也能合成自然度较高的语音。
   结论：
   ① CELP算法在低速率编码环境下可以得到令人满意的压缩效果；
   ②使用快速算法，可以有效地降低CELP算法的复杂度，使它完全可以实时地实现；
   ③CELP可以成功地对各种不同类型的语音信号进行编码，这种适应性对于真实环境，尤其是背景噪声存在时更为重要。
优点：用很低的带宽提供了较清晰的语音
缺点：
应用领域：voip
版税方式：Free
备注：1999年欧洲通信标准协会（ETSI）推出了基于码激励线性预测编码（CELP）的第三代移动通信语音编码标准自适应多速率语音编码器（AMR），其中最低速率为4.75kb/s，达到通信质量。CELP 码激励线性预测编码是Code Excited Linear Prediction的缩写。CELP是近10年来最成功的语音编码算法。
   CELP语音编码算法用线性预测提取声道参数，用一个包含许多典型的激励矢量的码本作为激励参数，每次编码时都在这个码本中搜索一个最佳的激励矢量，这个激励矢量的编码值就是这个序列的码本中的序号。
   CELP已经被许多语音编码标准所采用，美国联邦标准FS1016就是采用CELP的编码方法，主要用于高质量的窄带语音保密通信。CELP (Code-Excited Linear Prediction) 这是一个简化的 LPC 算法，以其低比特率著称 (4800-9600Kbps)，具有很清晰的语音品质和很高的背景噪音免疫性。CELP是一种在中低速率上广泛使用的语音压缩编码方案。

G.711
类型：Audio
制定者：ITU-T
所需频宽：64Kbps
特性：算法复杂度小，音质一般
优点：算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）
缺点：占用的带宽较高
应用领域：voip
版税方式：Free
备注：70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM。

G.721
类型：Audio
制定者：ITU-T
所需频宽：32Kbps
特性：相对于PCMA和PCMU，其压缩比较高，可以提供2：1的压缩比。
优点：压缩比大
缺点：声音质量一般
应用领域：voip
版税方式：Free
备注：子带ADPCM（SB-ADPCM）技术。G.721标准是一个代码转换系统。它使用ADPCM转换技术，实现64 kb/s A律或μ律PCM速率和32 kb/s速率之间的相互转换。

G.722
类型：Audio
制定者：ITU-T
所需频宽：64Kbps
特性：G722能提供高保真的语音质量
优点：音质好
缺点：带宽要求高
应用领域：voip
版税方式：Free
备注：子带ADPCM（SB-ADPCM）技术

G.723(低码率语音编码算法)
类型：Audio
制定者：ITU-T
所需频宽：5.3Kbps/6.3Kbps
特性：语音质量接近良，带宽要求低，高效实现，便于多路扩展，可利用C5402片内16kRAM实现53coder。达到ITU-TG723要求的语音质量，性能稳定。可用于IP电话语音信源编码或高效语音压缩存储。
优点：码率低，带宽要求较小。并达到ITU-TG723要求的语音质量，性能稳定。
缺点：声音质量一般
应用领域：voip
版税方式：Free
备注：G.723语音编码器是一种用于多媒体通信，编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。G.723标准是国际电信联盟（ITU）制定的多媒体通信标准中的一个组成部分，可以应用于IP电话等系统中。其中，5.3kbits/s码率编码器采用多脉冲最大似然量化技术（MP－MLQ），6.3kbits/s码率编码器采用代数码激励线性预测技术。

G.723.1(双速率语音编码算法)
类型：Audio
制定者：ITU-T
所需频宽：5.3Kbps(22.9)
特性：能够对音乐和其他音频信号进行压缩和解压缩，但它对语音信号来说是最优的。G.723.1采用了执行不连续传输的静音压缩，这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外，这种技术使发信机的调制解调器保持连续工作，并且避免了载波信号的时通时断。
优点：码率低，带宽要求较小。并达到ITU-TG723要求的语音质量，性能稳定,避免了载波信号的时通时断。
缺点：语音质量一般
应用领域：voip
版税方式：Free
备注：G.723.1算法是 ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法，其目标应用系统包括H.323、H.324等多媒体通信系统。目前该算法已成为IP电话系统中的必选算法之一。

G.728
类型：Audio
制定者：ITU-T
所需频宽：16Kbps/8Kbps
特性：用于IP电话、卫星通信、语音存储等多个领域。G.728是一种低时延编码器，但它比其它的编码器都复杂，这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。
优点：后向自适应，采用自适应后置滤波器来提高其性能
缺点：比其它的编码器都复杂
应用领域：voip
版税方式：Free
备注：G.728 16kb/s短延时码本激励线性预测编码（LD-CELP）。1996年ITU公布了G.728 8kb/s的CS－ACELP算法，可以用于IP电话、卫星通信、语音存储等多个领域。16 kbps G.728低时延码激励线性预测。
G.728是低比特线性预测合成分析编码器（G.729和G.723.1）和后向ADPCM编码器的混合体。G.728是LD-CELP编码器，它一次只处理5个样点。对于低速率（56~128 kbps）的综合业务数字网（ISDN）可视电话，G.728是一种建议采用的语音编码器。由于其后向自适应特性，因此G.728是一种低时延编码器，但它比其它的编码器都复杂，这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。

G.729
类型：Audio
制定者：ITU-T
所需频宽：8Kbps
特性：在良好的信道条件下要达到长话质量，在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中，包括ＩＰ电话、无线通信、数字卫星系统和数字专用线路。
   G.729算法采用“共轭结构代数码本激励线性预测编码方案”（CS-ACELP）算法。这种算法综合了波形编码和参数编码的优点，以自适应预测编码技术为基础，采用了矢量量化、合成分析和感觉加权等技术。
   G.729编码器是为低时延应用设计的，它的帧长只有10ms，处理时延也是10ms，再加上5ms的前视，这就使得G.729产生的点到点的时延为25ms，比特率为8 kbps。
优点：语音质量良，应用领域很广泛，采用了矢量量化、合成分析和感觉加权，提供了对帧丢失和分组丢失的隐藏处理机制
缺点：在处理随机比特错误方面性能不好。
应用领域：voip
版税方式：Free
备注：国际电信联盟（ITU-T）于1995年11月正式通过了G.729。 ITU-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)，它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。

G.729A
类型：Audio
制定者：ITU-T
所需频宽：8Kbps(34.4)
特性：复杂性较G.729低，性能较G.729差。
优点：语音质量良，降低了计算的复杂度以便于实时实现，提供了对帧丢失和分组丢失的隐藏处理机制
缺点：性能较G.729差
应用领域：voip
版税方式：Free
备注：96年ITU-T又制定了G.729的简化方案G.729A，主要降低了计算的复杂度以便于实时实现，因此目前使用的都是G.729A。

GIPS
类型：Audio
制定者：瑞典Global IP Sound公司
所需频宽：
特性：GIPS技术可根据带宽状况自动调节编码码率，提供低码率高质量的音频。GIPS的核心技术（网络自适应算法，丢包补偿算法和回声消除算法）可很好地解决语音延迟与回声问题，带来完美音质，提供比电话还清晰的语音通话效果。
优点：很好地解决语音延迟与回声问题，带来完美音质，提供比电话还清晰的语音通话效果
缺点：不是Free
应用领域：voip
版税方式：每年支付一笔使用权费用
备注：GIPS音频技术是由来自瑞典的全球顶尖的语音处理高科技公司--"GLOBAL IP SOUND"提供的专用于互联网的语音压缩引擎系统。GIPS技术可根据带宽状况自动调节编码码率，提供低码率高质量的音频。GIPS的核心技术（网络自适应算法，丢包补偿算法和回声消除算法）可很好地解决语音延迟与回声问题，带来完美音质，提供比电话还清晰的语音通话效果。

Apt-X
类型：Audio
制定者：Audio Processing Technology 公司
所需频宽：10Hz to 22.5 kHz，56kbit/s to 576 kbit/s(16 bit 7.5 kHz mono to 24-bit, 22.5kHz stereo)
特性：主要用于专业音频领域，提供高品质的音频。其特点是：
   ①采用4:1:4的压缩与放大方案；
   ②硬件低复杂度；
   ③极低的编码延迟；
   ④由单芯片实现；
   ⑤单声道或立体声编解码；
   ⑥只需单设备即可实现22.5kHz的双通道立体声；
   ⑦高达48kHz的采样频率；
   ⑧容错性好；
   ⑨完整的AUTOSYNC™编解码同步方案；
   ⑩低功率消耗
优点：高品质的音频，硬件复杂度低，设备要求低
缺点：不是Free
应用领域：voip
版税方式：一次性付费
备注：子带ADPCM（SB-ADPCM）技术

NICAM(Near Instantaneous Companded Audio Multiplex 准瞬时压扩音频复用)
类型：Audio
制定者：英国BBC广播公司
所需频宽：728Kbps
特性：应用范围及其广泛，可用它进行立体声或双语广播
优点：应用范围及其广泛，信噪比高，动态范围宽、音质同CD相媲美，故名丽音，因此NICAM又称为丽音
缺点：不是Free，频宽要求高
应用领域：voip
版税方式：一次性付费
备注：NICAM也称丽音，它是英文Near-Instantaneously Companded Audio Multiplex的缩写，其含义为准瞬时压扩音频复用，是由英国BBC广播公司开发研究成功的。
通俗地说NICAM技术实际上就是双声道数字声技术，其应用范围及其广泛，最典型的应用便是电视广播附加双声道数字声技术，利用它进行立体声或双语广播，以充分利用电视频道的频谱资源。这是在常规电视广播的基础上无需增加许多投资就可以实现的。在进行立体声广播时，它提高了音频的信号质量，使其接近CD的质量。而且还可以利用NICAM技术进行高速数据广播及其他数据传输的增殖服务，这在当今的信息化社会中似乎就显得尤为重要了！

MPEG-1 audio layer 1
类型：Audio
制定者：MPEG
所需频宽：384kbps（压缩4倍）
特性：编码简单，用于数字盒式录音磁带，2声道，VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。
优点：压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。可以达到“完全透明”的声音质量（EBU音质标准）
缺点：频宽要求较高
应用领域：voip
版税方式：Free
备注：MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准，它分为三个层次：
--层1(Layer 1)：编码简单，用于数字盒式录音磁带
--层2(Layer 2)：算法复杂度中等，用于数字音频广播(DAB)和VCD等
--层3(Layer 3)：编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍

MUSICAM(MPEG-1 audio layer 2,即MP2)
类型：Audio
制定者：MPEG
所需频宽：256～192kbps（压缩6～8倍）
特性：算法复杂度中等，用于数字音频广播(DAB)和VCD等，2声道，而MUSICAM由于其适当的复杂程度和优秀的声音质量，在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。
优点：压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。可以达到“完全透明”的声音质量（EBU音质标准）
缺点：
应用领域：voip
版税方式：Free
备注：同MPEG-1 audio layer 1

MP3(MPEG-1 audio layer 3)
类型：Audio
制定者：MPEG
所需频宽：128～112kbps（压缩10～12倍）
特性：编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍，2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术，在当时的技术条件下，MP3的复杂度显得相对较高，编码不利于实时，但由于MP3在低码率条件下高水准的声音质量，使得它成为软解压及网络广播的宠儿。
优点：压缩比高，适合用于互联网上的传播
缺点：MP3在128KBitrate及以下时，会出现明显的高频丢失
应用领域：voip
版税方式：Free
备注：同MPEG-1 audio layer 1

MPEG-2 audio layer
类型：Audio
制定者：MPEG
所需频宽：与MPEG-1层1，层2，层3相同
特性：MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器，层1, 层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声。
优点：支持5.1声道和7.1声道的环绕立体声
缺点：
应用领域：voip
版税方式：按个收取
备注：MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器，层1, 层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声。

AAC(Advanced Audio Coding，先进音频编码)
类型：Audio
制定者：MPEG
所需频宽：96-128 kbps
特性：AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道，以及15路数据。它可同时传送16套节目，每套节目的音频及数据结构可任意规定。
   AAC主要可能的应用范围集中在因特网网络传播、数字音频广播，包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48 个主要音频通道，16 个低频增强通道，16 个集成数据流, 16 个配音，16 种编排。
优点：支持多种音频声道组合，提供优质的音质
缺点：
应用领域：voip
版税方式：一次性收费
备注：AAC于1997年形成国际标准ISO 13818-7。先进音频编码（Advanced Audio Coding--AAC）开发成功，成为继MPEG-2音频标准（ISO/IEC13818-3）之后的新一代音频压缩标准。
   在MPEG-2制订的早期，本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地，这个标准是不兼容MPEG-1的，因此被称为MPEG-2 AAC。换句话说，从表面上看，要制作和播放AAC，都需要使用与MP3完全不同的工具。

Dolby AC-3
类型：Audio
制定者：美国杜比公司
所需频宽：64kbps
特性：提供的环绕立体声系统由5个全频带声道加一个超低音声道组成，6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果，在数字电视、DVD和家庭影院中广泛使用。
优点：环绕立体声，信息损失很少，细节丰富，具有真正的立体声效果
缺点：
应用领域：voip
版税方式：按个收取
备注：杜比数字AC-3（Dolby Digital AC-3）：美国杜比公司开发的多声道全频带声音编码系统，它提供的环绕立体声系统由5个全频带声道加一个超低音声道组成，6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果，在数字电视、DVD和家庭影院中广泛使用。

ASPEC（Audio Spectral Perceptual Entropy Coding）
类型：Audio
制定者：AT&T
所需频宽：64kps
特性：音频质量获得显著改善，不过计算复杂度也大大提高，而且在回响、低码率时声音质量严重下降。
优点：音频质量获得显著改善
缺点：计算复杂度的提高。块边界影响、预计算复杂度的提高。回响、低码率时声音质量严重下降
应用领域：voip
版税方式：按个收取
备注：变换压缩技术

PAC（Perceptual Audio Coder）
类型：Audio
制定者：AT&T
所需频宽：64kps
特性：音频质量获得显著改善，不过在回响、低码率时声音质量严重下降。
优点：音频质量获得显著改善
缺点：块边界影响、预回响、低码率时声音质量严重下降
应用领域：voip
版税方式：按个收取
备注：变换压缩技术

HR
类型：Audio
制定者：飞利浦
所需频宽：8Kbps
特性：以增加GSM网络容量为目的,但是会损害语音质量;由于现在网络频率紧缺,一些大的运营商已经在大城市密集地带开通此方式以增加容量。
优点：系统容量大
缺点：语音质量差
应用领域：GSM
版税方式：按个收费
备注：HF半速率,是一种GSM语音编码方式。

FR
类型：Audio
制定者：飞利浦
所需频宽：13Kbps
特性：是一般的GSM手机的通信编码方式,可以获得达到4.1左右Qos的语音通信质量(国际电联规定语音通信质量Qos满分为5)
优点：语音质量得到了提高
缺点：系统容量降低
应用领域：GSM
版税方式：按个收费
备注：FR全速率，是一种GSM语音编码方式。

EFR
类型：Audio
制定者：飞利浦
所需频宽：13Kbps
特性：用于GSM手机基于全速率13Kbps的语音编码和发送,可以获得更好更清晰的语音质量(接近Qos4.7),需要网络服务商开通此项网络功能，手机才能配合实现。
优点：音质好
缺点：需要网络服务商开通此项网络功能，且系统容量降低
应用领域：GSM
版税方式：按个收费
备注：EFR增强型全速率,一种GSM网络语音的编码方式。

GSM-AMR(Adaptive Multi-Rate)
类型：Audio
制定者：飞利浦
所需频宽：8Kbps(4.75 Kbps~12.2 Kbps)
特性：可以对语音进行替换和消音，平滑噪音，支持间断式传输，对语音进行动态侦查。能在各种网络条件下提供优质的语音效果。
优点：音质出色
缺点：
应用领域：GSM
版税方式：按个收费
备注：GSM-ASM是一种广泛使用在GPRS和W-CDMA网络上的音频标准。在规范ETSI GSM06.90中对GSM-AMR进行了定义。AMR语音编码是GSM 2+和WCDMA的默认编码标准，是第三代无线通讯系统的语音编码标准。GSM-AMR标准基于ACELP（代数激励线性预测）编码。它能在广泛的传输条件下提供高品质的语音效果。

EVRC(Enhanced Variable Rate Coder，增强型可变速率编码器)
类型：Audio
制定者：美国Qualcomm通信公司(即高通)
所需频宽：8Kbps或13Kbps
特性：支持三种码率（9.6 Kbps, 4.8 Kbps 和 1.2 Kbps），噪声抑制，邮件过滤。能在各种网络条件下提供优质的语音效果。
优点：音质出色
缺点：
应用领域：CDMA
版税方式：按个收费
备注：EVRC编码广泛使用于CDMA网络。EVRC标准遵循规范TIA IS-127的内容。EVRC编码基于RCELP（松弛码激励线性预测）标准。该编码可以以Rate 1（171bits/packet），Rate 1/2（80bits/packet）或是Rate 1/8（16bits/packet）的容量进行操作。在要求下，它也能产生空包（0bits/packet）。

QCELP(QualComm Code Excited Linear Predictive，受激线性预测编码)
类型：Audio
制定者：美国Qualcomm通信公司(即高通)
所需频宽：8k的语音编码算法(可工作于4/4.8/8/9.6Kbps等固定速率上，而且可变速率地工作于800Kbps～9600Kbps之间)
特性：使用适当的门限值来决定所需速率。QCELP是一种8k的语音编码算法(可以在8k的速率下提供接近13k的话音压缩质量)。这是一种可变速率话音编码，根据人的说话特性（大家应该能够体会我们日常的沟通和交流时并不是一直保持某种恒定的方式讲话，有间断、有不同的声音频率等都是人的自然表达）而采取的一种优化技术。
优点：话音清晰、背景噪声小，系统容量大
缺点：不是Free
应用领域：CDMA
版税方式：每年支付一笔使用权费用
备注：QCELP，即QualComm Code Excited Linear Predictive（QualComm受激线性预测编码）。美国Qualcomm通信公司的专利语音编码算法，是北美第二代数字移动电话（CDMA）的语音编码标准（IS95）。这种算法不仅可工作于4/4.8/8/9.6kbit／s等固定速率上，而且可变速率地工作于800bit／s～9600bit／s之间。QCELP算法被认为是到目前为止效率效率最高的一种算法，它的主要特点之一，是使用适当的门限值来决定所需速率。I‘1限值懈景噪声电平变化而变化，这样就抑制了背景噪声，使得即使在喧闹的环境中，也能得到良好的话音质量，
CDMA8Kbit/s的话音近似GSM 13Mbit/s的话音。CDMA采用QCELP编码等一系列技术，具有话音清晰、背景噪声小等优势，其性能明显优于其他无线移动通信系统，语音质量可以与有线电话媲美。无线辐射低。