音频编码介绍汇总

音频编码汇总

PCMU(G.711U)

类型：Audio

制定者：ITU-T

所需频宽：64Kbps(90.4)

特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优

缺点：占用的带宽较高

应用领域：voip

版税方式：Free

备注：PCMU and PCMA都能够达到CD音质，但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低，可以选用低比特速率的编码方法，如G.723或G.729，这两种编码的方法也能达到传统长途电话的音质，但是需要很少的带宽（G723需要5.3/6.3kbps，G729需要8kbps）。如果带宽足够并且需要更好的语音质量，就使用PCMU 和 PCMA，甚至可以使用宽带的编码方法G722(64kbps)，这可以提供有高保真度的音质。

PCMA(G.711A)

类型：Audio

制定者：ITU-T

所需频宽：64Kbps(90.4)

特性：PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

优点：语音质量优

缺点：占用的带宽较高

应用领域：voip

版税方式：Free

ADPCM(自适应差分PCM)

类型：Audio

制定者：ITU-T

所需频宽：32Kbps

特性：ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：

①利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值；

②使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。

优点：算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）

缺点：声音质量一般

应用领域：voip

版税方式：Free

备注：ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一种针对 16bit (或者更高?) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比 1:4. 而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径。

LPC(Linear Predictive Coding，线性预测编码)

类型：Audio

制定者：

所需频宽：2Kbps-4.8Kbps

特性：压缩比大，计算量大，音质不高，廉价

优点：压缩比大,廉价

缺点：计算量大，语音质量不是很好，自然度较低

应用领域：voip

版税方式：Free

备注：参数编码又称为声源编码，是将信源信号在频率域或其它正交变换域提取特征参数，并将其变换成数字代码进行传输。译码为其反过程，将收到的数字序列经变换恢复特征参量，再根据特征参量重建语音信号。具体说，参数编码是通过对语音信号特征参数的提取和编码，力图使重建语音信号具有尽可能高的准确性，但重建信号的波形同原语音信号的波形可能会有相当大的差别。如：线性预测编码（LPC）及其它各种改进型都属于参数编码。该编码比特率可压缩到2Kbit/s-4.8Kbit/s，甚至更低，但语音质量只能达到中等，特别是自然度较低。

CELP(Code Excited Linear Prediction，码激励线性预测编码)

类型：Audio

制定者：欧洲通信标准协会（ETSI）

所需频宽：4～16Kbps的速率

特性：改善语音的质量：

① 对误差信号进行感觉加权，利用人类听觉的掩蔽特性来提高语音的主观质量；

②用分数延迟改进基音预测，使浊音的表达更为准确，尤其改善了女性语音的质量；

③ 使用修正的MSPE准则来寻找 “最佳”的延迟，使得基音周期延迟的外形更为平滑；

④根据长时预测的效率，调整随机激励矢量的大小，提高语音的主观质量； ⑤ 使用基于信道错误率估计的自适应平滑器，在信道误码率较高的情况下也能合成自然度较高的语音。

结论：

① CELP算法在低速率编码环境下可以得到令人满意的压缩效果；

②使用快速算法，可以有效地降低CELP算法的复杂度，使它完全可以实时地实现；

③CELP可以成功地对各种不同类型的语音信号进行编码，这种适应性对于真实环境，尤其是背景噪声存在时更为重要。

优点：用很低的带宽提供了较清晰的语音

缺点：

应用领域：voip

版税方式：Free

备注：1999年欧洲通信标准协会（ETSI）推出了基于码激励线性预测编码（CELP）的第三代移动通信语音编码标准自适应多速率语音编码器（AMR），其中最低速率为4.75kb/s，达到通信质量。CELP 码激励线性预测编码是Code Excited Linear Prediction的缩写。CELP是近10年来最成功的语音编码算法。

CELP语音编码算法用线性预测提取声道参数，用一个包含许多典型的激励矢量的码本作为激励参数，每次编码时都在这个码本中搜索一个最佳的激励矢量，这个激励矢量的编码值就是这个序列的码本中的序号。

CELP已经被许多语音编码标准所采用，美国联邦标准FS1016就是采用CELP的编码方法，主要用于高质量的窄带语音保密通信。CELP (Code-Excited Linear Prediction) 这是一个简化的 LPC 算法，以其低比特率著称 (4800-9600Kbps)，具有很清晰的语音品质和很高的背景噪音免疫性。CELP是一种在中低速率上广泛使用的语音压缩编码方案。

G.711

类型：Audio

制定者：ITU-T

所需频宽：64Kbps

特性：算法复杂度小，音质一般

优点：算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）

缺点：占用的带宽较高

应用领域：voip

版税方式：Free

备注：70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM。

G.721

类型：Audio

制定者：ITU-T

所需频宽：32Kbps

特性：相对于PCMA和PCMU，其压缩比较高，可以提供2：1的压缩比。

优点：压缩比大

缺点：声音质量一般

应用领域：voip

版税方式：Free

备注：子带ADPCM（SB-ADPCM）技术。G.721标准是一个代码转换系统。它使用ADPCM转换技术，实现64 kb/s A律或μ律PCM速率和32 kb/s速率之间的相互转换。

G.722

类型：Audio

制定者：ITU-T

所需频宽：64Kbps

特性：G722能提供高保真的语音质量

优点：音质好

缺点：带宽要求高

应用领域：voip

版税方式：Free

备注：子带ADPCM（SB-ADPCM）技术

G.723(低码率语音编码算法)

类型：Audio

制定者：ITU-T

所需频宽：5.3Kbps/6.3Kbps

特性：语音质量接近良，带宽要求低，高效实现，便于多路扩展，可利用C5402片内16kRAM实现53coder。达到ITU-TG723要求的语音质量，性能稳定。可用于IP电话语音信源编码或高效语音压缩存储。

优点：码率低，带宽要求较小。并达到ITU-TG723要求的语音质量，性能稳定。

缺点：声音质量一般

应用领域：voip

版税方式：Free

备注：G.723语音编码器是一种用于多媒体通信，编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。G.723标准是国际电信联盟（ITU）制定的多媒体通信标准中的一个组成部分，可以应用于IP电话等系统中。其中，5.3kbits/s码率编码器采用多脉冲最大似然量化技术（MP－MLQ），6.3kbits/s码率编码器采用代数码激励线性预测技术。

G.723.1(双速率语音编码算法)

类型：Audio

制定者：ITU-T

所需频宽：5.3Kbps(22.9)

特性：能够对音乐和其他音频信号进行压缩和解压缩，但它对语音信号来说是最优的。G.723.1采用了执行不连续传输的静音压缩，这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外，这种技术使发信机的调制解调器保持连续工作，并且避免了载波信号的时通时断。

优点：码率低，带宽要求较小。并达到ITU-TG723要求的语音质量，性能稳定,避免了载波信号的时通时断。

缺点：语音质量一般

应用领域：voip

版税方式：Free

备注：G.723.1算法是 ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法，其目标应用系统包括H.323、H.324等多媒体通信系统。目前该算法已成为IP电话系统中的必选算法之一。

G.728

类型：Audio

制定者：ITU-T

所需频宽：16Kbps/8Kbps

特性：用于IP电话、卫星通信、语音存储等多个领域。G.728是一种低时延编码器，但它比其它的编码器都复杂，这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。

优点：后向自适应，采用自适应后置滤波器来提高其性能

缺点：比其它的编码器都复杂

应用领域：voip

版税方式：Free

备注：G.728 16kb/s短延时码本激励线性预测编码（LD-CELP）。1996年ITU公布了G.728 8kb/s的CS－ACELP算法，可以用于IP电话、卫星通信、语音存储等多个领域。16 kbps G.728低时延码激励线性预测。

G.728是低比特线性预测合成分析编码器（G.729和G.723.1）和后向ADPCM编码器的混合体。G.728是LD-CELP编码器，它一次只处理5个样点。对于低速率（56~128 kbps）的综合业务数字网（ISDN）可视电话，G.728是一种建议采用的语音编码器。由于其后向自适应特性，因此G.728是一种低时延编码器，但它比其它的编码器都复杂，这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。

G.729

类型：Audio

制定者：ITU-T

所需频宽：8Kbps

特性：在良好的信道条件下要达到长话质量，在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中，包括ＩＰ电话、无线通信、数字卫星系统和数字专用线路。

G.729算法采用“共轭结构代数码本激励线性预测编码方案”（CS-ACELP）算法。这种算法综合了波形编码和参数编码的优点，以自适应预测编码技术为基础，采用了矢量量化、合成分析和感觉加权等技术。

G.729编码器是为低时延应用设计的，它的帧长只有10ms，处理时延也是10ms，再加上5ms的前视，这就使得G.729产生的点到点的时延为25ms，比特率为8 kbps。

优点：语音质量良，应用领域很广泛，采用了矢量量化、合成分析和感觉加权，提供了对帧丢失和分组丢失的隐藏处理机制

缺点：在处理随机比特错误方面性能不好。

应用领域：voip

版税方式：Free

备注：国际电信联盟（ITU-T）于1995年11月正式通过了G.729。 ITU-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)，它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。

G.729A

类型：Audio

制定者：ITU-T

所需频宽：8Kbps(34.4)

特性：复杂性较G.729低，性能较G.729差。

优点：语音质量良，降低了计算的复杂度以便于实时实现，提供了对帧丢失和分组丢失的隐藏处理机制

缺点：性能较G.729差

应用领域：voip

版税方式：Free

备注：96年ITU-T又制定了G.729的简化方案G.729A，主要降低了计算的复杂度以便于实时实现，因此目前使用的都是G.729A。

GIPS

类型：Audio

制定者：瑞典Global IP Sound公司

所需频宽：

特性：GIPS技术可根据带宽状况自动调节编码码率，提供低码率高质量的音频。GIPS的核心技术（网络自适应算法，丢包补偿算法和回声消除算法）可很好地解决语音延迟与回声问题，带来完美音质，提供比电话还清晰的语音通话效果。

优点：很好地解决语音延迟与回声问题，带来完美音质，提供比电话还清晰的语音通话效果

缺点：不是Free

应用领域：voip

版税方式：每年支付一笔使用权费用

备注：GIPS音频技术是由来自瑞典的全球顶尖的语音处理高科技公司--"GLOBAL IP SOUND"提供的专用于互联网的语音压缩引擎系统。GIPS技术可根据带宽状况自动调节编码码率，提供低码率高质量的音频。GIPS的核心技术（网络自适应算法，丢包补偿算法和回声消除算法）可很好地解决语音延迟与回声问题，带来完美音质，提供比电话还清晰的语音通话效果。

Apt-X

类型：Audio

制定者：Audio Processing Technology 公司

所需频宽：10Hz to 22.5 kHz，56kbit/s to 576 kbit/s(16 bit 7.5 kHz mono to 24-bit, 22.5kHz stereo)

特性：主要用于专业音频领域，提供高品质的音频。其特点是：

①采用4:1:4的压缩与放大方案；

②硬件低复杂度；

③极低的编码延迟；

④由单芯片实现；

⑤单声道或立体声编解码；

⑥只需单设备即可实现22.5kHz的双通道立体声；

⑦高达48kHz的采样频率；

⑧容错性好；

⑨完整的AUTOSYNC?编解码同步方案；

⑩低功率消耗

优点：高品质的音频，硬件复杂度低，设备要求低

缺点：不是Free

应用领域：voip

版税方式：一次性付费

备注：子带ADPCM（SB-ADPCM）技术

NICAM(Near Instantaneous Companded Audio Multiplex 准瞬时压扩音频复用)

类型：Audio

制定者：英国BBC广播公司

所需频宽：728Kbps

特性：应用范围及其广泛，可用它进行立体声或双语广播

优点：应用范围及其广泛，信噪比高，动态范围宽、音质同CD相媲美，故名丽音，因此NICAM又称为丽音

缺点：不是Free，频宽要求高

应用领域：voip

版税方式：一次性付费

备注：NICAM也称丽音，它是英文Near-Instantaneously Companded Audio Multiplex的缩写，其含义为准瞬时压扩音频复用，是由英国BBC广播公司开发研究成功的。

通俗地说NICAM技术实际上就是双声道数字声技术，其应用范围及其广泛，最典型的应用便是电视广播附加双声道数字声技术，利用它进行立体声或双语广播，以充分利用电视频道的频谱资源。这是在常规电视广播的基础上无需增加许多投资就可以实现的。在进行立体声广播时，它提高了音频的信号质量，使其接近CD的质量。而且还可以利用NICAM技术进行高速数据广播及其他数据传输的增殖服务，这在当今的信息化社会中似乎就显得尤为重要了！

MPEG-1 audio layer 1

类型：Audio

制定者：MPEG

所需频宽：384kbps（压缩4倍）

特性：编码简单，用于数字盒式录音磁带，2声道，VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。

优点：压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。可以达到“完全透明”的声音质量（EBU音质标准）

缺点：频宽要求较高

应用领域：voip

版税方式：Free

备注：MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准，它分为三个层次：

--层1(Layer 1)：编码简单，用于数字盒式录音磁带

--层2(Layer 2)：算法复杂度中等，用于数字音频广播(DAB)和VCD等

--层3(Layer 3)：编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍

MUSICAM(MPEG-1 audio layer 2,即MP2)

类型：Audio

制定者：MPEG

所需频宽：256～192kbps（压缩6～8倍）

特性：算法复杂度中等，用于数字音频广播(DAB)和VCD等，2声道，而MUSICAM由于其适当的复杂程度和优秀的声音质量，在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。

缺点：

应用领域：voip

版税方式：Free

备注：同MPEG-1 audio layer 1

MP3(MPEG-1 audio layer 3)

类型：Audio

制定者：MPEG

所需频宽：128～112kbps（压缩10～12倍）

特性：编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍，2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术，在当时的技术条件下，MP3的复杂度显得相对较高，编码不利于实时，但由于MP3在低码率条件下高水准的声音质量，使得它成为软解压及网络广播的宠儿。

优点：压缩比高，适合用于互联网上的传播

缺点：MP3在128KBitrate及以下时，会出现明显的高频丢失

应用领域：voip

版税方式：Free

备注：同MPEG-1 audio layer 1

MPEG-2 audio layer

类型：Audio

制定者：MPEG

所需频宽：与MPEG-1层1，层2，层3相同

特性：MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器，层1, 层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声。

优点：支持5.1声道和7.1声道的环绕立体声

缺点：

应用领域：voip

版税方式：按个收取

备注：MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器，层1, 层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声。

AAC(Advanced Audio Coding，先进音频编码)

类型：Audio

制定者：MPEG

所需频宽：96-128 kbps

特性：AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道，以及15路数据。它可同时传送16套节目，每套节目的音频及数据结构可任意规定。

AAC主要可能的应用范围集中在因特网网络传播、数字音频广播，包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48 个主要音频通道，16 个低频增强通道，16 个集成数据流, 16 个配音，16 种编排。

优点：支持多种音频声道组合，提供优质的音质

缺点：

应用领域：voip

版税方式：一次性收费

备注：AAC于1997年形成国际标准ISO 13818-7。先进音频编码（Advanced Audio Coding--AAC）开发成功，成为继MPEG-2音频标准（ISO/IEC13818-3）之后的新一代音频压缩标准。

在MPEG-2制订的早期，本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地，这个标准是不兼容MPEG-1的，因此被称为MPEG-2 AAC。换句话说，从表面上看，要制作和播放AAC，都需要使用与MP3完全不同的工具。

Dolby AC-3

类型：Audio

制定者：美国杜比公司

所需频宽：64kbps

特性：提供的环绕立体声系统由5个全频带声道加一个超低音声道组成，6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果，在数字电视、DVD和家庭影院中广泛使用。

优点：环绕立体声，信息损失很少，细节丰富，具有真正的立体声效果

缺点：

应用领域：voip

版税方式：按个收取

备注：杜比数字AC-3（Dolby Digital AC-3）：美国杜比公司开发的多声道全频带声音编码系统，它提供的环绕立体声系统由5个全频带声道加一个超低音声道组成，6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果，在数字电视、DVD和家庭影院中广泛使用。

ASPEC（Audio Spectral Perceptual Entropy Coding）

类型：Audio

制定者：AT&T

所需频宽：64kps

特性：音频质量获得显著改善，不过计算复杂度也大大提高，而且在回响、低码率时声音质量严重下降。

优点：音频质量获得显著改善

缺点：计算复杂度的提高。块边界影响、预计算复杂度的提高。回响、低码率时声音质量严重下降

应用领域：voip

版税方式：按个收取

备注：变换压缩技术

PAC（Perceptual Audio Coder）

类型：Audio

制定者：AT&T

所需频宽：64kps

特性：音频质量获得显著改善，不过在回响、低码率时声音质量严重下降。

优点：音频质量获得显著改善

缺点：块边界影响、预回响、低码率时声音质量严重下降

应用领域：voip

版税方式：按个收取

备注：变换压缩技术

类型：Audio

制定者：飞利浦

所需频宽：8Kbps

特性：以增加GSM网络容量为目的,但是会损害语音质量;由于现在网络频率紧缺,一些大的运营商已经在大城市密集地带开通此方式以增加容量。

优点：系统容量大

缺点：语音质量差

应用领域：GSM

版税方式：按个收费

备注：HF半速率,是一种GSM语音编码方式。

类型：Audio

制定者：飞利浦

所需频宽：13Kbps

特性：是一般的GSM手机的通信编码方式,可以获得达到4.1左右Qos的语音通信质量(国际电联规定语音通信质量Qos满分为5)

优点：语音质量得到了提高

缺点：系统容量降低

应用领域：GSM

版税方式：按个收费

备注：FR全速率，是一种GSM语音编码方式。

EFR

类型：Audio

制定者：飞利浦

所需频宽：13Kbps

特性：用于GSM手机基于全速率13Kbps的语音编码和发送,可以获得更好更清晰的语音质量(接近Qos4.7),需要网络服务商开通此项网络功能，手机才能配合实现。

优点：音质好

缺点：需要网络服务商开通此项网络功能，且系统容量降低

应用领域：GSM

版税方式：按个收费

备注：EFR增强型全速率,一种GSM网络语音的编码方式。

GSM-AMR(Adaptive Multi-Rate)

类型：Audio

制定者：飞利浦

所需频宽：8Kbps(4.75 Kbps~12.2 Kbps)

特性：可以对语音进行替换和消音，平滑噪音，支持间断式传输，对语音进行动态侦查。能在各种网络条件下提供优质的语音效果。

优点：音质出色

缺点：

应用领域：GSM

版税方式：按个收费

备注：GSM-ASM是一种广泛使用在GPRS和W-CDMA网络上的音频标准。在规范ETSI GSM06.90中对GSM-AMR进行了定义。AMR语音编码是GSM 2+和WCDMA的默认编码标准，是第三代无线通讯系统的语音编码标准。GSM-AMR标准基于ACELP（代数激励线性预测）编码。它能在广泛的传输条件下提供高品质的语音效果。

EVRC(Enhanced Variable Rate Coder，增强型可变速率编码器)

类型：Audio

制定者：美国Qualcomm通信公司(即高通)

所需频宽：8Kbps或13Kbps

特性：支持三种码率（9.6 Kbps, 4.8 Kbps 和 1.2 Kbps），噪声抑制，邮件过滤。能在各种网络条件下提供优质的语音效果。

优点：音质出色

缺点：

应用领域：CDMA

版税方式：按个收费

备注：EVRC编码广泛使用于CDMA网络。EVRC标准遵循规范TIA IS-127的内容。EVRC编码基于RCELP（松弛码激励线性预测）标准。该编码可以以Rate 1（171bits/packet），Rate 1/2（80bits/packet）或是Rate 1/8（16bits/packet）的容量进行操作。在要求下，它也能产生空包（0bits/packet）。

QCELP(QualComm Code Excited Linear Predictive，受激线性预测编码)

类型：Audio

制定者：美国Qualcomm通信公司(即高通)

所需频宽：8k的语音编码算法(可工作于4/4.8/8/9.6Kbps等固定速率上，而且可变速率地工作于800Kbps～9600Kbps之间)

特性：使用适当的门限值来决定所需速率。QCELP是一种8k的语音编码算法(可以在8k的速率下提供接近13k的话音压缩质量)。这是一种可变速率话音编码，根据人的说话特性（大家应该能够体会我们日常的沟通和交流时并不是一直保持某种恒定的方式讲话，有间断、有不同的声音频率等都是人的自然表达）而采取的一种优化技术。

优点：话音清晰、背景噪声小，系统容量大

缺点：不是Free

应用领域：CDMA

版税方式：每年支付一笔使用权费用

备注：QCELP，即QualComm Code Excited Linear Predictive（QualComm受激线性预测编码）。美国Qualcomm通信公司的专利语音编码算法，是北美第二代数字移动电话（CDMA）的语音编码标准（IS95）。这种算法不仅可工作于4/4.8/8/9.6kbit／s等固定速率上，而且可变速率地工作于800bit／s～9600bit／s之间。QCELP算法被认为是到目前为止效率效率最高的一种算法，它的主要特点之一，是使用适当的门限值来决定所需速率。I‘1限值懈景噪声电平变化而变化，这样就抑制了背景噪声，使得即使在喧闹的环境中，也能得到良好的话音质量，
CDMA8Kbit/s的话音近似GSM 13Mbit/s的话音。CDMA采用QCELP编码等一系列技术，具有话音清晰、背景噪声小等优势，其性能明显优于其他无线移动通信系统，语音质量可以与有线电话媲美。无线辐射低。

***********************************************************************************************

音频压缩属于数据压缩的一种，用以减少音讯流媒体的传输带宽需求与音讯档案的储存大小。一般数据的压缩方法对于音频数据不利，对于源文件很少能压缩到87%以下，因此，也就产生了特殊的音频无损和有损压缩算法。有损音频是日常生活中每天都在使用，可最大化的保持源文件不失真，而且保持适当的大小显得非常必要。举例来说，一张CD可以容纳一个小时的高保真音乐，可以容纳2小时略有损失的音乐，或者可以容纳7小时MP3格式的音乐。

ape+cue、flac+cue、tta+cue
和wav…等格式都属于无损音乐格式。但作为数字音乐文件格式的标准，WAV …等格式容量过大，因而使用起来很不方便。因此，一般情况下我们把它压缩为MP3或
WMA 格式。

音乐的压缩方法有：无损压缩，有损压缩，以及混成压缩：

MPEG, JPEG就属于混成压缩，如果把压缩的数据还原回去，数据其实是不一样的。当然，人耳是无法分辨的。因此，如果把 MP3, OGG格式从压缩的状态还原回去的话，就会产生损失。然而，APE 和 FLAC格式即使还原，也能毫无损失地保留原有音质。所以，APE 和 FLAC格式可以无损失高音质地压缩和还原。在完全保持音质的前提下，APE的压缩容量有了适当的减小。

无损压缩可以把音频数据原封不动的保存下来。而有损压缩（如: Vorbis、MP3）一经压缩就不可以逆转。一般来说，无损压缩比率在源文件的50–60%左右，而有损压缩可以达到原文件的5～20%。

无损音频压缩具有相当的困难度，其一个原因是唱片的录制非常的复杂；第二个原因是音频格式变化非常的快。无损压缩没有质量问题，所以可以从以下方面评估：压缩速度、压缩比率、软件硬件支持、稳定性和出错率。

Shorten是一种比较早的无损压缩格式；后来出现的有 Free
Lossless Audi、 Codec（FLAC）、Apple Lossless、MPEG-4 ALS、Monkey‘s
Audio 和 TTA。

1、MP3 格式

MP3的全称是Moving Picture Experts Group Audio Layer III。简单的说，MP3就是一种音频压缩技术，由于这种压缩方式的全称叫MPEG Audio Layer3，所以人们把它简称为MP3。

MP3是利用 MPEG Audio Layer 3 的技术，将音乐以1:10 甚至 1:12 的压缩率，压缩成容量较小的file，换句话说，能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。正是因为MP3体积小，音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小，这样每首歌的大小只有3～4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码)，这样，高品质的MP3音乐就播放出来了。

但是，MP3播放器支持的音频格式不仅仅是MP3格式这一种，除此之外，还有 WMA、WAV、MP3Pro、ASF、AAC和VQF…等，其中WMA格式以64kbps压缩时就能够达CD音质，而生成的文件大小只有相应MP3文件的一半。这对只装配32MB
Flash Memory的机型来说是相当重要的。支持了WMA和RA格式，意味着FlashMemory空间无形中扩大了2倍。如果你很苛刻的话，在购买的时候一定要问清楚这个问题。

2、Mp3Pro 格式

Mp3Pro是Mp3编码格式的升级版本。MP3Pro是由瑞典Coding科技公司开发的，在保持相同的音质下同样可以把声音文件的文件量压缩到原有MP3格式的一半大小。而且可以在基本不改变文件大小的情况下改善原先的MP3音乐音质。它能够在用较低的比特率压缩音频文件的情况下，最大程度地保持压缩前的音质。MP3pro可以实现完全的兼容性。经过mp3Pro压缩的文件，扩展名仍旧是.mp3。可以在老的mp3播放器上播放。老的mp3文件可以在新的mp3pro播放器上进行播放。实现了该公司所谓的“向前向后兼容”。

3、WMA 格式

WMA (Windows Media Audio) 是微软力推的一种音频格式，后台强硬，音质要强于MP3格式（但其文件的大小只有相应MP3文件的一半），更远胜于RA格式，它和日本YAMAHA公司开发的VQF格式一样，是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的，WMA的压缩率一般都可以达到1：18左右，WMA的另一个优点是内容提供商可以通过DRM（Digital Rights
Management）方案如Windows Media Rights Manager 7加入防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等，这对被盗版搅得焦头乱额的音乐公司来说可是一个福音，另外WMA还支持音频流(Stream)技术，适合在网络上在线播放，作为微软抢占网络音乐的开路先锋可以说是技术领先、风头强劲，更方便的是不用象MP3那样需要安装额外的播放器，而Windows操作系统和Windows Media Player的无缝捆绑让你只要安装了windows操作系统就可以直接播放WMA音乐，新版本的Windows
Media Player7.0更是增加了直接把CD光盘转换为WMA声音格式的功能，在新出品的操作系统Windows XP中，WMA是默认的编码格式，大家知道Netscape的遭遇，现在“狼”又来了。WMA这种格式在录制时可以对音质进行调节。同一格式，音质好的可与CD媲美，压缩率较高的可用于网络广播。虽然现在网络上还不是很流行，但是在微软的大规模推广下已经是得到了越来越多站点的承认和大力支持，在网络音乐领域中直逼＊.mp3，在网络广播方面，也正在瓜分Real打下的天下。因此，几乎所有的音频格式都感受到了WMA格式的压力。

4、WAV 格式

WAV格式是微软公司开发的一种声音文件格式，也叫波形声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持。

WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道（常用44.1kHz的采样频率，16位量化位数），因此WAV的音质与CD相差无几，但WAV格式对存储空间需求太大不便于交流和传播。

WAV是一种文件格式，符合 PIFF Resource Interchange File Format 规范。所有的WAV都有一个文件头，这个文件头描述了音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM(Association
for Computing Machinery )规范的编码都可以为WAV的音频流进行编码。

　　WAV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，和AVI一样，只要安装好了相应的Decode，就可以欣赏这些WAV了。

　　在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

　　相对来说WAV格式也比较丰富，并且互相差异也比较大。通常所说的WAV文件一般指的是PCM编码格式，这种格式所支持的速度及采样范围比较大，但是它是没有压缩的。同时为了WAV文件也支持一些常用的压缩方式，如：G.723.1、ACELP、CCITT
A-Law、CCITT u-Law、TrueSpeed(TM)、GSM 6.10…等，而这些格式大多数是为电话或调制解调器等低速语音为主的设备而使用，它们一般采用比较窄的采样范围来产生比较大的压缩比。

WAV格式的取样频率一般有：11025Hz(11kHz)、22050Hz(22kHz)和44100Hz(44kHz) 三种。

5、ASF 格式

ASF 的全称是 Advanced Streaming Format，是微软所制订的一种媒体播放格式，适合在网络上播放。而Windows Media On-Demand Producer则是制作ASF档案的免费软件，让即使是初学者也能很轻易的利用现成的WAV或AVI档案制作ASF文件。

6、VQF 格式

VQF格式是由YAMAHA和NTT共同开发的一种音频压缩技术，它的压缩率能够达到1:18，因此相同情况下压缩后VQF的文件体积比MP3小30%～50%，更便利于网上传播，同时音质极佳，接近CD音质(16位44.1kHz立体声)。但VQF未公开技术标准，至今未能流行开来。

7、FLAC 格式

FLAC即是Free Lossless Audio Codec的缩写，中文可解为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码，其特点是无损压缩。不同于其他有损压缩编码如MP3 及 AAC，它不会破任何原有的音频资讯，所以可以还原音乐光盘音质。现在它已被很多软件及硬件音频产品所支持。简而言之，FLAC与MP3相仿，但是是无损压缩的，也就是说音频以FLAC方式压缩不会丢失任何信息。这种压缩与Zip的方式类似，但是FLAC将给你更大的压缩比率，因为FLAC是专门针对音频的特点设计的压缩方式，并且你可以使用播放器播放FLAC压缩的文件，就象通常播放你的MP3文件一样。

8、APE 格式

APE是目前流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同，APE是一种无损压缩音频技术，也就是说当你将从音频CD上读取的音频数据文件压缩成APE格式后，你还可以再将APE格式的文件还原，而还原后的音频文件与压缩前的一模一样，没有任何损失。APE的文件大小大概为CD的一半，但是随着宽带的普及，APE格式受到了许多音乐爱好者的喜爱，特别是对于希望通过网络传输音频CD的朋友来说，APE可以帮助他们节约大量的资源。

9、MID 格式

MID是midi的简称，是它的扩展名。MIDI是英语Music Instrument Digital Interface 的缩写，翻译过来就是“数字化乐器接口”，也就是说它的真正涵义是一个供不同设备进行信号传输的接口的名称。我们如今的MIDI音乐制作全都要靠这个接口，在这个接口之间传送的信息也就叫MIDI信息。 MIDI最早是应用在电子合成器——一种用键盘演奏的电子乐器上，由于早期的电子合成器的技术规范不统一，不同的合成器的链接很困难，在1983年8月，YAMAHA、ROLAND、KAWAI等著名的电子乐器制造厂商联合指定了统一的数字化乐器接口规范，这就是MIDI1.0技术规范。此后，各种电子合成器已经电子琴等电子乐器都采用了这个统一的规范，这样，各种电子乐器就可以互相链接起来，传达MIDI信息，形成一个真正的合成音乐演奏系统。

由于多媒体计算机技术的迅速发展，计算机对数字信号的强大的处理能力，使得计算机处理MIDI信息成为顺理成章的事情了，所以，现在不少人把MIDI音乐称之为电脑音乐。事实上，利用多媒体计算机不但可以播放、创作和实时地演奏MIDI音乐。甚至可以把MIDI音乐转变成看的见的乐谱（五线谱或简谱）打印出来，反之，也可以把乐谱变成美妙的音乐。利用MIDI的这个性质，可以用于音乐教学（尤其是识谱），让学生利用计算机学习音乐知识和创作音乐。

10、CD 格式：

CD格式（即：CD音轨）是目前音质最好的音频文件格式，被誉为天籁之音。

标准CD格式也就是44.1kHz的采样频率，速率88K/秒，16bit量化位数。因为CD音轨可以说是近似无损的，因此它的声音基本上是忠于原声的，因此如果你如果是一个音响发烧友的话，CD是你的首选。CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。

一个CD音频文件是一个*.cda文件，这只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的“*.cda文件”都是44字节长。不能直接的复制CD格式的*.cda文件到硬盘上播放，需要使用象EAC这样的抓音轨软件把CD格式的文件转换成WAV，这个转换过程如果光盘驱动器质量过关而且EAC的参数设置得当的话，可以说是基本上无损抓音频。

*.cda文件可以是双声道（立体声）声音轨道的索引信息,也可以是DTS声音轨道的索引信息。

11、DTS 格式:

DTS是“Digital
Theatre System”的缩写，是“数字化影院系统”的意思。

从技术上讲，DTS与包括Dolby
Digital在内的其它声音处理系统是完全不同的。Dolby Digital是将音效数据存储在电影胶片的齿孔之间，因为空间的限制而必须采用大量的压缩的模式，这样就不得不牺牲部分音质。DTS公司用一种简单的办法解决了这个问题，即把音效数据存储到另外的CD-ROM中，使其与影像数据同步。这样不但空间得到增加，而且数据流量也可以相对变大，更可以将存储音效数据的CD更换，来播放不同的语言版本。

12、RealAudio 格式:

　　 RealAudio主要适用于在网络上的在线音乐欣赏，现在大多数的用户仍然在使用56Kbps或更低速率的Modem，所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。现在real的的文件格式主要有这么几种：有RA（RealAudio）、RM（RealMedia，RealAudio
G2）、RMX（RealAudio Secured），还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较富裕的听众获得较好的音质。

13、AAC／AAC+ 格式:

AAC（Advanced Audio
Coding），中文称为“高级音频编码”，出现于1997年，基于 MPEG-2的音频编码技术。由诺基亚，苹果等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC
重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的 MPEG-2 AAC，又称为 MPEG-4 AAC。

AAC（Advanced
Audio Coding）是一种专为声音数据设计的文件压缩格式，与Mp3不同，它采用了全新的算法进行编码，更加高效，具有更高的“性价比”。利用AAC格式，可使人感觉声音质量没有明显降低的前提下，更加小巧。AAC格式可以用苹果 iTunes转换或千千静听（六组件）。

苹果ipod、诺基亚手机也支持AAC格式的音频文件。优点：相对于mp3，AAC格式的音质更佳，文件更小。不足：AAC属于有损压缩的格式，与时下流行的APE^[1]、FLAC等无损格式相比音质存在“本质上”的差距。加之，传输速度更快的USB3.0和16G以上大容量MP3正在加速普及，也使得AAC头上“小巧”的光环不复存在了。前景：以发展的眼光来看，正如“高清”正在被越来越多的人所接受一样，“无损”必定是未来音乐格式的绝对主流。AAC这种“有损”格式的前景不容乐观。

AAC+也称之为HE-AAC。其中：HE意思是
"high efficiency"(高效性）。HE-AAC混合了AAC与SBR技术。SBR代表的是Spectral Band Replication（频段复制）。SBR的关键是在低码流下提供全带宽的编码而不会产生产生多余的信号。传统认为音频编码在低码流下意味着减少带宽和降低采样率（见MP3 FAQ #7）或产生令人不快的噪音信号。SBR解决问题的方法是让核心编码去编码低频信号，而SBR解码器通过分析低频信号产生高频信号和一些保留在比特流中的指导信号（通常码流极低，~2
kbps）。这就是采用无SBR解码器的原因，这样你的带宽(frequency response）（频率响应）会被严重浪费。这也是为什么被叫做Spectral Band Replication的原因，它只是增加音频的带宽，而非重建。

时间： 2024-10-27 07:10:04

音频编码介绍汇总

音频编码介绍汇总的相关文章

常用音频协议介绍&&有关音频编码的知识与技术参数

有关音频编码的知识与技术参数

音视频处理之编码介绍20180224

Java编码问题汇总

Python编码介绍——encode和decode

ffmpeg音频编码

(转)视频编码标准汇总及比较

G.711是一种由国际电信联盟（ITU-T）制定的音频编码方式

音频编码（转载）