多媒體第章音頻信息處理技術(shù)_第1頁
多媒體第章音頻信息處理技術(shù)_第2頁
多媒體第章音頻信息處理技術(shù)_第3頁
多媒體第章音頻信息處理技術(shù)_第4頁
多媒體第章音頻信息處理技術(shù)_第5頁
已閱讀5頁,還剩240頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3章音頻信息處理技術(shù)3.1基本概念3.2音頻信號(hào)數(shù)字化3.3音頻信號(hào)壓縮編碼3.4語音壓縮編碼標(biāo)準(zhǔn)3.5常見多媒體應(yīng)用的語音編碼器的選擇3.6IP電話技術(shù)練習(xí)與思考題

3.1

基本概念

1.聽覺掩蔽在人類聽覺系統(tǒng)中,一個(gè)聲音的存在會(huì)影響人們對(duì)其他聲音的聽覺能力,使一個(gè)聲音在聽覺上掩蔽了另一個(gè)聲音,即所謂的“掩蔽效應(yīng)”。由于掩蔽聲的存在,使被掩蔽聲的聞?dòng)颍ㄈ藙偤每陕牭铰曇舻捻懚龋┍仨毺岣叩姆重悢?shù)被定義為一個(gè)聲音對(duì)另一個(gè)聲音的掩蔽值。掩蔽效應(yīng)受四種要素的影響:時(shí)間、頻率、聲壓級(jí)、聲音品質(zhì)(例如,純音和噪音)。

2.頻譜掩蔽頻譜掩蔽發(fā)生在高電平音調(diào)使附近頻率的低電平聲音不能被人耳聽到的情況下。當(dāng)頻率離掩蔽音調(diào)越遠(yuǎn)時(shí),掩蔽效應(yīng)減弱的速度就越快??梢赃@樣來解釋這種效應(yīng),雪橇上的鈴聲可以掩蔽高音碰撞的聲音,但不能掩蔽低音鼓的聲音。3.瞬態(tài)掩蔽聲音有一個(gè)沖擊時(shí)間(即幅值隨時(shí)間推移而增大的時(shí)間段)和一個(gè)衰退時(shí)間(即幅值隨時(shí)間推移而減小的時(shí)間段)。撥小提琴所產(chǎn)生聲音的沖擊和衰退都很快,而拉小提琴所產(chǎn)生聲音的沖擊和衰退都很慢。此外,在沖擊前和衰退后,聲音都有掩蔽效應(yīng)。前掩蔽時(shí)間為50~200ms,而后掩蔽時(shí)間約為該范圍的1/10。

4.失真失真是用得非常廣泛的概念,在這里主要用來描述重現(xiàn)聲音和原來聲音的相差程度。而表示這種相差程度的方法有兩種:(1)失真的主觀度量。失真的一個(gè)主觀評(píng)價(jià)指標(biāo)稱為平均觀點(diǎn)分(MeanOpinionScore,MOS)。聽眾根據(jù)系統(tǒng)質(zhì)量的好壞使用N分制給系統(tǒng)打分。例如,在為HDTV選擇音頻壓縮方案時(shí)就使用了這種度量方法。表3.1-1給出了一種常見的5分制系統(tǒng)。表3.1-1

5分制平均觀點(diǎn)分舉例平均觀點(diǎn)分質(zhì)量等級(jí)主觀感覺5極好覺察不到4好覺察得到,但不難聽3一般有點(diǎn)難聽2差難聽,但不反感1極差難以忍受

一方面,MOS確實(shí)是度量音頻重現(xiàn)的最低限度:聽起來感覺怎么樣?另外一方面,度量的結(jié)果隨聽眾、測(cè)試位置和原材料的不同而不同,因此,很難將一組結(jié)果和另一組結(jié)果相比較。(2)失真的客觀度量。失真的客觀度量是一種可以校準(zhǔn)和重現(xiàn)的測(cè)試,它可對(duì)原始信號(hào)和重現(xiàn)信號(hào)之間的差別進(jìn)行度量。這里有個(gè)問題,就是失真的絕對(duì)大小也許和失真聲音使人厭煩的程度沒有多大關(guān)系?,F(xiàn)實(shí)生活中有一個(gè)失真的例子,我們幾乎每天都會(huì)碰到,但它并不是那么令人厭煩,這個(gè)例子就是削波。如果一個(gè)純音(正弦波)通過一個(gè)動(dòng)態(tài)范圍不足的放大器,那么,放大器也許會(huì)將該正弦波的波峰和波谷拉平,這樣就產(chǎn)生了一組奇諧波。對(duì)于這種類型的失真,原始(或基波)信號(hào)和失真之間有一種一致的對(duì)應(yīng)關(guān)系,因此,這種失真并不一定使你感到煩躁。

5.聲道單聲道(Monophonic)意味著單個(gè)聲源,而立體聲并不表示有兩個(gè)聲源,立體聲(Stereophonic)指的是三維聽覺效果。為了確定聲源位置,大腦要將每個(gè)耳朵所聽到聲音的三個(gè)屬性進(jìn)行比較,這三個(gè)屬性分別是:(1)幅值(Amplitude):如果左耳聽到的聲音比右耳的大,那么我們就認(rèn)為聲音在左邊。(2)相位(Phase):如果人的兩耳聽到的信號(hào)具有相同的相位,那么大腦就認(rèn)為聲音在中部;如果兩耳聽到信號(hào)有180°的相位差,那么聲音就不包含方向信息了。(3)時(shí)序(Timing):聲音的傳播速度為1英尺每毫秒;如果聲音到達(dá)右耳的時(shí)間比到達(dá)左耳的早,我們就認(rèn)為聲源就在右邊。一般來說,如果聽眾所處的位置剛好是兩個(gè)聲源(例如兩個(gè)揚(yáng)聲器)的中軸線上,則聽眾就可以享受三維立體聲的效果;否則聽眾就會(huì)失去完全的立體聲效果,因?yàn)樗嚯x其中一個(gè)聲源的距離更短。聲源位置置可以通通過添加加一個(gè)中中央通道道的方法法來確定定。為為此,Dolby公公司在上上個(gè)世紀(jì)紀(jì)70年年代就實(shí)實(shí)現(xiàn)了由由四個(gè)聲聲道產(chǎn)生生三維立立體聲的的效果,,這四四個(gè)聲道道分別是是:左左聲道、、右聲聲道、中中央聲聲道、環(huán)環(huán)繞聲聲道。為為了使使聲音更更加豐富富,現(xiàn)現(xiàn)在的立立體聲劇劇院(包包括家庭庭劇院))都增加加了一個(gè)個(gè)超低音音聲道,,主要要目的是是增強(qiáng)低低音。3.2音頻信號(hào)數(shù)數(shù)字化音頻信息處處理主要包包括音頻信信號(hào)的數(shù)字字化和音頻頻信息的壓壓縮兩大技技術(shù),圖圖3.2-1為音頻信信息處理結(jié)結(jié)構(gòu)框圖。。音頻信信息的壓縮縮是音頻信信息處理的的關(guān)鍵技術(shù)術(shù),而音音頻信號(hào)的的數(shù)字化是是為音頻信信息的壓縮縮作準(zhǔn)備的的。音頻頻信號(hào)的數(shù)數(shù)字化過程程就是將模模擬音頻信信號(hào)轉(zhuǎn)換成成有限個(gè)數(shù)數(shù)字表示的的離散序列列,即數(shù)數(shù)字音頻序序列,在在這一處理理過程中涉涉及到模擬擬音頻信號(hào)號(hào)的采樣、、量化和和編碼。對(duì)對(duì)同一音音頻信號(hào)采采用不同的的采樣、量量化和編編碼方式就就可形成多多種形式的的數(shù)字化音音頻。圖3.2-1音頻信息處處理框圖(1)采采樣過程。。模擬音音頻信號(hào)是是一個(gè)在時(shí)時(shí)間上和幅幅值上都連連續(xù)的信號(hào)號(hào)。采樣樣過程就是是在時(shí)間上上將連續(xù)信信號(hào)離散化化的過程,,采樣一一般是按均均勻的時(shí)間間間隔進(jìn)行行的。目目前常見的的音頻信號(hào)號(hào)的頻率范范圍如圖3.2-2所示,由由圖可見見:電話話信號(hào)的頻頻帶為200Hz~3.4kHz,調(diào)幅幅廣播(AM)信號(hào)號(hào)的頻帶為為50Hz~7kHz,,調(diào)頻廣廣播(FM)信號(hào)的的頻帶為20Hz~15kHz,,高保真真音頻信號(hào)號(hào)的頻帶為為10Hz~20kHz。根據(jù)據(jù)不同的音音頻信源和和應(yīng)用目標(biāo)標(biāo),可采采用不同的的采樣頻率率,如8kHz、11.025kHz、22.05kHz、、16kHz、、37.8kHz、44.1kHz或或48kHz等都都是典型的的采樣頻率率值。圖3.2-2常見音頻應(yīng)應(yīng)用帶寬示示意圖(2)量量化過程。。量化過過程是指將將每個(gè)采樣樣值在幅度度上再進(jìn)行行離散化處處理。量量化可分為為均勻量化化(量化值值的分布是是均勻的或或者說每個(gè)個(gè)量化階距距是相同的的)和非均均勻量化。。量化會(huì)會(huì)引入失真真,并且且量化失真真是一種不不可逆失真真,這就就是通常所所說的量化化噪聲。(3)編編碼過程程。編碼碼過程是指指用二進(jìn)制制數(shù)來表示示每個(gè)采樣樣的量化值值。如果果量化是均均勻的,又又采用自自然二進(jìn)制制數(shù)表示,,這種編編碼方法就就是脈沖編編碼調(diào)制(PulseCodeModulation,PCM),,這是一一種最簡(jiǎn)單單、最方方便的編碼碼方法。3.3音頻信號(hào)壓壓縮編碼從20世紀(jì)紀(jì)30年代代提出PCM(脈沖沖編碼調(diào)制制)原理以以及聲碼器器的概念以以來,音音頻信息壓壓縮編碼技技術(shù)主要是是向基于波波形和基于于參數(shù)兩個(gè)個(gè)方向發(fā)展展的,從從這個(gè)角度度出發(fā),音音頻信息息編碼技術(shù)術(shù)可分為三三類:(1)波波形編碼。。這種方方法主要基基于語音波波形預(yù)測(cè),,它力圖圖使重建的的語音波形形保持原信信號(hào)的波形形狀態(tài)。它它的優(yōu)點(diǎn)點(diǎn)是編碼方方法簡(jiǎn)單、、易于實(shí)實(shí)現(xiàn)、適適應(yīng)能力強(qiáng)強(qiáng)、語音音質(zhì)量好等等,缺點(diǎn)點(diǎn)是壓縮比比相對(duì)來說說較低,需需要較高高的編碼速速率。常常用的波形形法編碼技技術(shù)有增量量調(diào)制(DM)、自自適應(yīng)差差分脈沖編編碼調(diào)制((ADPCM)、子子帶編碼碼(SBC)和矢量量量化編碼碼(VQ))等等。(2)參參數(shù)編碼。。這種方方法主要基基于參數(shù)的的編碼方法法。與波波形編碼不不同的是,,這類編編碼方法通通過語音信信號(hào)的數(shù)學(xué)學(xué)模型對(duì)語語音信號(hào)特特征參數(shù)((主要是指指表征聲門門振動(dòng)的激激勵(lì)參數(shù)和和表征聲道道特性的聲聲道參數(shù)))進(jìn)行提取取及編碼,,力圖使使重建的語語音信號(hào)盡盡可能保持持原信號(hào)的的語意,而而重建的的語音信號(hào)號(hào)波形同原原信號(hào)的波波形可能會(huì)會(huì)有較大的的區(qū)別?;谶@種種編碼技術(shù)術(shù)的編碼系系統(tǒng)一般稱稱為聲碼器器,它主主要用于在在窄帶信道道上提供4.8kb/s以以下的低速速語音通信信和一些對(duì)對(duì)延時(shí)要求求較寬的應(yīng)應(yīng)用場(chǎng)合((如衛(wèi)星通通信等)。。最常用用的參數(shù)編編碼法為線線性預(yù)測(cè)編編碼(LPC)。(3)混混合合編編碼碼。。這這種種方方法法克克服服了了原原有有波波形形編編碼碼與與參參數(shù)數(shù)編編碼碼的的弱弱點(diǎn)點(diǎn),,并并且且結(jié)結(jié)合合了了波波形形編編碼碼的的高高質(zhì)質(zhì)量量和和參參數(shù)數(shù)編編碼碼的的低低數(shù)數(shù)據(jù)據(jù)率率,,取取得得了了比比較較好好的的效效果果。。混混合合編編碼碼是是指指同同時(shí)時(shí)使使用用兩兩種種或或兩兩種種以以上上的的編編碼碼方方法法進(jìn)進(jìn)行行編編碼碼的的過過程程。。由由于于每每種種編編碼碼方方法法都都有有自自己己的的優(yōu)優(yōu)勢(shì)勢(shì)和和不不足足,,若若是是用用兩兩種種,,甚甚至至兩兩種種以以上上的的編編碼碼方方法法進(jìn)進(jìn)行行編編碼碼,,可可以以優(yōu)優(yōu)勢(shì)勢(shì)互互補(bǔ)補(bǔ),,克克服服各各自自的的不不足足,,從從而而達(dá)達(dá)到到高高效效數(shù)數(shù)據(jù)據(jù)壓壓縮縮的的目目的的。。無無論論是是在在音音頻頻信信號(hào)號(hào)的的數(shù)數(shù)據(jù)據(jù)壓壓縮縮中中,,還還是是后后面面章章節(jié)節(jié)將將要要描描述述的的圖圖像像信信號(hào)號(hào)的的數(shù)數(shù)據(jù)據(jù)壓壓縮縮中中,,混混合合編編碼碼均均被被廣廣泛泛采采用用。。3.3.1增量調(diào)調(diào)制1.一一般般增量量調(diào)制制增量調(diào)調(diào)制((DM)是是一種種比較較簡(jiǎn)單單且有有數(shù)據(jù)據(jù)壓縮縮功能能的波波形編編碼方方法。。增增量調(diào)調(diào)制的的系統(tǒng)統(tǒng)結(jié)構(gòu)構(gòu)框圖圖如圖圖3.3-1所示示。在在編編碼端端,由由前前一個(gè)個(gè)輸入入信號(hào)號(hào)的編編碼值值經(jīng)解解碼器器解碼碼可得得到下下一個(gè)個(gè)信號(hào)號(hào)的預(yù)預(yù)測(cè)值值。輸輸入入的模模擬音音頻信信號(hào)與與預(yù)測(cè)測(cè)值在在比較較器上上相減減,從從而而得到到差值值。差差值值的極極性可可以是是正也也可以以是負(fù)負(fù)。若若為為正,,則則編碼碼輸出出為1;若若為為負(fù),,則則編碼碼輸出出為0。這這樣樣,在在增增量調(diào)調(diào)制的的輸出出端可可以得得到一一串1位編編碼的的DM碼。。增增量調(diào)調(diào)制編編碼過過程示示意圖圖如圖圖3.3-2所示。圖3.3-1增量調(diào)制的的系統(tǒng)結(jié)構(gòu)構(gòu)框圖圖3.3-2增量調(diào)制編編碼過程示示意圖在圖3.3-2中,縱縱坐標(biāo)表示示輸入的模模擬電壓,,橫坐標(biāo)標(biāo)表示隨時(shí)時(shí)間增加而而順序產(chǎn)生生的DM碼碼。圖中中虛線表示示輸入的音音頻模擬信信號(hào)。從從圖3.3-2可以看到到,當(dāng)輸輸入信號(hào)變變化比較快快時(shí),編編碼器的輸輸出無法跟跟上信號(hào)的的變化,從從而會(huì)使使重建的模模擬信號(hào)發(fā)發(fā)生畸變,,這就是是所謂的““斜率過載載”??煽梢钥闯?,,當(dāng)輸入入模擬信號(hào)號(hào)的變化速速度超過了了經(jīng)解碼器器輸出的預(yù)預(yù)測(cè)信號(hào)的的最大變化化速度時(shí),,就會(huì)發(fā)發(fā)生斜率過過載。增增加采樣速速度,可可以避免斜斜率過載的的發(fā)生。但但采樣速速度的增加加又會(huì)使數(shù)數(shù)據(jù)的壓縮縮效率降低低。從圖3.3-2中還能能發(fā)現(xiàn)另另一個(gè)問問題:當(dāng)當(dāng)輸入入信號(hào)沒沒有變化化時(shí),預(yù)預(yù)測(cè)信信號(hào)和輸輸入信號(hào)號(hào)的差會(huì)會(huì)十分接接近,這這時(shí),,編碼碼器的輸輸出是0和1交交替出現(xiàn)現(xiàn)的,這這種現(xiàn)現(xiàn)象就叫叫做增量量調(diào)制的的“散粒粒噪聲””。為為了減少少散粒噪噪聲,就就希望望使輸出出編碼1位所表表示的模模擬電壓壓Δ(又叫量量化階距距)小一一些,但但是,,減少少量化階階距Δ會(huì)使在固固定采樣樣速度下下產(chǎn)生更更嚴(yán)重的的斜率過過載。為為了解解決這些些矛盾,,促使使人們研研究出了了自適應(yīng)應(yīng)增量調(diào)調(diào)制(ADM))方法。。2.自自適應(yīng)應(yīng)增量調(diào)調(diào)制(ADM))從前面分分析可以以看出,,為減減少斜率率過載,,希望望增加階階距;為為減少少散粒噪噪聲,又又希望望減少階階距。于于是人人們就想想,若若是能使使DM的的量化階階距Δ適應(yīng)信號(hào)變化化的要求,必必須是既降降低了斜率過過載又減少了了散粒噪聲的的影響。也也就是說,當(dāng)當(dāng)發(fā)現(xiàn)信號(hào)號(hào)變化快時(shí),,增加階距距;當(dāng)發(fā)現(xiàn)現(xiàn)信號(hào)變化緩緩慢時(shí),減減少階距。這這就是自適適應(yīng)增量調(diào)制制的基本出發(fā)發(fā)點(diǎn)。在ADM中,,常用的規(guī)規(guī)則有兩種::一種是控制可可變因子M,使量化化階距在一定定范圍內(nèi)變化化。對(duì)于每每一個(gè)新的采采樣,其量量化階距為其其前面數(shù)值的的M倍。而而M的值則由由輸入信號(hào)的的變化率來決決定。如果果出現(xiàn)連續(xù)相相同的編碼,,則說明有有發(fā)生過載的的危險(xiǎn),這這時(shí)就要加大大M。當(dāng)0,1信號(hào)號(hào)交替出現(xiàn)時(shí)時(shí),說明信信號(hào)變化很慢慢,會(huì)產(chǎn)生生散粒噪聲,,這時(shí)就要要減少M(fèi)值。其典型型的規(guī)則為(3.3-1)另一類使用較較多的自適應(yīng)應(yīng)增量調(diào)制稱稱為連續(xù)可變變斜率增量((CVSD))調(diào)制。其其工作原理如如下:如果果調(diào)制器(CVSD)連連續(xù)輸出三個(gè)個(gè)相同的碼,,則量化階階距加上一個(gè)個(gè)大的增量,,也就是說說,因?yàn)槿齻€(gè)連續(xù)相同同的碼表示有有過載發(fā)生。。反之,則則量化階距距增加一個(gè)小小的增量。CVSD的的自適應(yīng)規(guī)則則為其他(3.3-2)式中,β可在0~1之之間取值。可可以看到,,β的大小可以通通過調(diào)節(jié)增量量調(diào)制來適應(yīng)應(yīng)輸入信號(hào)變變化所需時(shí)間間的長(zhǎng)短。P和Q為增量,而而且P要大于等于Q。3.3.2自適應(yīng)差分脈脈沖編碼調(diào)制制1.非均均勻PCM(μ律壓壓擴(kuò)方法)若輸入的音頻頻信號(hào)是話音音信號(hào),使使用8kHz采樣頻率率進(jìn)行均勻采采樣,而后后再將每個(gè)樣樣本編碼為8位二進(jìn)制數(shù)數(shù)字信號(hào),則則我們就可可以得到數(shù)據(jù)據(jù)率為64kb/s的的PCM信號(hào),這這就是典型型的脈沖編碼碼調(diào)制。這這種編碼方式式對(duì)輸入的音音頻信號(hào)進(jìn)行行均勻量化,,不管輸入入的信號(hào)是大大還是小,均均采用同樣樣的量化間隔隔。但是,,對(duì)音頻信信號(hào)而言,大大多數(shù)情況況下信號(hào)幅度度都很小,出出現(xiàn)大幅度度信號(hào)的概率率很小。然而,為了了適應(yīng)這種很很少出現(xiàn)的大大信號(hào),在在均勻量化時(shí)時(shí)不得不增加加二進(jìn)制碼位位。對(duì)大量量的小信號(hào)來來說,這樣樣多的碼位是是一種浪費(fèi)。。因此,均均勻量化PCM效率不不高,有必必要進(jìn)行改進(jìn)進(jìn)。采用非均勻量量化編碼的實(shí)實(shí)質(zhì)在于減少少表示采樣的的位數(shù),從從而達(dá)到數(shù)據(jù)據(jù)壓縮的目的的。其基本本思路是,當(dāng)當(dāng)輸入信號(hào)號(hào)幅度小時(shí),,采用較小小的量化間隔隔;當(dāng)輸入入信號(hào)幅度大大時(shí),采用用較大的量化化間隔。這這樣就可以做做到在一定的的精度下,用用更少的二二進(jìn)制碼位來來表示采樣值值。這種對(duì)對(duì)小信號(hào)擴(kuò)展展、大信號(hào)號(hào)壓縮的特性性可用下式表表示:式中:x為輸入電壓壓與A/D變換器滿滿刻度電壓壓之比,其其取值范范圍為-1~+1;;sgn(x)為x的極性;μ為壓擴(kuò)參數(shù)數(shù),其取取值范圍為為100~~500,,μ越大,壓壓擴(kuò)越厲害害。該壓擴(kuò)規(guī)則則的特性如如圖3.3-3所示,通通常將此此曲線叫做做μ律壓擴(kuò)特性性。(3.3-3)圖3.3-4μ律壓擴(kuò)數(shù)據(jù)據(jù)格式在實(shí)際應(yīng)用用中,規(guī)規(guī)定某個(gè)μ值,采用用數(shù)段折線線來逼近圖圖3.3-3所示的壓壓擴(kuò)特性。。這樣就就大大地簡(jiǎn)簡(jiǎn)化了計(jì)算算并保證了了一定的精精度。例例如,當(dāng)當(dāng)選擇μ=255時(shí)時(shí),壓擴(kuò)擴(kuò)特性用8段折線來來代替。當(dāng)當(dāng)用8位位二進(jìn)制表表示一個(gè)采采樣時(shí),可可以得到到無壓擴(kuò)的的13位二二進(jìn)制數(shù)碼碼的音頻質(zhì)質(zhì)量。這這8位二進(jìn)進(jìn)制數(shù)中,,最高位位表示符號(hào)號(hào)位,其其后3位用用來表示折折線編號(hào),,最后4位用來表表示數(shù)據(jù)位位。μ律壓擴(kuò)數(shù)據(jù)據(jù)格式如圖圖3.3-4所示。在解碼恢復(fù)復(fù)數(shù)據(jù)時(shí),,根據(jù)符符號(hào)和折線線即可通過過預(yù)先做好好的表恢復(fù)復(fù)原始數(shù)據(jù)據(jù)。另外一種常常用的壓擴(kuò)擴(kuò)特性為A律13折折線,它它實(shí)際上是是將μ律壓擴(kuò)特性性曲線以13段直線線代替而成成的。我我國和歐洲洲采用的是是A律13折線壓擴(kuò)擴(kuò)法,美美國和日本本采用的是是μ律。。對(duì)對(duì)于于A律律13折折線線,,一一個(gè)個(gè)信信號(hào)號(hào)樣樣值值的的編編碼碼由由兩兩部部分分構(gòu)構(gòu)成成::段段落落碼碼((信信號(hào)號(hào)屬屬于于13折折線線哪哪一一段段))和和段段內(nèi)內(nèi)碼碼。。在非非均均勻勻PCM編編碼碼中中,,存存在在著著大大量量的的冗冗余余信信息息。。這這是是因因?yàn)闉橐粢纛l頻信信號(hào)號(hào)鄰鄰近近樣樣本本間間的的相相關(guān)關(guān)性性很很強(qiáng)強(qiáng)。。若若采采用用某某種種措措施施,,便便可可以以去去掉掉那那些些冗冗余余的的信信息息,,差差分分脈脈沖沖編編碼碼調(diào)調(diào)制制((DPCM)是是常用的的一種方方法。2.差差分脈脈沖編碼碼調(diào)制((DPCM)差分脈沖沖編碼調(diào)調(diào)制的中中心思想想是對(duì)信信號(hào)的差差值而不不是對(duì)信信號(hào)本身身進(jìn)行編編碼。這這個(gè)差差值是指指信號(hào)值值與預(yù)測(cè)測(cè)值的差差值。預(yù)測(cè)值可可以由過過去的采采樣值進(jìn)進(jìn)行預(yù)測(cè)測(cè),其其計(jì)算公公式如下下所示::(3.3-4)式中,ai為預(yù)測(cè)系系數(shù)。因因此,,利用用若干個(gè)個(gè)前面的的采樣值值可以預(yù)預(yù)測(cè)當(dāng)前前值。當(dāng)當(dāng)前值值與預(yù)測(cè)測(cè)值的差差為(3.3-5)差分脈沖沖編碼調(diào)調(diào)制就是是將上述述每個(gè)樣樣點(diǎn)的差差值量化化編碼,,而后后用于存存儲(chǔ)或傳傳送。由由于相相鄰采樣樣點(diǎn)有較較大的相相關(guān)性,,預(yù)測(cè)測(cè)值常接接近真實(shí)實(shí)值,故故差值值一般都都比較小小,從從而可以以用較少少的數(shù)據(jù)據(jù)位來表表示,這這樣就就減少了了數(shù)據(jù)量量。在接收收端或或數(shù)據(jù)據(jù)回放放時(shí),,可可用類類似的的過程程重建建原始始數(shù)據(jù)據(jù)。差差分分脈沖沖調(diào)制制系統(tǒng)統(tǒng)的方方框圖圖如圖圖3.3-5所示示。圖3.3-5差分脈脈沖調(diào)調(diào)制系系統(tǒng)的的方框框圖(a)編編碼器器;(b)解解碼碼器由圖3.3-5可見見,只只要要求出出預(yù)測(cè)測(cè)值,則則實(shí)現(xiàn)現(xiàn)這種種方法法就不不困難難了,,而而要得得到,,關(guān)關(guān)鍵的的問題題是確確定預(yù)預(yù)測(cè)系系數(shù)ai。如如何求求ai呢?我我們定定義ai就是使估值值的均方差差最小的ai。估值的的均方差可可由下式?jīng)Q決定:(3.3-6)為了求得均均方差最小小,就需需對(duì)式(3.3-6)中各個(gè)個(gè)a求導(dǎo)數(shù)數(shù)并使方程程等于0,,最后解解聯(lián)立方程程可以求出出ai。預(yù)測(cè)系數(shù)與與輸入信號(hào)號(hào)特性有關(guān)關(guān),也就就是說,采采樣點(diǎn)同同其前面采采樣點(diǎn)的相相關(guān)性有關(guān)關(guān)。只要要預(yù)測(cè)系數(shù)數(shù)確定,問問題便可可迎刃而解解。通常常一階預(yù)測(cè)測(cè)系數(shù)ai的取值范圍圍為0.8~1。3.自自適應(yīng)差分分脈沖編碼碼調(diào)制(ADPCM)為了進(jìn)一步步提高編碼碼的性能,,人們將將自適應(yīng)量量化器和自自適應(yīng)預(yù)測(cè)測(cè)器結(jié)合在在一起用于于DPCM之中,從從而實(shí)現(xiàn)現(xiàn)了自適應(yīng)應(yīng)差分脈沖沖編碼調(diào)制制(ADPCM)。。其簡(jiǎn)化化的框圖如如圖3.3-6所示。自適應(yīng)量化化器首先檢檢測(cè)差分信信號(hào)的變化化率和差分分信號(hào)的幅幅度大小,,而后決決定量化器器的量化階階距。自自適應(yīng)預(yù)測(cè)測(cè)器能夠更更好地跟蹤蹤語音信號(hào)號(hào)的變化。。因此,,將兩種種技術(shù)組合合起來使用用,從而而可以提高高系統(tǒng)性能能。從圖3.3-6中可以看出出,在圖3.3-6(a)編碼碼器框圖中,,實(shí)際上也也包含著圖3.3-6(b)的的解碼器框圖圖,兩者的的算法是一樣樣的。圖3.3-6ADPCM編解碼框框圖(a)ADPCM編碼碼器;(b)ADPCM解碼器器3.3.3子帶編碼聲音信號(hào)對(duì)人人耳的聽覺貢貢獻(xiàn)與信號(hào)頻頻率有關(guān),比比如人耳對(duì)對(duì)1kHz附近頻率成成分尤其敏感感。再比如如實(shí)驗(yàn)發(fā)現(xiàn),,如果講話話人發(fā)出無意意義的音節(jié),,則聽話人人在保留400Hz~~6kHz頻率范圍的的語音情況下下,就可聽聽清此音節(jié);;而上限頻頻率降低至1.7kHz時(shí)可聽清清約一半;如如果講話人人發(fā)出的是連連續(xù)有意義的的句子,那那么只保留頻頻率范圍為400Hz~3kHz的語音就就可完全聽懂懂了。與人耳聽覺特特性在頻率上上分布不均勻勻相對(duì)應(yīng),人人所發(fā)出的的語音信號(hào)的的頻譜也不是是平坦的。事事實(shí)上,多多數(shù)人的語語音信號(hào)能量量主要集中在在頻率為500Hz~~1kHz范圍內(nèi),并并隨著頻率率的升高很快快衰減。根據(jù)上述特點(diǎn)點(diǎn),可以設(shè)設(shè)想將輸入信信號(hào)用某種方方法劃分成不不同頻段上的的子信號(hào),然然后區(qū)別對(duì)對(duì)待,根據(jù)據(jù)各子信號(hào)的的特性,分分別編碼。比比如,對(duì)對(duì)語音信號(hào)中中能量較大,,對(duì)聽覺有有重要影響的的部分(如500~800Hz頻頻段內(nèi)的信號(hào)號(hào))分配較多多的碼字,對(duì)對(duì)次要信號(hào)號(hào)(如話帶中中大于3kHz的信號(hào))則分分配較少的碼碼字。各子信號(hào)分別別編碼后的碼碼字在接收方方被分別解碼碼,最后再再合成出解碼碼語音。因因此,可以以設(shè)想,首首先用一組帶帶通濾波器,,將輸入的的音頻信號(hào)分分成若干個(gè)連連續(xù)的頻段,,并將這些些頻段稱為子子帶。然后后,再分別別對(duì)這些子帶帶中的音頻分分量進(jìn)行采樣樣和編碼。最最后,再再將各子帶的的編碼信號(hào)組組織到一起進(jìn)進(jìn)行存儲(chǔ)或送送到信道上傳傳送。在信信道的接收端端(或在回放放時(shí))得到各各子帶編碼的的混合信號(hào),,將各子帶帶的編碼取出出來,對(duì)它它們分別進(jìn)行行解碼,產(chǎn)產(chǎn)生各子帶的的音頻分量,,再將各子子帶的音頻分分量組合在一一起,恢復(fù)復(fù)原始的音頻頻信號(hào)。子子帶編碼的原原理框圖如圖圖3.3-7所示。由由圖3.3-7可以看出上上述的基本原原理。圖3.3-7子帶編碼的原原理框圖子帶編碼能夠夠?qū)崿F(xiàn)較高的的壓縮比,而而且具有較較高的質(zhì)量,,因此,得得到了比較較廣泛的應(yīng)用用。這種編編碼常常與其其他一些編碼碼混合使用,,以實(shí)現(xiàn)混混合編碼。這這一問題留留待后面再作作說明。3.3.4變換域編碼在子帶編碼中中,劃分子子帶的方法是是通過帶通濾濾波器來完成成的。而另另外一種方法法就是通過變變換域編碼方方法,將輸輸入信號(hào)直接接轉(zhuǎn)換到頻域域,然后在在頻域劃分各各頻段,根根據(jù)不同的頻頻段能量大小小分配碼字然然后編碼,收收方解碼后后再用相應(yīng)的的反變換轉(zhuǎn)換換成時(shí)域信號(hào)號(hào)。與子帶編碼類類似,變換換域編碼也是是一種“頻域域”編碼。事事實(shí)上,只只有采用離離散傅里葉變變換(FFT)或離散余余弦變換(DCT),變變換后的各各系數(shù)才真正正代表頻率分分量。由于于DCT接近近最佳變換Karhunen-Loeve變變換(KLT),因而而語音變換域域編碼基本上上都采用DCT,在這這個(gè)意義上可可以稱語音變變換域編碼為為頻域編碼。。在語音子帶編編碼中,常常用的子帶數(shù)數(shù)目為2~4,寬帶音音頻編碼也只只不過用32個(gè)子帶。語語音的的變換域編碼碼,其變換換系數(shù),或或稱頻率分量量數(shù)目則要大大得多,通通常取在123~256之間。變換域編碼將將連續(xù)8個(gè)輸輸入語音樣點(diǎn)點(diǎn)塊,經(jīng)線線性變換后再再進(jìn)行量化處處理,因此此變換域編碼碼也稱塊編碼碼。量化的的方法可以采采用標(biāo)量量化化,也可以以采用矢量量量化。KLT變換能能夠使變換域域編碼性能充充分發(fā)揮,但但在使用KLT時(shí),需需要對(duì)每個(gè)個(gè)信號(hào)輸入塊塊都求出N個(gè)特特征征矢矢量量,,并并以以邊邊信信息息((SideInformation,,或或稱稱為為““輔輔助助信信息息””))的的方方式式傳傳送送到到接接收收端端。。另另外外,,KLT在在進(jìn)進(jìn)行行變變換換時(shí)時(shí)需需要要做做N2次乘乘法法//加加法法運(yùn)運(yùn)算算,,不不存存在在快快速速算算法法,,因因此此在在實(shí)實(shí)際際中中并并沒沒有有得得到到應(yīng)應(yīng)用用。。事事實(shí)實(shí)上上,,它它只只給給出出一一些些次次優(yōu)優(yōu)而而實(shí)實(shí)用用的的算算法法在在性性能能上上的的界界限限,,在在理理論論研研究究上上起起參參照照作作用用。。在在實(shí)實(shí)際際應(yīng)應(yīng)用用中中,,離離散散Hadamard變變換換((DHT))、、離離散散WalshHadamard變變換換((DWHD))、、離離散散傅傅里里葉葉變變換換((DFT))以以及及離離散散余余弦弦變變換換((DCT))等等都都得得到到了了應(yīng)應(yīng)用用。。特特別別是是,,DCT在在語語音音及及圖圖像像的的變變換換域域編編碼碼中中,,由由于于其其性性能能非非常常接接近近于于KLT,,又又有有快快速速算算法法,,因因此此得得到到了了廣廣泛泛的的應(yīng)應(yīng)用用。。DCT的一一個(gè)重重要優(yōu)優(yōu)點(diǎn)是是:它它真真正代代表了了頻域域變換換,因因此此可以以很容容易根根據(jù)人人耳的的特性性來控控制各各頻率率分量量的量量化誤誤差,,使使得在在數(shù)碼碼率一一定的的條件件下,,獲獲得最最好的的主觀觀編碼碼質(zhì)量量。DCT的的另一一個(gè)重重要優(yōu)優(yōu)點(diǎn)是是:對(duì)對(duì)于于自回回歸((AR)輸輸入過過程,,并并且相相鄰樣樣點(diǎn)有有較高高的相相關(guān)性性時(shí),,其其性能能非常常接近近KLT。。不不僅僅僅對(duì)于于語音音信號(hào)號(hào),其其他他許多多信號(hào)號(hào)都能能夠用用AR模型型來描描述。。DCT的第第三個(gè)個(gè)優(yōu)點(diǎn)點(diǎn)是::它它可以以借助助FFT進(jìn)進(jìn)行快快速計(jì)計(jì)算。。這這對(duì)具具體應(yīng)應(yīng)用,,特特別是是當(dāng)N比較大時(shí),,是至關(guān)關(guān)重要的。。在語音編碼碼系統(tǒng)中,,為了適適應(yīng)語音信信號(hào)的非平平穩(wěn)性,通通常都要要采用自適適應(yīng)處理技技術(shù)。變變換域編碼碼將輸入信信號(hào)塊分解解成不同的的頻率分量量,去除除了大部分分樣點(diǎn)之間間的相關(guān)性性,因此此,自適適應(yīng)技術(shù)主主要使用了了自適應(yīng)比比特分配和和自適應(yīng)量量化。自自適應(yīng)比特特分配用來來適應(yīng)短時(shí)時(shí)譜形狀的的變化,而而自適應(yīng)應(yīng)量化主要要用來適應(yīng)應(yīng)短時(shí)譜能能量的變化化。在更更一般的概概念中,變變換的矩矩陣也可以以自適應(yīng),,由于實(shí)實(shí)現(xiàn)上的困困難,在在實(shí)際應(yīng)用用中幾乎都都采用固定定變換矩陣陣,因此此,自適適應(yīng)變換域域編碼(ATC)一一詞通常指指自適應(yīng)比比特分配和和自適應(yīng)量量化,特特別是指自自適應(yīng)比特特分配。由于分塊處處理,前前向自適應(yīng)應(yīng)更適合變變換域編碼碼,自適適應(yīng)信息需需要以邊信信息的形式式傳送給接接收端,以以供解碼碼用。由由于邊信息息占用一部部分速率,,因此需需要研究高高效率的自自適應(yīng)方法法,盡量量少用一些些比特來傳傳送邊信息息,以省省下更多的的比特用來來對(duì)系數(shù)進(jìn)進(jìn)行量化。。圖3.3-8示出了自自適應(yīng)變換換域編解碼碼的框圖,,其中包包含了邊信信息支路,,它們用用來提供自自適應(yīng)量階階及自適應(yīng)應(yīng)比特分配配信息。圖3.3-8自適應(yīng)變換換編解碼原原理框圖(a)編編碼;((b)解碼碼3.3.5矢量量量化矢量量化VQ(VectorQuantization)是一一種有損的的編碼方案案,其主主要思想是是將輸入的的語音信號(hào)號(hào)按一定方方式分組,,把這些些分組數(shù)據(jù)據(jù)看成一個(gè)個(gè)矢量,對(duì)對(duì)它進(jìn)行行量化。這這就區(qū)別別于直接對(duì)對(duì)一個(gè)個(gè)數(shù)數(shù)據(jù)作量化化的標(biāo)量量量化方法。。矢量量量化編碼及及解碼的原原理框圖如如圖3.3-9所示示。圖3.3-9矢量量化編編碼及解碼碼原理框圖圖假定將語音音數(shù)據(jù)分組組,每組組有k個(gè)數(shù)據(jù)。這這樣,一一組就是是一個(gè)k維的矢量。。把每一一個(gè)組形成成的矢量看看成一個(gè)元元素,又又叫碼字,,那么,,語音所所分成的組組就形成了了各自的碼碼字。這這些碼字排排列起來,,就構(gòu)成成了一個(gè)表表,人們們將此表叫叫做碼本或或碼書。形形象一點(diǎn)點(diǎn)說,碼碼書就類似似于漢字的的電報(bào)號(hào)碼碼本,電電報(bào)號(hào)碼本本里面是復(fù)復(fù)雜的漢字字,而在在這里是一一組原始的的語音數(shù)據(jù)據(jù);電報(bào)報(bào)號(hào)碼本里里每個(gè)漢字字旁邊標(biāo)有有只用4位位阿拉伯?dāng)?shù)數(shù)字表示的的號(hào)碼,而而在矢量量量化方法法里就是每每組數(shù)據(jù)所所對(duì)應(yīng)的下下標(biāo)。系統(tǒng)工作原原理為:先先將待編編碼的序列列劃分成一一個(gè)個(gè)等長(zhǎng)長(zhǎng)的段,每每段含有有若干個(gè)樣樣點(diǎn),這這一段段樣樣點(diǎn)就構(gòu)成成一個(gè)個(gè)矢矢量。編編碼對(duì)象可可以是直接接的語音輸輸入序列,,也可以以是參數(shù)編編碼中語音音模型對(duì)應(yīng)應(yīng)的激勵(lì)序序列,或或者是準(zhǔn)平平穩(wěn)期內(nèi)的的語音經(jīng)線線性預(yù)測(cè)分分析產(chǎn)生的的一組自回回歸(AR)模型參參數(shù),等等等。每每一個(gè)矢量量與已預(yù)先先訓(xùn)練(是是指某種算算法計(jì)算))好的一個(gè)個(gè)矢量碼本本(Codebook)中的每一一個(gè)碼字((Codeword,它與與輸入矢量量一樣,也也是同維維數(shù)的矢量量)按某種種失真準(zhǔn)則則進(jìn)行比較較,求出出誤差。碼本中每一一個(gè)碼字都都與輸入矢矢量產(chǎn)生一一個(gè)相應(yīng)的的誤差,其其中誤差差最小的矢矢量可用來來代替輸入入矢量,即即輸入的的最佳量化化值。只只需對(duì)碼本本中每一個(gè)個(gè)碼字的位位置進(jìn)行編編碼即可,,即傳送送的不是碼碼本中對(duì)應(yīng)應(yīng)的碼字本本身(這對(duì)對(duì)數(shù)據(jù)壓縮縮毫無意義義),而而是它的下下標(biāo)。傳傳送下標(biāo)所所用的數(shù)據(jù)據(jù)量比傳送送原始的k維數(shù)據(jù)要要小得多多,從從而達(dá)到到了數(shù)據(jù)據(jù)壓縮的的目的。。在接接收端,,也有有同樣的的碼本,,當(dāng)接接收到對(duì)對(duì)方傳來來的矢量量下標(biāo)時(shí)時(shí),即即可根據(jù)據(jù)此下標(biāo)標(biāo),在在碼本中中查出相相應(yīng)的碼碼字作為為重建的的語音數(shù)數(shù)據(jù)。如果碼本本的長(zhǎng)度度為N,則下下標(biāo)可用用lbN二進(jìn)制位位來表示示,而而k個(gè)數(shù)據(jù)構(gòu)構(gòu)成一個(gè)個(gè)碼字。。所以以,矢矢量量化化編碼的的比特壓壓縮量可可達(dá)到1/klbN。矢量量化化編碼的的關(guān)鍵技技術(shù)一方方面在于于設(shè)計(jì)一一個(gè)優(yōu)良良的碼本本,即即矢量碼碼本的構(gòu)構(gòu)造問題題。一一般可通通過反復(fù)復(fù)迭代、、不斷斷修正的的方法完完成,目目前最最常用的的是一種種稱為L(zhǎng)BG的的算法。。這個(gè)個(gè)算法是是三位學(xué)學(xué)者Y.Linde、、A.Buzo和R.M.Gray共同同提出的的,故故以它們們的名字字命名。。采用用LGB算法的的步驟為為:(1)采采集用用于構(gòu)造造碼本的的訓(xùn)練數(shù)數(shù)據(jù)。數(shù)數(shù)據(jù)越越多,采采集對(duì)對(duì)象越廣廣泛,則則訓(xùn)練練出的碼碼本越好好。當(dāng)然,數(shù)數(shù)據(jù)越越多,訓(xùn)訓(xùn)練時(shí)時(shí)間越長(zhǎng)長(zhǎng),因因而必須須在性能能和訓(xùn)練練代價(jià)之之間尋求求一個(gè)折折衷。(2)構(gòu)構(gòu)造初初始碼本本。它它有許多多方法,,例如如,常常用的隨隨機(jī)碼本本、白白噪聲碼碼本等。。(3)訓(xùn)訓(xùn)練數(shù)數(shù)據(jù)對(duì)已已有的碼碼本進(jìn)行行矢量量量化編碼碼,對(duì)對(duì)每個(gè)碼碼字形成成數(shù)據(jù)聚聚類。(4)根根據(jù)量量化得到到的聚類類結(jié)果修修正碼字字,即即尋找每每一類的的新的代代表性碼碼字。(5)判判斷(3)中中量化編編碼誤差差是否小小于規(guī)定定數(shù)值,,或者者迭代次次數(shù)是否否超過規(guī)規(guī)定值,,若是是,訓(xùn)訓(xùn)練結(jié)束束。否否則轉(zhuǎn)((3)繼繼續(xù)。矢量量化化編碼的的關(guān)鍵技技術(shù)的另另一個(gè)方方面是量量化編碼碼準(zhǔn)則問問題,這這與被被編碼對(duì)對(duì)象特性性有關(guān)。。舉例例來說,,若直直接對(duì)輸輸入語音音波形進(jìn)進(jìn)行矢量量量化,,則多多用最小小均方誤誤差MSE(Mean-Squared-Error))準(zhǔn)則:(3.3-7)其中,Yi是碼本中第i個(gè)碼字,每每個(gè)碼字有m維;wj是權(quán)函數(shù);d是誤差值值。若矢量量量化編碼的的對(duì)象是語音音模型參數(shù),,則MSE(最小均方方誤差)準(zhǔn)則則就不合適了了。因?yàn)槟DP蛥?shù)反映映的是語音的的頻譜特性,,參數(shù)量化化誤差最小,,代表語音音頻譜量化誤誤差最?。ǔ菂?shù)間無無誤差),所所以在這種種場(chǎng)合,將將多數(shù)由參數(shù)數(shù)來表示的語語音頻譜失真真作為誤差準(zhǔn)準(zhǔn)則。最常常用的是(3.3-8)圖3.3-10二進(jìn)碼樹編碼碼原理圖3.3-10中,一一共有m級(jí),第一級(jí)級(jí)有21個(gè)碼字,第第二級(jí)有22個(gè)碼字,第第m級(jí)有2m個(gè)碼字。輸輸入矢量首先先與第一級(jí)兩兩個(gè)碼字比較較,如果圖圖中上面一個(gè)個(gè)的碼字量化化誤差小,則則再與它對(duì)對(duì)應(yīng)的第二級(jí)級(jí)的兩個(gè)碼字字(如圖中虛虛線箭頭所指指)進(jìn)行比較較,依次類類推,每次次僅與某級(jí)的的兩個(gè)碼字進(jìn)進(jìn)行比較,一一直到最后后一級(jí)的第j個(gè),即為為量化結(jié)果,,量化的路路徑如圖3.3-10中的實(shí)線所示。。這樣,搜搜索的過程程只與2m個(gè)個(gè)碼字進(jìn)行比比較,而不不是普通矢量量量化與2m個(gè)碼字的比較較,計(jì)算量量大大減少。。當(dāng)然,碼碼本的構(gòu)造造也是先構(gòu)造造一個(gè)碼字,,再構(gòu)造兩兩個(gè),兩個(gè)個(gè)再構(gòu)造四個(gè)個(gè),依此類類推。G.723.1和G.729標(biāo)準(zhǔn)中中采用的代數(shù)數(shù)結(jié)構(gòu)碼本,,是使其碼碼本呈現(xiàn)某種種預(yù)先規(guī)定的的排列特征((等間隔的脈脈沖串、不不同碼矢量可可以通過別的的碼字的移位位得到),另另外,每每個(gè)碼字中非非零元素很少少,可以大大大降低求解解合成語音時(shí)時(shí)的計(jì)算量。。矢量量化編碼碼不一定是對(duì)對(duì)語音樣值進(jìn)進(jìn)行處理,也也可以對(duì)語語音的其他特特征進(jìn)行編碼碼,比如G.723.1標(biāo)準(zhǔn)中,,合成濾波波器系數(shù)轉(zhuǎn)化化為線譜對(duì)((LinearSpectrumPair,LSP)系數(shù)后采用用的就是矢量量編碼法。因因此,矢矢量量化的用用途是很廣的的。3.3.6線性預(yù)測(cè)編碼碼前面我們已介介紹過線性預(yù)預(yù)測(cè)編碼(LPC)方法法為參數(shù)編碼碼方式。參參數(shù)編碼的基基礎(chǔ)是人類語語音的生成模模型,通過過這個(gè)模型,,提取語音音的特征參數(shù)數(shù),然后對(duì)對(duì)特征參數(shù)進(jìn)進(jìn)行編碼傳輸輸。在式((3.3-4)和和式((3.3-5)中中分別別給出出了預(yù)預(yù)測(cè)方方程和和預(yù)測(cè)測(cè)誤差差。在在DPCM中中只用用低階階進(jìn)行行預(yù)測(cè)測(cè),有有時(shí)時(shí)甚至至取ai=1,即即只用用前面面一個(gè)個(gè)采樣樣來代代替((預(yù)測(cè)測(cè))當(dāng)當(dāng)前樣樣值。。而而在LPC中,,對(duì)對(duì)輸入入的音音頻信信號(hào)進(jìn)進(jìn)行分分幀((例如如,每每10ms為一一幀))提取取參數(shù)數(shù)。發(fā)發(fā)送送這些些參數(shù)數(shù)以達(dá)達(dá)到數(shù)數(shù)據(jù)壓壓縮的的目的的。在在接接收端端,利利用用所得得的參參數(shù)進(jìn)進(jìn)行合合成,,重重建語語音。。在提取取的參參數(shù)中中,最最重重要的的是預(yù)預(yù)測(cè)系系數(shù)ai。求求取取線線性性預(yù)預(yù)測(cè)測(cè)系系數(shù)數(shù)的的依依據(jù)據(jù)就就是是式式((3.3-5))的的e20為最最小小。。也也就就是是說說,,要要提提取取在在一一幀幀數(shù)數(shù)據(jù)據(jù)中中使使e20為最最小小的的ai。在在實(shí)實(shí)際際應(yīng)應(yīng)用用中中,,通通常常要要取取10階階或或12階階預(yù)預(yù)測(cè)測(cè)系系數(shù)數(shù),,這這就就需需要要求求出出各各ai下的的e20的最最小小值值。。通通過過解解聯(lián)聯(lián)立立方方程程的的方方法法求求出出ai來。。實(shí)實(shí)際際上上求求10階階((或或12階階))預(yù)預(yù)測(cè)測(cè)系系數(shù)數(shù)需需要要計(jì)計(jì)算算本本幀幀語語音音信信號(hào)號(hào)的的協(xié)協(xié)方方差差或或自自相相關(guān)關(guān),,使使求求取取的的預(yù)預(yù)測(cè)測(cè)值值盡盡可可能能地地接接近近實(shí)實(shí)際際值值。。除除了了預(yù)預(yù)測(cè)測(cè)系系數(shù)數(shù)外外,,其其他他要要提提取取的的參參數(shù)數(shù)有有音音調(diào)調(diào)、、清清音音/濁濁音音以以及及信信號(hào)號(hào)的的幅幅度度。。LPC系系統(tǒng)統(tǒng)將將預(yù)預(yù)測(cè)測(cè)系系數(shù)數(shù)及及其其他他有有關(guān)關(guān)參參數(shù)數(shù)進(jìn)進(jìn)行行編編碼碼并并傳傳送送。。在在接接收收端端,,利利用用收收到到的的線線性性預(yù)預(yù)測(cè)測(cè)系系數(shù)數(shù)以以及及其其他他參參數(shù)數(shù),,使使用用語語音音合合成成器器重重建建原原始始語語音音。。一個(gè)個(gè)典典型型的的例例子子是是美美國國使使用用的的LPC-10算算法法,,其其編編碼碼原原理理框框圖圖如如圖圖3.3-11所所示示。。LPC-10與與其其他他LPC的的區(qū)區(qū)別別在在于于它它采采用用了了平平均均幅幅值值差差分分函函數(shù)數(shù)((AMDF))間間隔隔提提取取方方法法和和采采用用協(xié)協(xié)方方差差計(jì)計(jì)算算短短時(shí)時(shí)預(yù)預(yù)測(cè)測(cè)器器系系數(shù)數(shù),,而而不不是是用用自自相相關(guān)關(guān)方方法法。。在在此此系系統(tǒng)統(tǒng)中中,,語語音音的的采采樣樣率率為為8kHz,,樣樣本本編編碼碼字字長(zhǎng)長(zhǎng)為為12位位。。以以180個(gè)個(gè)采采樣樣值值為為一一幀幀。。LPC-10對(duì)對(duì)每每幀幀信信號(hào)號(hào)采采樣樣值值進(jìn)進(jìn)行行處處理理,,分分別別計(jì)計(jì)算算出出10階階預(yù)預(yù)測(cè)測(cè)系系數(shù)數(shù)、、音音調(diào)調(diào)、、幅幅度度及及清清音音或或濁濁音音。。圖3.3-11LPC-10算法法的編碼碼原理框框圖利用迭代代法計(jì)算算協(xié)方差差矩陣,,求得得10階階預(yù)測(cè)系系數(shù)。前前4個(gè)個(gè)系數(shù)用用5bit表示示;第第5到第第8個(gè)個(gè)系數(shù)數(shù)用4bit表示示;第第9個(gè)系系數(shù)為為3bit;第第10個(gè)個(gè)系數(shù)數(shù)為2bit。這這樣樣,10個(gè)線線性預(yù)預(yù)測(cè)系系數(shù)共共用41bit來表表示。。用用7bit傳送送音調(diào)調(diào)和清清音/濁音音,再再用用5bit表示示幅度度,另另外外還要要加1位同同步位位。這這樣樣一來來,原原來來一幀幀(180個(gè)采采樣值值)數(shù)數(shù)據(jù)可可用54bit來傳傳送,,從從而使使系統(tǒng)統(tǒng)的傳傳送率率為8000/180××54=2.4kb/s。3.4語音壓壓縮編編碼標(biāo)標(biāo)準(zhǔn)經(jīng)過近近二三三十年年的努努力,,人人們已已在語語音信信號(hào)壓壓縮編編碼方方面取取得了了很大大進(jìn)展展,開開發(fā)發(fā)出了了許多多壓縮縮方法法,其其中中的一一些已已成為為了國國際或或地區(qū)區(qū)的編編碼標(biāo)標(biāo)準(zhǔn),,表表3.4-1所示示是按按波形形編碼碼、參參數(shù)數(shù)編碼碼和混混合編編碼三三類編編碼方方法分分類的的具有有代表表性的的標(biāo)準(zhǔn)準(zhǔn)。表3.4-1數(shù)字音音頻編編碼算算法、、標(biāo)標(biāo)準(zhǔn)簡(jiǎn)簡(jiǎn)表3.4.1常見音頻編編碼標(biāo)準(zhǔn)1.G.711標(biāo)標(biāo)準(zhǔn)G.711標(biāo)準(zhǔn)是1972年年制定的電電話質(zhì)量的的PCM語音壓壓縮標(biāo)準(zhǔn),,采樣頻頻率為8kHz,每每個(gè)樣值采采用8位二二進(jìn)制編碼碼,因此此其速率為為64kb/s。推推薦使用用A律或μ律的非線性性壓擴(kuò)技術(shù)術(shù),將13位的PCM按A律律,14位的PCM按μ律轉(zhuǎn)換成8位編碼,,其質(zhì)量量相當(dāng)于12比特線線形量化。。標(biāo)準(zhǔn)規(guī)規(guī)定選用不不同解碼規(guī)規(guī)則的國家家之間,數(shù)數(shù)據(jù)通路路傳送按A律解碼的的信號(hào)。使使用μ律的國家應(yīng)應(yīng)進(jìn)行轉(zhuǎn)換換,標(biāo)準(zhǔn)準(zhǔn)給出了μA編碼的對(duì)對(duì)應(yīng)表。標(biāo)標(biāo)準(zhǔn)還規(guī)規(guī)定,在在物理介質(zhì)質(zhì)上連續(xù)傳傳輸時(shí),符符號(hào)位在在前,最最低有效位位在后。本本標(biāo)準(zhǔn)廣廣泛用于數(shù)數(shù)字語音編編碼。2.G.721標(biāo)標(biāo)準(zhǔn)G.721標(biāo)準(zhǔn)是ITU-T于1984年制定定的,主主要目的是是用于64kb/s的A律律和μ律PCM與32kb/s的ADPCM之間的轉(zhuǎn)轉(zhuǎn)換。它它基于ADPCM技技術(shù),采采樣頻率為為8kHz,每每個(gè)樣值與與預(yù)測(cè)值的的差值用4位編碼,,其編碼碼速率為32kb/s,ADPCM是一種種對(duì)中等質(zhì)質(zhì)量音頻信信號(hào)進(jìn)行高高效編碼的的有效算法法之一,它它不僅適適用于語音音壓縮,而而且也適適用于調(diào)幅幅廣播質(zhì)量量的音頻壓壓縮和CD-I音頻頻壓縮等應(yīng)應(yīng)用。3.G.722標(biāo)標(biāo)準(zhǔn)G.722標(biāo)準(zhǔn)旨在在提供比G.711或G.721標(biāo)準(zhǔn)準(zhǔn)壓縮技術(shù)術(shù)更高的音音質(zhì),G.722編碼采用用了高低兩兩個(gè)子帶內(nèi)內(nèi)的ADPCM方案案,即使使用子帶ADPCM(SB-ADPCM)編碼碼方案。高高低子帶帶的劃分以以4kHz為界,,然后再再對(duì)每個(gè)子子帶內(nèi)采用用類似G.721標(biāo)標(biāo)準(zhǔn)的ADPCM編編碼。它它是1988年ITU-T為為調(diào)幅廣播播質(zhì)量的音音頻信號(hào)壓壓縮制定的的標(biāo)準(zhǔn)。G.722能將224kb/s的的調(diào)幅廣播播質(zhì)量的音音頻信號(hào)壓壓縮為64kb/s,主主要用于視視聽多媒體體和會(huì)議電電視等。G.722壓縮信信號(hào)的帶寬寬范圍為50Hz~7kHz,比比特率為為48kb/s、、56kb/s、64kb/s。在在標(biāo)準(zhǔn)模式式下,采采樣頻率為為16kHz,幅幅度深度度為14bit。。4..G.728標(biāo)標(biāo)準(zhǔn)準(zhǔn)G.728標(biāo)標(biāo)準(zhǔn)準(zhǔn)是是一一個(gè)個(gè)追追求求低低比比特特率率的的標(biāo)標(biāo)準(zhǔn)準(zhǔn),,其其速速率率為為16kb/s,,其其質(zhì)質(zhì)量量與與32kb/s的的G.721標(biāo)準(zhǔn)準(zhǔn)相相當(dāng)當(dāng)。。它它使使用用了了LD-CELP(低低延延時(shí)時(shí)碼碼激激勵(lì)勵(lì)線線性性預(yù)預(yù)測(cè)測(cè)))算算法法。。該該算算法法考考慮慮了了人人耳耳的的聽聽覺覺特特性性,,具具有有以以塊塊為為單單位位的的后后向向自自適適應(yīng)應(yīng)高高階階預(yù)預(yù)測(cè)測(cè)、、后后向向自自適適應(yīng)應(yīng)型型增增益益量量化化、、以以矢矢量量為為單單位位的的激激勵(lì)勵(lì)信信號(hào)號(hào)量量化化等等特特點(diǎn)點(diǎn)。。語語音音輸輸入入為為5個(gè)個(gè)取取樣樣值值,,附附加加上上激激勵(lì)勵(lì)信信號(hào)號(hào)的的波波形形與與增增益益表表達(dá)達(dá)信信息息10比比特特,,編編碼碼時(shí)時(shí)延延在在2ms以內(nèi)。這一點(diǎn)與每一一幀取160個(gè)樣值,附附加有除激激勵(lì)信號(hào)和波波形與增益表表達(dá)信息外還還包括線性預(yù)預(yù)測(cè)系數(shù)、音音調(diào)預(yù)測(cè)系系數(shù)、音調(diào)調(diào)增益輔助信信息等信息,,這些信息息的基本CELP結(jié)構(gòu)不同。另另外,G.721方方案是對(duì)每個(gè)個(gè)取樣值進(jìn)行行預(yù)測(cè)并自適適應(yīng)量化,而而本方案則則是對(duì)所有取取樣值以矢量量為單位處理理,并且應(yīng)應(yīng)用了線性預(yù)預(yù)測(cè)和增益自自適應(yīng)的最新新理論與成果果。編碼時(shí)將事先先準(zhǔn)備好的激激勵(lì)矢量的所所有組合合成成語音,然然后將其結(jié)果果與被編碼的的輸入信號(hào)相相比較,選選出聽覺加權(quán)權(quán)后距離最小小的碼元作為為信息傳遞。。而合成器器則將發(fā)送端端編碼傳送所所制定的激勵(lì)勵(lì)矢量、3比特增益碼碼和自身合成成過的語音波波形一起合成成為語音。ITU-TG.728標(biāo)準(zhǔn)準(zhǔn)的LD-CELP編碼原原理框框圖如如圖3.4-1所示示。標(biāo)標(biāo)準(zhǔn)的的LD-CELP編編碼原原理框框圖G.728是低低速率率(56~~128kb/s)ISDN可可視電電話的的推薦薦語音音編碼碼器,,由由于它它具有有反向向自適適應(yīng)特特性,,可可實(shí)現(xiàn)現(xiàn)低時(shí)時(shí)延,,被被認(rèn)為為復(fù)雜雜度較較高。。由由于自自適應(yīng)應(yīng)反向向?yàn)V波波器,,因因而G.728具有有幀或或包丟丟失隱隱藏措措施,,對(duì)對(duì)隨機(jī)機(jī)比特特差錯(cuò)錯(cuò)有相相當(dāng)強(qiáng)強(qiáng)的承承受力力,超超出出任何何其他他語音音編碼碼器。。并并且,,一一個(gè)碼碼字中中的全全部10個(gè)個(gè)比特特對(duì)比比特差差錯(cuò)的的敏感感度基基本相相同。。5.G.729標(biāo)準(zhǔn)準(zhǔn)G.729標(biāo)準(zhǔn)準(zhǔn)是ITU-T為低碼碼率應(yīng)用用設(shè)計(jì)而而制定的的語音壓壓縮標(biāo)準(zhǔn)準(zhǔn),其其碼率為為8kb/s,算算法相對(duì)對(duì)比較復(fù)復(fù)雜,采采用碼碼激勵(lì)線線性預(yù)測(cè)測(cè)(CELP,,CodeExcitationLinearPrediction)技技術(shù),同同時(shí)為為了提高高合成語語音質(zhì)量量,采采取了一一些措施施,具具體的算算法要比比CELP復(fù)雜雜一些,,通常常稱為共共軛結(jié)構(gòu)構(gòu)代數(shù)碼碼激勵(lì)線線性預(yù)測(cè)測(cè)(CS-ACELP,ConjugateStructureAlgebraicCodeExcitedLinearPrediction))。G.729標(biāo)準(zhǔn)準(zhǔn)語音編編碼系統(tǒng)統(tǒng)的原理理框圖如如圖3.4-2所示示。圖3.4-2G.729標(biāo)準(zhǔn)準(zhǔn)語音編編碼系統(tǒng)統(tǒng)的原理理框圖G.729標(biāo)準(zhǔn)準(zhǔn)的編碼碼過程如如下:(1)預(yù)預(yù)處理理。它它可對(duì)輸輸入信號(hào)號(hào)進(jìn)行高高通濾波波和按一一定比例例縮小,,以防防溢出。。(2)對(duì)對(duì)10ms幀長(zhǎng)語語音段采采用Levinson-Durbin算法法進(jìn)行LPC分分析(階階數(shù)10階),,并將將LP系系數(shù)轉(zhuǎn)換換成線譜譜對(duì)LSP參數(shù)數(shù),用用VQ技技術(shù)量化化編碼。。(3)將將10ms幀分成兩兩個(gè)5ms的子幀,,分別求求子幀語音音模型對(duì)應(yīng)應(yīng)的激勵(lì)信信號(hào)。(4)第第二子幀的的信號(hào),合合成濾波波器系數(shù)取取自第二步步運(yùn)算的結(jié)結(jié)果,而而第一子幀幀合成濾波波器系數(shù)是是通過第二二子幀系數(shù)數(shù)與前一幀幀系數(shù)內(nèi)插插得到的((這樣,第第一子幀幀合成濾波波器系數(shù)不不必傳輸了了)。(5)開開環(huán)基音估估計(jì)。即即根據(jù)短時(shí)時(shí)預(yù)測(cè)產(chǎn)生生的預(yù)測(cè)誤誤差,直直接進(jìn)行估估計(jì)。(6)進(jìn)進(jìn)行自適應(yīng)應(yīng)碼書搜索索,得到到語音中具具有準(zhǔn)周期期特性的激激勵(lì)。根根據(jù)第(5)步的結(jié)結(jié)果,搜搜索范圍可可以很小。。G.729標(biāo)準(zhǔn)準(zhǔn)采取了一一些措施,,使得基基音周期還還可以取分分?jǐn)?shù)值(1/3樣值值精度),,提高了了合成語音音質(zhì)量。(7)具具有代數(shù)結(jié)結(jié)構(gòu)的固定定碼書搜索索,從而而得到語音音模型的隨隨機(jī)激勵(lì)信信號(hào)。(8)兩兩個(gè)碼書的的增益(固固定碼本增增益和自適適應(yīng)碼本增增益)采用用具有共軛軛結(jié)構(gòu)的兩兩級(jí)碼書進(jìn)進(jìn)行矢量量量化。表3.4-28kb/sCS-ACELP算法比比特分配方方案6.G.723.1標(biāo)準(zhǔn)ITU-T頒布的語語音壓縮標(biāo)標(biāo)準(zhǔn)中碼率率最低的G.723.1標(biāo)準(zhǔn)準(zhǔn)主要是用用于各種網(wǎng)網(wǎng)絡(luò)環(huán)境中中的多媒體體通信的。。它的編編碼的流程程圖如圖3.4-3所示。盡盡管圖3.4-3中流程看看起來很復(fù)復(fù)雜,但但它仍是基基于分析//合成(A/S)編編碼原理的的。它與與G.729標(biāo)準(zhǔn)的的主要不同同在于:圖3.4-3G.723.1標(biāo)準(zhǔn)準(zhǔn)語音編碼碼系統(tǒng)原理理框圖(1)分分析幀長(zhǎng)是是30ms,且分分成4個(gè)子子幀。每每個(gè)子幀分分別進(jìn)行LPC分析,但但僅僅最最后一個(gè)子子幀的LPC系數(shù)量化化編碼;基基音估計(jì)計(jì)每?jī)蓚€(gè)子子幀進(jìn)行一一次。G.729中分析幀幀長(zhǎng)為10ms,分成兩個(gè)子幀幀。所以,,G.723.1編解解碼時(shí)延更大大。(2)自適適應(yīng)碼書和固固定碼書增益益量化是分別別進(jìn)行的,前前者采用矢矢量量化,后后者用標(biāo)量量量化,沒沒有像G.729那樣,,兩個(gè)增益益都采用共軛軛結(jié)構(gòu)碼書。。(3)激勵(lì)勵(lì)有兩種,分分別為多脈脈沖激勵(lì)(高高速率時(shí))和和代數(shù)碼激勵(lì)勵(lì)(低速率時(shí)時(shí)),而G.729只只有代數(shù)碼激激勵(lì)。所以以G.723.1可以有有多速率選擇擇,能適應(yīng)應(yīng)網(wǎng)絡(luò)資源情情況變化。G.723.1具體編碼碼過程的步驟驟如下:(1)輸入入為16bit線性PCM信號(hào)。。(2)編碼碼器每次處理理一幀240個(gè)語音樣點(diǎn)點(diǎn),在抽樣樣頻率為8kHz時(shí)等等于30ms時(shí)長(zhǎng)。(3)每幀幀語音首先高高通濾波,然然后被分成成4個(gè)等長(zhǎng)子子幀,每子子幀含60個(gè)個(gè)樣值。(4)每個(gè)個(gè)子幀用Levinson-Durbin法,,求取10階LPC濾濾波器系數(shù)。。(5)4個(gè)個(gè)子幀中最后后一個(gè)子幀的的LPC系數(shù)數(shù),經(jīng)7.5Hz帶帶寬擴(kuò)展,再再轉(zhuǎn)換成LSP系數(shù)。。LSP系數(shù)用用預(yù)測(cè)分裂矢矢量量化器進(jìn)進(jìn)行量化編碼碼。具體做做法是,首首先去除LSP系數(shù)中直直流分量,再再與前一幀幀解碼的LSP矢量做預(yù)預(yù)測(cè),以減減小動(dòng)態(tài)范圍圍。每個(gè)預(yù)預(yù)測(cè)誤差矢量量(10維))分裂成3個(gè)個(gè)維數(shù)為3、、3、4的子矢量,,分別用8bitVQ碼書進(jìn)進(jìn)行量化編碼碼。(6)4個(gè)個(gè)子幀的前三三個(gè)子幀,其其量化后LSP(從而而LPC)系系數(shù)的獲得,,是通過對(duì)對(duì)前一幀的解解碼LSP系系數(shù),與第第四幀解碼LSP系數(shù)的的線性內(nèi)插得得到。(7)各子子幀得到解碼碼LPC系數(shù)數(shù)后,構(gòu)成成合成濾波器器。(8)各子子幀用未量化化的LPC系系數(shù),組成成感覺加

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論