多媒體復(fù)習(xí)整理完全版_第1頁
多媒體復(fù)習(xí)整理完全版_第2頁
多媒體復(fù)習(xí)整理完全版_第3頁
多媒體復(fù)習(xí)整理完全版_第4頁
多媒體復(fù)習(xí)整理完全版_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Chapter 3 imageDithering and Dither Matrix抖動(dòng):基本策略是以亮度分辨率換取空間分辨率對于在1位打印機(jī)上的打印來說,如果通過增加抖動(dòng)矩陣的大小來增加亮度級數(shù)量,也會增加輸出圖像的大小,這就降低了圖像在局部的清晰度,從而降低了圖像的空間分辨率。抖動(dòng)矩陣: 使用一個(gè)n*n的二值點(diǎn)陣表示n2+1級灰度分辨率抖動(dòng)規(guī)則:把0255重新映射到04通過用256/5除灰度值。如果一個(gè)灰度值比抖動(dòng)矩陣的元素大,則那個(gè)元素的位置打一個(gè)點(diǎn)(置1)Ordered dithering:不增加圖像的大小。把n*n抖動(dòng)矩陣在同一刻移動(dòng)到圖像在水平和垂直方向 n*n個(gè)像素上(圖像值已經(jīng)

2、被降低到02n區(qū)間中),如果某個(gè)像素的亮度值大于覆蓋它的矩陣元素的編號則在打印機(jī)相應(yīng)元素輸出位填涂。 Begin / I(x,y) is the input, O(x,y) is the output, D is the n*n dither matrixfor x=0 to xmaxfor y=0 to ymaxi= x mod n j=y mod nif I(x,y) D(i,j)O(x,y)=1;else O(x,y)=0;End Look up table and Median Cut Algorithm顏色查找表:為每個(gè)像素存儲下標(biāo)或者說是編號值,那么如果一個(gè)像素存儲的值是25,意為

3、在顏色查找表中找到第25行。Median Cut: 將紅色字節(jié)的值排序,并找到中值(即一半像素值比其小一半比其大),比中值小的值被標(biāo)記為0位,比中值大的值被標(biāo)記為1位。僅僅考慮第一步后被標(biāo)記為0的像素,并將它們的綠色值排序。接著用另一位標(biāo)記像素,0標(biāo)記綠色中那些比中值小的像素,1標(biāo)記為那些比中值打的像素。然后,把同樣的規(guī)則用于第一步后被標(biāo)記為1的像素。繼續(xù)在藍(lán)色分量上執(zhí)行上述步驟,就得到了3位的方案。重復(fù)前面所有步驟,得到6位方案。再重復(fù)紅色、綠色步驟,得到8位方案。Interlace scan and Adam 7 scanInterlace scan: 一種圖像編碼方法使得圖像在被接受的過

4、程中逐漸清晰。 Adam 7: 7遍隔行掃描算法。PNG中支持的交織掃描。Gif中的交織掃描:第一通道(Pass 1)提取從第0行開始每隔8行的數(shù)據(jù);第二通道(Pass 2)提取從第4行開始每隔8行的數(shù)據(jù);第三通道(Pass 3)提取從第2行開始每隔4行的數(shù)據(jù);第四通道(Pass 4)提取從第1行開始每隔2行的數(shù)據(jù);Major differences between BMP, GIF, PNG and JPEGBmp:windows中使用的格式。8位BMP通常采用256各元素的顏色查找表。表中的顏色數(shù)據(jù)根據(jù)重要性排列。顏色數(shù)據(jù)是4個(gè)字節(jié),前三個(gè)分別是RGB,最后一個(gè)是0。對于32位或16位位圖

5、,如果壓縮方法是BI_RGB則不使用顏色查找表。如果壓縮方法是BI_BITFIELDS則表中的元素是位圖數(shù)據(jù)AND顏色表的數(shù)據(jù)。使用游長編碼壓縮占用磁盤空間大8-bit GIF: 是一種重要的格式,因?yàn)楹蚖WW以及HTML標(biāo)記語言的歷史關(guān)系,是第一個(gè)為網(wǎng)絡(luò)瀏覽器識別的圖像類型。GIF文件中的數(shù)據(jù)是顏色查找表中的當(dāng)前像素顏色的索引值。最多支持256種顏色??梢员环殖梢恍┐鎯K,這樣就可以存儲多個(gè)圖像并且控制動(dòng)畫和交互。流式讀寫,適用于網(wǎng)絡(luò)應(yīng)用。用4遍交織顯示。允許不顯示圖像的一些部分。能存儲圖像中的文字信息。使用LZW無損壓縮??缙脚_。Gif87a:原始的規(guī)格Gif89a:支持簡單動(dòng)畫,支持簡單

6、控制和透明度索引。JPEG:現(xiàn)在最重要的圖像壓縮標(biāo)準(zhǔn)。利用人類視覺系統(tǒng)的限制實(shí)現(xiàn)高壓縮率。允許用戶設(shè)置質(zhì)量級別(即壓縮率)。PNG:代表便攜式網(wǎng)絡(luò)圖形。支持最多48位的顏色信息。文件包含gamma校正信息用于正確顯示色彩圖像。包含alpha通道信息用于控制透明度。支持Adam7漸進(jìn)式顯示。支持流式讀寫??缙脚_。無損壓縮。區(qū)別于GIF的特點(diǎn):支持48位色彩圖像。支持16為灰度圖像。支持16位alpha通道。增加gamma信息。使用LZ77無損壓縮。使用CRC. 加速漸進(jìn)式顯示。標(biāo)準(zhǔn)讀寫工具箱。可以一個(gè)文件存儲多個(gè)圖像。Chapter 4 ColorImage formation model具有光

7、譜能量分布E()的光源發(fā)出的光照射到一個(gè)具有表面光譜反射的函數(shù)S()的表面后被反射,然后被眼睛的視錐函數(shù)q()過濾。函數(shù)C()成為顏色信號,是光源E()和反射S()的乘積:C()=E()S()成像模型的方程:Color Match Model一門包含于心理學(xué)中的技術(shù)把基本的R、G、B光線的組合于某種色調(diào)匹配起來。三種基本光線可以組成特殊集合,這個(gè)集合成為原色集。為了于給定的色調(diào)匹配,要求一組觀察者利用控件分別調(diào)節(jié)三原色的亮度,直到最終的光線與要求的顏色最為接近為止。這個(gè)實(shí)驗(yàn)裝置稱為色度計(jì)。CIE Chromaticity DiagramCIE(國際照明組織)色度圖:CIE顏色匹配曲線有負(fù)的原型

8、突出部分,因此設(shè)計(jì)了一套虛擬原色以使顏色匹配函數(shù)只有正值。結(jié)果曲線通常稱為顏色匹配函數(shù)。它們是r、g、b曲線進(jìn)行線性3*3矩陣變換得到的,用符號x、y、z表示。變換矩陣根據(jù)以下條件選擇:中間的顏色匹配函數(shù)y與發(fā)光效率曲線V()相等。對于一個(gè)光譜能量分布E()來說,表現(xiàn)顏色特征所需的基本色度信息是三色值X、Y、Z的集合。Y稱為亮度。x+y+z=1, z=1-x-yx,y稱為色度。顏色匹配曲線的性質(zhì):顏色匹配曲線把相同的值加起來,每條曲線下的區(qū)域?qū)γ總€(gè)顏色匹配函數(shù)是相同的。對于一個(gè)所有光譜能量分布值都為1的白色光源(等能量白色光),其色度值是(1/3,1/3)因?yàn)閤,y=1, x+yR=a*R1/

9、r+b,并在原點(diǎn)處特別處理White Point Correction我們要在R、G、B都達(dá)到最大值時(shí),得到白點(diǎn)。但是顯示器規(guī)范的色度和白點(diǎn)會產(chǎn)生錯(cuò)誤的值??紤]SMPTE規(guī)范,設(shè)R=G=B=1,則X等于xr+xg+xb=1.095,Y與Z的值為1.005和0.9,用(X+Y+Z)來除,得到色度非要求的色度。要修正這個(gè)缺陷,先令Y=1,由SMPTE規(guī)范有(x, y, z) = (0.3127, 0.3291, 0.3582),得到XYZwhite求出(d1,d2,d3)即為修正矩陣Major difference between RGB, CMYK, Lab and YIQCMY:減性系統(tǒng),在加

10、性(RGB)系統(tǒng)中黑色沒有光,RGB=(0,0,0), 在減性CMY系統(tǒng)中黑色是墨水的C=M=Y=1減去所有的光線產(chǎn)生的。CMYK:消除不足顏色C、M、Y混合起來實(shí)際上是圖褐色,真正的黑色的黑墨水實(shí)際上比用混合彩色墨水來制作黑墨水便宜。所以一個(gè)簡單的產(chǎn)生準(zhǔn)確的打印機(jī)顏色的方法是:計(jì)算三色混合中為黑色的部分,從顏色比例中去除之,用真正的黑色加回來,這被稱為“消除不足顏色”新墨水的規(guī)范: Lab(CIELAB): 利用韋伯定律,感知到同樣的變化必定是相對的。如果變化的比率是相同的,則感知到的變化是相同的,而不管是昏暗的光線還是明亮的光線。CIELAB空間中被量化的是感知到的顏色和亮度的不同。使用1

11、/3指數(shù)定律而不是一個(gè)算法。使用三個(gè)值,大致是L*亮度,a*和b*組合起來制造色彩和色調(diào)。E是色差,c*是色度,h*是色調(diào)角 YIQ:用于NTSC彩色電視廣播中?;叶认袼禺a(chǎn)生零(I,Q)色度信號。YIQ是YUV的一個(gè)版本,使用相同的Y, 但是U和V旋轉(zhuǎn)了33。YIQ分解對于形成圖像的層次序列更有幫助,能更好的區(qū)分顏色的優(yōu)先次序。Chapter 5 VideoTypes of Video分量視頻復(fù)合視頻S-VideoInterace ScanColor subsample4:4:4表示沒有沒有使用色度二次采樣,每個(gè)像素的Y、Cb、Cr值被傳送,每個(gè)都是44:2:2表示Cb和Cr信號是因子為2的水

12、平二次采樣。碼流:Y0 U0 Y1 V1 Y2 U2 Y3 V3映射出像素點(diǎn)為:Y0 U0 V1 Y1 U0 V1 Y2 U2 V3 Y3 U2 V34:1:1:水平二次采樣因子是4碼流: Y0 U0 Y1 Y2 V2 Y3映射出像素點(diǎn)為:Y0 U0 V2 Y1 U0 V2 Y2 U0 V2 Y3 U0 V24:2:0:水平和垂直方向都進(jìn)行2次采樣,因子是2下面八個(gè)像素為:Y0 U0 V0 Y1 U1 V1 Y2 U2 V2 Y3 U3 V3Y5 U5 V5 Y6 U6 V6 Y7U7 V7 Y8 U8 V8存放的碼流為:Y0 U0 Y1 Y2 U2 Y3 Y5 V5 Y6 Y7 V7 Y8映

13、射出的像素點(diǎn)為:Y0 U0 V5 Y1 U0 V5 Y2 U2 V7 Y3 U2 V7Y5 U0 V5 Y6 U0 V5 Y7U2 V7 Y8 U2 V7NTSC Specification and ModulationChapter 6 Digital AudioNyquist Theorem and Signal to Noise RatioLinear and Non-linear Quantization (u-Law, A-Law) PCM and DPCMChapter 7 Lossless Compression AlgorithmsEntropy and Variable-Le

14、ngth Coding (VLC)Huffmann coding algorithmDictionary-based Coding (LZW algorithm)Arithmetic Coding Chapter 8 Lossy Compression AlgorithmsQuantizationTransfer Coding (DCT)Chapter 9 Image Compression StandardsBlock diagram for JPEG encoder 主要步驟:把RGB轉(zhuǎn)換為YIQ或YUV,并且二次采樣因?yàn)槿祟悓叶鹊囊曈X敏感度要遠(yuǎn)遠(yuǎn)高于對彩色的敏感度。所以JPEG利用這個(gè)

15、特性采用4:2:0的方案進(jìn)行色度圖像的二次采樣。轉(zhuǎn)換顏色空間因?yàn)閅IQ或YUV中色度和亮度是分開的,jpeg對它們分開進(jìn)行編碼。對圖像塊進(jìn)行DCT變換每一個(gè)圖像劃分為8*8的塊。將2D DCT變換應(yīng)用到每一塊圖像f(i,j). 輸出函數(shù)F(u,v)是每個(gè)塊的DCT變換的系數(shù)。為什么8*8:大于8的數(shù)值會使圖像在低頻的效果更好,但使用8能使DCT及IDCT變換的計(jì)算速度更快。進(jìn)行量化(量化是JPEG壓縮中產(chǎn)生信息丟失的主要原因)量化是由每個(gè)頻率除以一個(gè)整數(shù),然后取整得到Fu,v=roundFu,vQu,v, Qu,v是量化矩陣,F(xiàn)u,v是量化后的DCT系數(shù)進(jìn)行Z編序和游長編碼Z形掃描:用Z字掃描

16、將8*8的矩陣Fu,v變?yōu)橐粋€(gè)64元素的向量。(Z形掃描為了獲得稀疏矩陣)AC系數(shù)的游長編碼:AC系數(shù)中每個(gè)零串用runlength, value表示。Runlength是串里0的數(shù)目,value是下一個(gè)非0系數(shù)。(0,0)緊跟著最后一個(gè)非零AC系數(shù)。DC系數(shù)的DPCM編碼: DPCM編碼后,d0=DC0, di=DCi+1-DCi進(jìn)行熵編碼DC和AC系數(shù)最后都將進(jìn)行熵編碼DC系數(shù)的霍夫曼編碼:每一個(gè)DPCM編碼后的DC系數(shù)可以用(SIZE, AMPLITUDE)表示,SIZE表示需多少位表示DC系數(shù),AMPLITUDE是實(shí)際使用的位數(shù)。例如(3,101)。對SIZE進(jìn)行霍夫曼編碼,AMPLI

17、TUDE不用。編碼后,定制的編碼表可以保存在JPEG圖像的頭部,否則要使用默認(rèn)的霍夫曼編碼。AC系數(shù)的霍夫曼編碼:VALUE用(SIZE, AMPLITUDE)表示。得到Symbol1: (RUNLENGTH,SIZE)和Symbol2: (AMPLITUDE). Symbol1采用霍夫曼編碼,Symbol2不用。Chapter 10 Basic Video Compression TechniquesMotion estimation and Motion compensation視頻壓縮算法是基于運(yùn)動(dòng)補(bǔ)償?shù)膲嚎s算法。運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償:每一個(gè)圖像劃分成N*N的宏塊。默認(rèn)情況亮度圖N=16,

18、色度圖如果采用4:2:0的采樣,則N=8。當(dāng)前幀是目標(biāo)幀,要在目標(biāo)幀和參考幀中最相似的宏塊間尋找匹配。參考宏塊到目標(biāo)宏塊的位移稱作運(yùn)動(dòng)向量。Search Algorithm順序搜索:順序搜索參考幀中整個(gè)(2p+1)*(2p+1)大小的窗口。將窗口中每一個(gè)宏塊逐個(gè)像素的和目標(biāo)幀中的宏塊進(jìn)行比較。使兩宏塊的MAD(平均絕對誤差)最小的(i,j)即為運(yùn)動(dòng)向量MV(u,v)運(yùn)算量:(2p+1) (2p+1) N23 )= O(p2N2).2D對數(shù)搜索:在搜索窗口中只有9個(gè)位置被標(biāo)記為1,作為基于MAD搜索的起始位置。當(dāng)MAD最小值的位置確定后, 將新的搜索區(qū)域中心移動(dòng)到該位置,搜索的步長減半。在下一次

19、迭代中,9個(gè)新的位置標(biāo)記為2,依次類推。運(yùn)算量:分層搜索:原始圖像為第0層,第1層和第2層是通過將上一層圖像的分辨率減半獲得的。初始搜索從第2層開始。初始的運(yùn)動(dòng)向量估計(jì)值比較粗糙,但是這個(gè)值會一層層的進(jìn)行修正,直到第0層。 運(yùn)算量:OPS_per_second=(2“p/4”)2(N/4)2+9(N/2)2+9N2*3*(720*480/N/N)*30=0.51*109補(bǔ)充:代碼:順序搜索:2-D對數(shù)搜索:分層搜索:Block diagram for H.261 encoder幀順序:I幀 P幀H.261的編碼器和解碼器:參考場景:具體步驟:I幀編碼:宏塊是原圖Y幀中16X16的像素塊。因?yàn)椴?/p>

20、用了4:2:0的色度二次采樣,所以在Cb幀和Cr幀中,對應(yīng)為8X8大小的區(qū)域。因此,一個(gè)宏塊由4個(gè)Y,1個(gè)Cb,1個(gè)Cr的8X8的快組成。對每一個(gè)8X8的子塊,都要進(jìn)行離散余弦變換DCT。DCT系數(shù)需要進(jìn)行量化,最后通過Z掃描并進(jìn)行熵編碼。P幀預(yù)測編碼:對于目標(biāo)幀中的每一個(gè)宏塊,通過前面任何一種進(jìn)行運(yùn)動(dòng)向量分配。再用差值宏塊測量預(yù)測誤差。宏塊也是由4個(gè)Y,1個(gè)Cb,1個(gè)Cr的8X8的快組成。這些8X8的子塊都需要經(jīng)過DCT,量化,Z字在掃描和熵編碼四個(gè)步驟。運(yùn)動(dòng)響亮也需要編碼。量化:量化控制就是反饋控制,即當(dāng)輸出緩沖區(qū)快要沾滿時(shí),量化步長增加,以減少編碼數(shù)據(jù)的大小。編碼率控制過程。Chapte

21、r 11 MPEG Video Coding MPEG 1B frameB幀:MPEG引入了第三類幀,B幀,以及相應(yīng)的雙向運(yùn)動(dòng)步長。除了向前預(yù)測,還用到了向后預(yù)測,也就是此時(shí)用來進(jìn)行匹配的宏塊是從視頻序列中未來的I幀或者P幀獲得的。這樣,B幀的每一個(gè)宏塊指向兩個(gè)運(yùn)動(dòng)向量,一個(gè)向前預(yù)測的來,一個(gè)向后預(yù)測的來。 如果兩個(gè)方向的匹配成功,那么兩個(gè)運(yùn)動(dòng)向量都被發(fā)送,在與目標(biāo)宏塊進(jìn)行比較產(chǎn)生預(yù)測誤差之前,將與兩個(gè)相應(yīng)的匹配宏塊取平均。如果只有一個(gè)參考幀的匹配時(shí)成功的,那么只有一個(gè)運(yùn)動(dòng)向量及其相應(yīng)的宏塊會被使用,或是向前預(yù)測的或者是向后預(yù)測的。Major Differences from H.261 運(yùn)動(dòng)

22、補(bǔ)償技術(shù):H,261基于運(yùn)動(dòng)補(bǔ)償?shù)囊曨l編碼原理:在運(yùn)動(dòng)估計(jì)中,會為目標(biāo)P幀的每個(gè)宏塊分配一個(gè)從之前已編碼的I幀或P幀的宏塊中選出的與他最匹配的宏塊,這稱為預(yù)測。當(dāng)前宏塊與匹配的宏塊之間的差稱為預(yù)測誤差。這個(gè)預(yù)測誤差將被傳送到DCT和接下來的編碼步驟。向前預(yù)測。MPEG:MPEG引入了第三類幀,B幀,以及相應(yīng)的雙向運(yùn)動(dòng)步長。除了向前預(yù)測,還用到了向后預(yù)測,也就是此時(shí)用來進(jìn)行匹配的宏塊是從視頻序列中未來的I幀或者P幀獲得的。這樣,B幀的每一個(gè)宏塊指向兩個(gè)運(yùn)動(dòng)向量,一個(gè)向前預(yù)測的來,一個(gè)向后預(yù)測的來。如果兩個(gè)方向的匹配成功,那么兩個(gè)運(yùn)動(dòng)向量都被發(fā)送,在與目標(biāo)宏塊進(jìn)行比較產(chǎn)生預(yù)測誤差之前,將與兩個(gè)相應(yīng)

23、的匹配宏塊取平均。如果只有一個(gè)參考幀的匹配時(shí)成功的,那么只有一個(gè)運(yùn)動(dòng)向量及其相應(yīng)的宏塊會被使用,或是向前預(yù)測的或者是向后預(yù)測的。Mpeg:由于其編碼器和解碼器不能用于沒有后續(xù)P幀或I幀的B幀宏塊,所以實(shí)際的譯碼和傳輸順序和視頻的現(xiàn)實(shí)順序是不同的。源格式:H.261只支持CIF和QCIF兩類源格式。MPEG1支持SIF等其他格式。宏塊片:與H.261中的GOB不同,一幅MPEG1圖片可以被分為一個(gè)或者多個(gè)宏塊片,這比GOB靈活。只要可以填滿整個(gè)圖片,他們可以包含一幅圖片中的可變數(shù)目的宏塊并可以開始結(jié)束于任何位置。每個(gè)宏塊片都獨(dú)立編碼。為碼率提供了靈活性。 宏塊片的內(nèi)容對于差錯(cuò)恢復(fù)很重要,每個(gè)宏塊

24、片有唯一的宏塊片其實(shí)嘛。Mpeg中的宏塊片類似于H.261中的GOB:他處于MPEG曾側(cè)結(jié)構(gòu)的最底層,不需要將位流中整個(gè)變長編碼組解碼就可以完全恢復(fù)。量化。MPEG1的量化對于幀間編碼和幀內(nèi)編碼采用不同的量化表。在一個(gè)宏塊中,用于幀內(nèi)編碼的量化器個(gè)數(shù)是不同的。這與H.261不同,對H.261,一個(gè)宏塊內(nèi)用于AC系數(shù)的量化器個(gè)數(shù)是不變的。為了增加運(yùn)動(dòng)步長預(yù)測的精度,減小誤差,MPEG1允許運(yùn)動(dòng)向量具有半像素精度。MPEG1支持I幀和P幀之間有較大差距,因此會有一個(gè)較大的運(yùn)動(dòng)向量搜索范圍。MPEG1位流允許隨即訪問。MPEG 2Profiles and Levels規(guī)格和等級:規(guī)格來自應(yīng)用要求,等

25、級由規(guī)格來決定。Prediction modes 域預(yù)測和幀預(yù)測:隔行交織掃描:5種預(yù)測模式:參考課本1. Frame Prediction for Frame-pictures: Identical to MPEG-1 MC-based prediction methods in both P-frames and B-frames.2. Field Prediction for Field-pictures: A macroblock size of 1616 from Field-pictures is used. For details, see Fig. 11.6(b).3. Fie

26、ld Prediction for Frame-pictures: The top-field and bottom-field of a Frame-picture are treated separately. Each 1616 macroblock (MB) from the target Frame-picture is split into two 168 parts, each coming from one field. Field prediction is carried out for these 168 parts in a manner similar to that

27、 shown in Fig. 11.6(b).4. MC for Field-pictures: Each 1616 macroblock (MB) from the target Field-picture is split into top and bottom 168 halves. Field prediction is performed on each half. This generates two motion vectors for each 1616 MB in the P-Field-picture, and up to four motion vectors for e

28、ach MB in the B-Field-picture. This mode is good for a finer MC when motion is rapid and irregular.5. Dual-Prime for P-pictures: First, Field prediction from each previous field with the same parity (top or bottom) is made. Each motion vector mv is then used to derive a calculated motion vector cv i

29、n the field with the opposite parity taking into account the temporal scaling and vertical shift between lines in the top and bottom fields. For each MB the pair mv and cv yields two preliminary predictions. Their prediction errors are averaged and used as the final prediction error.This mode mimics

30、 B-picture prediction for P-pictures without adopting backward prediction (and hence with less encoding delay).This is the only mode that can be used for either Frame-pictures or Field-pictures.Alternate Scan and Field_DCT 交替掃描和域DCT:MPEG-2 Scalabilities SNR可伸縮性: 空間可伸縮性:時(shí)間可伸縮性編碼器Chapter 13 Voice Codi

31、ngVocodersVocoders voice coders, which cannot be usefully applied when other analog signals, such as modem signals, are in use. concerned with modeling speech so that the salient features are captured in as few bits as possible. use either a model of the speech waveform in time (LPC (Linear Predicti

32、ve Coding) vocoding), or . break down the signal into frequency components and model these (channel vocoders and formant vocoders). Vocoder simulation of the voice is not very good yet. Channel Vocoder:Vocoders can operate at low bit-rates, 12 kbps. To do so, a channel vocoder first applies a filter

33、 bank to separate out the different frequency components: Due to Phase Insensitivity (i.e. only the energy is important): The waveform is rectified to its absolute value. The filter bank derives relative power levels for each frequency range. A subband coder would not rectify the signal, and would u

34、se wider frequency bands.A channel vocoder also analyzes the signal to determine the general pitch of the speech (low bass, or high tenor), and also the excitation of the speech.A channel vocoder applies a vocal tract transfer model to generate a vector of excitation parameters that describe a model

35、 of the sound, and also guesses whether the sound is voiced or unvoiced. Format VocoderFormants: the salient frequency components that are present in a sample of speech, as shown in Fig 13.5.Rationale: encoding only the most important frequencies Hybrid Coder問題:參數(shù)編碼的不足參數(shù)編碼在降低碼率方面有很大突破,但語音質(zhì)量尚不理想。原因是:

36、語音生成模型中的激勵(lì)信號處理過于簡單。不是清音就是濁音。實(shí)際上可能是兩者混合;濁音的激勵(lì)信號是周期性的。實(shí)際上是準(zhǔn)周期性。改進(jìn)思路:設(shè)計(jì)更好的激勵(lì)信號。設(shè)計(jì)思想:原理使用Analysis-by-Synthesis來改進(jìn)參數(shù)編碼,其中聲道濾波器模型仍與LPC相同。但不使用兩狀態(tài)(有聲/無聲)模型作為濾波器的輸入激勵(lì)信號,而是增加反饋,調(diào)節(jié)激勵(lì)信號u(n),使語音輸入信號s(n)與重建的語音信號誤差e(n)為最小。編碼器通過“合成”許多不同的近似值來“分析”輸入語音信號,所以稱為AbS。激勵(lì)信號u(n)的生成方法多脈沖線性預(yù)測編碼MPLPC(multiple pulse LPC)等間隔脈沖激勵(lì)RPE(regular-pulse excited)碼激勵(lì)線性預(yù)測CELP(code excited linear predictive)Chapter 14 Mpeg AudioPsychoacousticsMPEG Audio MPEG audio compression takes advantage of psychoacoustic models, constructing a large

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論