版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章多媒體數(shù)據(jù)壓縮技術(shù)
數(shù)字音頻編碼數(shù)字圖像編碼數(shù)字視頻編碼常用的數(shù)據(jù)壓縮技術(shù)多媒體數(shù)據(jù)轉(zhuǎn)換第二章多媒體數(shù)據(jù)壓縮技術(shù)數(shù)字音頻編碼12.1
數(shù)字音頻編碼2.1數(shù)字音頻編碼2音頻的基本特性
聲音是由振動的聲波所組成,在任一時(shí)刻t,聲波可分解為一系列正弦波線性疊加:f(t)=ΣAnsin(nωt+φn)其中,ω稱為基頻或基音,它決定聲音的高低;nω稱為ω的n次諧波分量或稱為泛音,與聲音的音色有關(guān);An是振幅,表示聲音的強(qiáng)弱;φn是n次諧波的初相位。音頻的基本特性聲音是由振動的聲波所組成,在任一時(shí)刻t,聲波3音頻數(shù)字化
波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含ADC和DAC)來錄制與執(zhí)行播出聲音的。計(jì)算機(jī)對聲音表示主要通過采樣產(chǎn)生一系列聲音數(shù)據(jù)。事實(shí)上,聲波按頻率可分為4類,其中多媒體系統(tǒng)僅處理人類的聽力所接受的頻率范圍的聲音,我們稱之為音頻,這個(gè)頻率范圍的音波稱之為聲音信號。
音頻數(shù)字化波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含4聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所接受的頻率20Hz~20kHz超聲波20kHz~1GHz超高聲波1GHz~10THz聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所5通過規(guī)則時(shí)間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種測出數(shù)據(jù)方法稱之為采樣,一秒內(nèi)采樣次數(shù)叫采樣率。采樣的離散音頻數(shù)據(jù)要轉(zhuǎn)換成計(jì)算機(jī)能夠表示的數(shù)據(jù)范圍,這個(gè)過程稱之為量化。量化后數(shù)字音頻存儲量計(jì)算公式
音頻數(shù)據(jù)存儲量(字節(jié))=采樣率(Hz)×量化位數(shù)(位)×聲道數(shù)×音頻長度(秒)/8通過規(guī)則時(shí)間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種6例2.1激光數(shù)字唱盤CD-DA的標(biāo)準(zhǔn)采樣頻率為44.1Hz,量化位數(shù)為16位,立體聲,這即CD音質(zhì)??紤]一下CD-DA播放一分鐘音樂所需要的存儲量是多少?例2.1激光數(shù)字唱盤CD-DA的標(biāo)準(zhǔn)采樣頻率為44.1H7MIDI
音頻
1980年制定一項(xiàng)工業(yè)標(biāo)準(zhǔn),目的是讓音樂及合成音可以經(jīng)由一串消息在不同的設(shè)備上交流傳輸。MIDI提供了計(jì)算機(jī)外部的電子樂器與計(jì)算機(jī)內(nèi)部之間的連接器接口。這種連接接口定義物理連接與電子樂器溝通的協(xié)議。MIDI也定義音頻的形態(tài)與存儲的方法。MIDI音頻是以消息的方式而非波形的方式組成。MIDI有三種連接器(In、Out、Thru)。In為輸入,Out為輸出,而Thru是用來擴(kuò)充MIDI與其它設(shè)備連接用的。MIDI音頻1980年制定一項(xiàng)工業(yè)標(biāo)準(zhǔn),目的是讓音樂及合8
音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是一連串的音符加上系統(tǒng)事件的命令。
MIDI適配器是用來改變頻道、路徑與按鍵的。當(dāng)電子琴的鍵盤與一般的MIDI規(guī)格不一致時(shí)可以經(jīng)由適配器來修正使兩者一致。音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是9MIDI音頻文件
MIDI音頻文件是一串時(shí)序命令,它記錄音樂的行為。命令消息分為頻道消息(頻道聲音消息、頻道模式消息)和系統(tǒng)消息(系統(tǒng)實(shí)時(shí)消息、系統(tǒng)通用消息與系統(tǒng)專用消息)。它是以某種樂器的發(fā)聲為其數(shù)據(jù)記錄的基礎(chǔ)。它的文件占用很少存儲器空間,且可以做細(xì)部的修改,如修改節(jié)拍等。其聲音效果不會因改變節(jié)拍而變調(diào)。MIDI不適合編制口語旁白的音頻。MIDI音頻文件MIDI音頻文件是一串時(shí)序命令,它記錄音樂10波形音頻可從麥克風(fēng)、錄音帶、CD、電視及其它來源獲取。它把聲音轉(zhuǎn)換成儲存體中數(shù)字信息。波形音頻較為穩(wěn)定,容易保持一致性,音頻品質(zhì)也較易獲得保證。缺點(diǎn)是記錄非常詳盡,數(shù)據(jù)量極大,文件較MIDI音頻大出200倍以上。要修改數(shù)字音頻細(xì)節(jié)非常困難,大大地增加了CPU的負(fù)擔(dān)。它可以適合任何一種音響,包括人的口語在內(nèi),故大多數(shù)節(jié)目仍采用這種音頻。
波形音頻可從麥克風(fēng)、錄音帶、CD、電視及其它來源獲取。它把聲113D音頻三維環(huán)繞立體聲能產(chǎn)生更加逼真的音頻效果,是用戶在用計(jì)算機(jī)時(shí)能感覺聲音來自不同的方向。人耳的基本聲音定位原理是兩側(cè)聲音強(qiáng)度差別和兩側(cè)聲音時(shí)間延遲差別。耳廓的作用是濾波器,根據(jù)聲音的不同角度,加強(qiáng)、減弱音波能量,過濾后傳給大腦,讓人準(zhǔn)確的定位聲源。3D音頻三維環(huán)繞立體聲能產(chǎn)生更加逼真的音頻效果,是用戶在用計(jì)123D音頻3D音效的兩個(gè)因素是定位和交互。定位即讓人們準(zhǔn)確的判斷出聲音的來源,可以通過事先錄制,在進(jìn)行特定的解碼來實(shí)現(xiàn)。交互就是實(shí)時(shí)的定位,可以根據(jù)用戶的控制來決定聲音的位置。即時(shí)交互的聲音對設(shè)備的要求比預(yù)先錄制音軌的放音設(shè)備更高一些。3D音頻3D音效的兩個(gè)因素是定位和交互。133D音頻3D音效可分為以下幾類:(1)擴(kuò)展式立體聲。(2)環(huán)繞立體聲。(3)交互式3D音效。3D音效的控制是通過軟件來實(shí)現(xiàn)的,稱為應(yīng)用程序接口(API)。3D音頻3D音效可分為以下幾類:143D音頻支持3D音頻API種類:DirectXDirectSound3D;Aureal3D;
EAX;
Sensaura;Qsound;杜比AC-3;數(shù)字化影院系統(tǒng)DTS
3D音頻支持3D音頻API種類:152.2
數(shù)字圖像編碼2.2數(shù)字圖像編碼162.2.1
色彩的基本概念色彩的基本概念:色調(diào),飽和度,亮度。色調(diào)是指某種顏色的性質(zhì)和特點(diǎn),是由物體表面反射的光線中什么波長占優(yōu)勢決定的。色調(diào)和光波的波長相關(guān),而亮度和飽和度與光波的幅度相關(guān)。P18圖。主要采用數(shù)字化方式對聲音、文字等處理。2.2.1色彩的基本概念色彩的基本概念:色調(diào),飽和度,亮度172.2.1
色彩的基本概念例如:在彩色電視信號表示時(shí),設(shè)代表光強(qiáng)、色彩和色飽和度的YIQ彩色空間中各分量的帶寬分別為4.2MHZ、1.5MHZ、0.5MHZ。再設(shè)各分量均被數(shù)字化為8b。從而一秒鐘電視信號的數(shù)據(jù)量:(4.2+1.5+0.5)*2*8=99.2Mb(CD容量是650MB)數(shù)字化處理面臨的主要問題是數(shù)據(jù)量巨大,尤其是對動態(tài)圖像和視頻圖像。2.2.1色彩的基本概念例如:在彩色電視信號表示時(shí),設(shè)代表182.2.2彩色空間及其轉(zhuǎn)換彩色空間即彩色的表示模型??捎?位、9位、16位、24位、32位表示。常見模型:
RGB彩色空間
HSI彩色空間
YUV彩色空間
YIQ彩色空間2.2.2彩色空間及其轉(zhuǎn)換彩色空間即彩色的表示模型??捎?位19RGB彩色空間R、G、B是彩色最基本表示模型,也是計(jì)算機(jī)系統(tǒng)中所使用的彩色模型。
RGB5:5:5方式用2個(gè)字節(jié)表示一個(gè)象素,具體位分配。RGB5:5:5方式RGB8:8:8方式R、G、B三個(gè)分量各占一個(gè)字節(jié)。T(1b)R(5b)G(5b)B(5b)RGB彩色空間R、G、B是彩色最基本表示模型,也是計(jì)算機(jī)系統(tǒng)20HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Saturation,飽和度)、I(Intensity,光強(qiáng)度)3個(gè)分量來表示一種顏色,這種表示更適合人的視覺特性。HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Sat21YUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y)。
PAL制式彩色空間即為YUV。優(yōu)點(diǎn)是亮度和色差信號分離,容易使彩色電視系統(tǒng)與黑白電視信號兼容。國際無線電咨詢委員會根據(jù)實(shí)驗(yàn)認(rèn)為采用雙倍度采樣4:2:2方案效果較好,提出CCIR601標(biāo)準(zhǔn)。變換公式(YUV<--->RGB)Y=0.299*R+0.587*G+0.114*B;U=-0.169*R-0.332*G+0.500*B;V=0.500*R+0.419*G-0.081*BYUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y22YIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。NTSC制式彩色空間即為YIQ。這里Y是亮度,I和Q共同描述圖象的色調(diào)和飽和度。變換公式(YIQ<--->RGB)
Y=0.299*R+0.587*G+0.114*B;I=0.211*R-0.523*G+0.312*B;Q=0.596*R-0.275*G-0.322*BYIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。232.2.2數(shù)字圖象文件格式
TIFPCXGIF、TGA、BMP、DVI、JPEG等
2.2.2數(shù)字圖象文件格式TIF24TIF文件格式由美國AldusDeveloper’sDesk和Microsoft制定結(jié)構(gòu)文件頭(8B)參數(shù)指針表參數(shù)數(shù)據(jù)表圖象數(shù)據(jù)TIF文件格式由美國AldusDeveloper’sDe25
TIF文件格式文件頭含字節(jié)順序(2B,表示存貯格式:II-Intel格式;MM—Motorola格式);標(biāo)記號(2B,版本信息);指向第一個(gè)參數(shù)指針表的編碼(4B)。參數(shù)指針表由每個(gè)長為12B參數(shù)塊構(gòu)成,描述壓縮種類、長寬、彩色數(shù)、掃描密度等參數(shù)。較長參數(shù)(如調(diào)色板)只給出指針,參數(shù)放在參數(shù)數(shù)據(jù)表中。其結(jié)構(gòu)定義如下:TIF文件格式文件頭26
typedefstruct{inttag-type;intnumber-size;longlength;longoffset;}TIF-FIELD;
圖像參數(shù)表圖象數(shù)據(jù)按參數(shù)表中描述的形式按行排列typedefstruct{27PCX文件格式由ZSoft公司最初制定結(jié)構(gòu)文件頭(128字節(jié))數(shù)據(jù)部分(采用行程長度編碼)文件頭結(jié)構(gòu)定義PCX文件格式由ZSoft公司最初制定28
typedefstruct{charmanufacture;/*always0xa0*/charversion;charencoding;/*always1*/charbits-per-pixel;/*colorbits*/intXmin,Ymin;/*imageorigin*/intXmax,Ymax;/*imagedimension*/inthres;/*resolutionvalues*/intvres;charpalette[48];/*colorpalette*/charreserved;charcolor-planes;/*colorplanes*/intbytes-per-line;/*linebuffersize*/intpalette-type;/*greyorcolorpalette*/charfiller[58];}PCXHEAD;
其中Version若為5,文件內(nèi)有個(gè)256色調(diào)色板,數(shù)據(jù)768字節(jié),在文件最后。
typedefstruct{29
文件體對象素?cái)?shù)據(jù)采用行程長度編碼,由包含Keybyte和Databyte的包組成。分2種情況:
(1)若Keybyte最高位為11,則低6位(index)為重復(fù)次數(shù)。但最多重復(fù)63次,若再長重建一個(gè)包.PCX數(shù)據(jù)包的結(jié)構(gòu)
(2)若Keybyte最高位不是11,那么該Databyte按原樣寫入圖象文件。對一個(gè)字符的表示用長度為1的包。11IndexDatabyte111Databyte文件體對象素?cái)?shù)據(jù)采用行程長度編碼,由包含Keybyt302.3
數(shù)字視頻編碼2.3數(shù)字視頻編碼312.3.1數(shù)字視頻的結(jié)構(gòu)
數(shù)字視頻是連續(xù)的數(shù)字圖像序列。它與模擬視頻相比:很高的存儲質(zhì)量和交互性,易于實(shí)現(xiàn)視頻數(shù)據(jù)加密等優(yōu)點(diǎn)。但是相鄰圖像之間有相關(guān)性?;締挝皇菐?。幀就是一幅靜態(tài)的圖像,是構(gòu)成視頻的最小的單位。若干同一場景的一系列幀構(gòu)成鏡頭。若干鏡頭構(gòu)成情節(jié)(場景)若干情節(jié)構(gòu)成故事節(jié)目(幕)2.3.1數(shù)字視頻的結(jié)構(gòu)數(shù)字視頻是連續(xù)的數(shù)字圖像序列。它與322.3.2國際視頻標(biāo)準(zhǔn)
NTSC
美國研制,是目前廣泛使用的電視制式。它以525條橫掃描線來組成一個(gè)屏幕幀,每秒30幀,其圖象改變采用偶數(shù)線與奇數(shù)線相互交錯(cuò)更新的方式,造成視覺動態(tài)圖象。PAL
中國、英國等國采用制式,W.Bruch1963年發(fā)明的,其基本原理類似于NTSC制式。以625條掃描線,每秒25幀,也是以奇偶數(shù)掃描線交錯(cuò)方式造成動態(tài)圖象。SECAM
法國、俄羅斯等國采用制式。同樣采用625條線和25幀,但與NTSC和PAL相比,其基礎(chǔ)技術(shù)是采用頻率調(diào)制,傳播方式也不同于以上兩種。2.3.2國際視頻標(biāo)準(zhǔn)NTSC美國研制,是目前廣泛使用332.3.3數(shù)字視頻CCIR601編碼標(biāo)準(zhǔn)數(shù)字視頻CCIR601是國際無線電咨詢委員會制定的廣播級質(zhì)量的數(shù)字電視標(biāo)準(zhǔn)。主要對采樣頻率、采樣結(jié)構(gòu)、色彩空間轉(zhuǎn)換等給出了嚴(yán)格的標(biāo)準(zhǔn)。采樣頻率:為了保證信號同步,采樣頻率必須是電視信號行頻的倍數(shù)。CCIR為NTSC、PAL和SECAM制式制定的共同的電視圖像采樣標(biāo)準(zhǔn)為fs=13.5MHZ。分辨率2.3.3數(shù)字視頻CCIR601編碼標(biāo)準(zhǔn)數(shù)字視頻CCIR60342.4
常用數(shù)據(jù)壓縮技術(shù)2.4常用數(shù)據(jù)壓縮技術(shù)352.4.1數(shù)據(jù)壓縮的基本原理傳統(tǒng)上用模擬方式表示聲音和圖象信息
易出故障,常產(chǎn)生噪音和信號丟失,且拷貝過程中噪音和誤差逐步積累;模擬信號不適合數(shù)字計(jì)算機(jī)加工處理。數(shù)字化處理:巨大的數(shù)據(jù)量2.4.1數(shù)據(jù)壓縮的基本原理傳統(tǒng)上用模擬方式表示聲音和圖象36采樣定理:
僅當(dāng)采樣頻率≥2倍的原始信號頻率時(shí),才能保證采樣后信號可被保真地恢復(fù)為原始信號。采用8bit數(shù)字化,從而1秒鐘電視信號的數(shù)據(jù)量約為99.2Mbits。即約為100Mbps。650MB的CD-ROM僅能存約1分鐘的原始電視數(shù)據(jù)。若HDTV(1.2Gbps),一張CD-ROM還存不下6秒鐘的HDTV圖象。采樣定理:37
人說話的音頻一般在20Hz到4KHz,即人類語音的帶寬為4KHz。依據(jù)采樣定理,設(shè)數(shù)字化精度為8b,則1秒鐘信號量為64Kbits。
因此,人講1分鐘話的數(shù)據(jù)量為480KB。數(shù)字化處理的關(guān)鍵問題-數(shù)據(jù)壓縮(去掉信號數(shù)據(jù)的冗余性)人說話的音頻一般在20Hz到4KHz,即人類語音的帶寬為38壓縮的基礎(chǔ)-數(shù)據(jù)冗余
空間冗余時(shí)間冗余信息熵冗余結(jié)構(gòu)冗余知識冗余視覺冗余其它冗余壓縮的基礎(chǔ)-數(shù)據(jù)冗余空間冗余39空間冗余這是圖象數(shù)據(jù)中經(jīng)常存在的一種冗余。在同一幅圖象中,規(guī)則物體和規(guī)則背景的表面物理特性具有相關(guān)性,這些相關(guān)性的光成象結(jié)構(gòu)在數(shù)字化圖象中就表現(xiàn)為數(shù)據(jù)冗余。
空間冗余這是圖象數(shù)據(jù)中經(jīng)常存在的一種冗余。40時(shí)間冗余這是序列圖象和語音數(shù)據(jù)中所經(jīng)常包含的冗余。圖象序列中的兩幅相鄰的圖象之間有較大的相關(guān)性,這反映為時(shí)間冗余。人在說話時(shí)發(fā)音音頻是一連續(xù)的漸變過程,而不是一個(gè)完全時(shí)間上獨(dú)立的過程,因而存在時(shí)間冗余。
時(shí)間冗余這是序列圖象和語音數(shù)據(jù)中所經(jīng)常包含的冗余。41信息熵冗余信息熵是指一組數(shù)據(jù)所攜帶的信息量,它定義為:H=-∑i=0N-1Pilog2Pi
N為數(shù)據(jù)類數(shù)或碼元個(gè)數(shù),Pi為碼元yi發(fā)生的概率.為使信息編碼單位數(shù)據(jù)量d接近于或等于H,應(yīng)設(shè):d=∑i=0N-1Pib(yi)
其中b(yi)是分配給碼元yi的比特?cái)?shù),理論上應(yīng)取b(yi)=-log2Pi.實(shí)際一般取b(y0)=b(y1)=…=b(yK-1).例如,英文字母編碼碼元長為7bit,即b(y0)=b(y1)=…=b(yK-1)=7,這樣d必然大于H,由此帶來的冗余稱為信息熵冗余或編碼冗余。
信息熵冗余信息熵是指一組數(shù)據(jù)所攜帶的信息量,它定義為:42結(jié)構(gòu)冗余有些圖象從大域上看存著非常強(qiáng)的紋理結(jié)構(gòu),我們稱它們在結(jié)構(gòu)上存在有冗余.例如布紋圖象和草席圖象結(jié)構(gòu)冗余有些圖象從大域上看存著非常強(qiáng)的紋理結(jié)構(gòu),我們稱它們在43知識冗余有許多圖象的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如,人臉的圖象有固定的結(jié)構(gòu)。比如說嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正臉圖象的中線上等等。這類規(guī)律性的結(jié)構(gòu)可由先驗(yàn)知識和背景知識得到,我們稱此類冗余為知識冗余。知識冗余有許多圖象的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。44視覺冗余人類視覺系統(tǒng)對于圖象場的任何變化,并不是都能感知的。例如,對于圖象的編碼處理時(shí),由于壓縮或量化截?cái)嘁肓嗽肼暥箞D象發(fā)生了一些變化,如果這些變化不能為視覺所感知,仍認(rèn)為圖象足夠好。事實(shí)上人類視覺系統(tǒng)一般分辨能力約為26灰度等級,而一般圖象量化采用28灰度等級,這類冗余我們稱為視覺冗余。
視覺冗余人類視覺系統(tǒng)對于圖象場的任何變化,并不是都能感知的。45其他冗余例如由圖象的空間非定常特性所帶來的冗余。
其他冗余例如由圖象的空間非定常特性所帶來的冗余。462.4常用的數(shù)據(jù)壓縮技術(shù)
根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全一致,數(shù)據(jù)壓縮方法劃分為兩類:
可逆編碼(無失真編碼)
解碼圖象與原始圖象嚴(yán)格相同,壓縮大約在2:1到5:1之間。如Huffman編碼、算術(shù)編碼、行程長度編碼等。不可逆編碼(有失真編碼)
還原圖象與原始圖象存在一定的誤差,但視覺效果一般可以接受,壓縮比可以從幾倍到上百倍來調(diào)節(jié)。常用的有變換編碼和預(yù)測編碼2.4常用的數(shù)據(jù)壓縮技術(shù)根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全47
根據(jù)壓縮的原理分類:
預(yù)測編碼
利用空間中相鄰數(shù)據(jù)的相關(guān)性來預(yù)測未來點(diǎn)的數(shù)據(jù)。差分脈沖編碼調(diào)制(DPCM)和自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)。
變換編碼
將圖象時(shí)域信號變換到頻域空間處理。時(shí)域空間有強(qiáng)相關(guān)信號,反映在頻域上是某些特定區(qū)域內(nèi)能量集中,從而實(shí)現(xiàn)壓縮.正交變換如離散余弦變換,離散付立葉變換和Walsh-Hadamard變換.量化與向量量化編碼
為了使整體量化失真最小,就必須依照統(tǒng)計(jì)的概率分布設(shè)計(jì)最優(yōu)的量化器。已知最優(yōu)量化器是Max量化器。對象元點(diǎn)進(jìn)行量化時(shí),也可以考慮一次量化多個(gè)點(diǎn)的向量量化。根據(jù)壓縮的原理分類:48
信息熵編碼
根據(jù)信息熵原理,讓出現(xiàn)概率大的用短的碼字表達(dá),反之用長的碼字表示。最常見的方法如Huffman編碼、Shannon編碼以及算術(shù)編碼。
子帶編碼
將圖象數(shù)據(jù)變換到頻域后,按頻域分帶,然后用不同的量化器進(jìn)行量化,從而達(dá)到最優(yōu)的組合。或者分步漸近編碼,隨著解碼數(shù)據(jù)的增加,圖象逐漸清晰。
模型編碼
編碼時(shí)首先將圖象中邊界、輪廓、紋理等結(jié)構(gòu)特征找出來,保存這些參數(shù)信息。解碼時(shí)根據(jù)結(jié)構(gòu)和參數(shù)信息進(jìn)行合成,恢復(fù)出原圖象。具體方法有輪廓編碼、域分割編碼、分析合成編碼、識別合成編碼、基于知識的編碼、分形編碼等。多媒體技術(shù)與應(yīng)用視頻課件2492.4.1
預(yù)測編碼線性預(yù)測-DPCM基本原理是基于圖象中相鄰象素之間具有較強(qiáng)的相關(guān)性。每個(gè)象素可根據(jù)已知的前幾個(gè)象素來作預(yù)測。因此在預(yù)測編碼中,編碼和傳輸?shù)牟⒉皇窍笏夭蓸又当旧恚沁@個(gè)采樣值的預(yù)測值與其實(shí)際值之間的差值非線性預(yù)測(不討論)2.4.1預(yù)測編碼線性預(yù)測-DPCM50DPCM系統(tǒng)原理框圖預(yù)測器量化器編碼器解碼器預(yù)測器信道接收端輸出XN’+++XNe’NXNeNe’NXN’++輸入^XN^發(fā)送端+-DPCM系統(tǒng)原理框圖預(yù)測器量化器編碼器解碼器預(yù)測器接51XN為tN時(shí)刻的亮度采樣值;XN為根據(jù)tN時(shí)刻以前已知X1,X2,…,XN-1對XN所作的預(yù)測值;eN=XN-XN為差值信號;eN’為量化器輸出信號;XN’為接收端輸出,XN’
=XN+eN’
。因?yàn)椋篨N-XN’=XN-(XN+eN’)=(XN-XN)-eN’=eN-eN’所以,DPCM系統(tǒng)中的誤差來源是發(fā)送端的量化器,而與接收端無關(guān),若去掉量化器使eN=eN’,則XN=XN’,即實(shí)現(xiàn)信息保持編碼。事實(shí)上,這種量化誤差是不可避免的。^^^^^^^^^^522.4.2
變換編碼輸入圖象G經(jīng)正交變換U變換到頻域空間,象素之間相關(guān)性下降,能量集中在變換域中少數(shù)變換系數(shù)上,已經(jīng)達(dá)到了數(shù)據(jù)壓縮的效果。對變換系數(shù)A中那些幅度大元素予以保留,其它數(shù)量多的幅度小的變換系數(shù),全部當(dāng)作零不予編碼,再輔以非線性量化,進(jìn)一步壓縮圖象數(shù)據(jù)。由于量化器存在,量化后變換系數(shù)A′和A間必然存在量化誤差,從而引起輸入圖象G和輸出圖象G′間存在誤差。圖中U′是U的逆變換。2.4.2變換編碼輸入圖象G經(jīng)正交變換U變換到頻域空間,象53變換編碼原理框圖
變換量化編碼器解碼器逆變換信道輸入發(fā)送端接收端輸出GG’U’UA’A變換編碼原理框圖變換量化編碼器解碼器逆變換信道輸入發(fā)送端接54變換編碼數(shù)據(jù)壓縮主要是去除信源的相關(guān)性。設(shè)信源序列為X={X0,X1,…,XN-1},表征相關(guān)性的統(tǒng)計(jì)特性就是協(xié)方差矩陣:
ΦX=
其中σi,j=E{(Xi-EXi)(Xj-EXj)}.當(dāng)協(xié)方差矩陣Φx除對角線上元素之外各元素均為0時(shí),就等效于相關(guān)性為0。為了有效壓縮,希望變換后的協(xié)方差矩陣為對角矩陣,并希望主對角線元素隨i,j增加盡快衰減。
σ0,02σ0,12σ0,N-12σ1,02σ1,12σN-1,02σ1,N-12σN-1,12σN-1,N-12…………………變換編碼數(shù)據(jù)壓縮主要是去除信源的相關(guān)性。σ0,02σ0,155
已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使變換后的協(xié)方差矩陣滿足或接近為一對角陣。Karhunen-Loeve變換即是這樣一種變換,又稱為最佳變換,它能使變換后協(xié)方差矩陣為對角陣,并且有最小均方誤差。它的計(jì)算比較復(fù)雜。實(shí)際應(yīng)用中采用了一些準(zhǔn)最佳變換如DCT,DFT和WHT等,使用這些變換后的協(xié)方差矩陣一般都接近一對角陣。已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使562.4.3
信息熵編碼又稱為統(tǒng)計(jì)編碼,它是根據(jù)信源符號出現(xiàn)概率的分布特性而進(jìn)行的壓縮編碼?;舅枷?在信源符號和碼字之間建立明確的一一對應(yīng)關(guān)系,以便在恢復(fù)時(shí)能準(zhǔn)確地再現(xiàn)原信號,同時(shí)要使平均碼長或碼率盡量小。如Huffman編碼、算術(shù)編碼。2.4.3信息熵編碼又稱為統(tǒng)計(jì)編碼,它是根據(jù)信源符號出現(xiàn)概57Huffman定理定理在變長編碼中,對出現(xiàn)概率大的信源符號賦于短碼字,而對于出現(xiàn)概率小的信源符號賦于長碼字。如果碼字長度嚴(yán)格按照所對應(yīng)符號出現(xiàn)概率大小逆序排列,則編碼結(jié)果平均碼字長度一定小于任何其它排列方式。Huffman定理是Huffman編碼的理論基礎(chǔ)Huffman定理定理在變長編碼中,對出現(xiàn)概率大的信源符號58例2.2設(shè)一組音源符號為{X1,X2,X3,X4,X5,X6,X7,X8},這些符號出現(xiàn)的概率分別為{0.40,0.18,0.10,0.10,0.07,0.06,0.05,0.04},求它們的Huffman編碼。例2.2設(shè)一組音源符號為{X1,X2,X3,X4,X5,X659實(shí)現(xiàn)步驟
(1)將信源符號按概率遞減順序排列;(2)把二個(gè)最小概率相加作為新符號的概率,并按(1)重排;(3)重復(fù)(1)、(2),直到概率為1;(4)在每次合并信源時(shí),將合并的信源分別賦“0”和“1”(如概率大的賦“0”,概率小的賦“1”);(5)尋找從每一信源符號到概率為1處的路徑,記錄下路徑上的“1”和“0”;(6)寫出每一符號的“1”、“0”序列(從樹根到信源符號節(jié)點(diǎn))。實(shí)現(xiàn)步驟(1)將信源符號按概率遞減順序排列;60Huffman編碼
信源符號概率編碼過程碼字碼長(βi)x1x2x3x4x5x6x7x80.400.180.100.100.070.060.050.0410010110000010001010001000011133444550101010.090.130.190.230.370.601010011Huffman編碼信源符號概率編碼過程碼字碼長(βi)x161
上述編碼的平均碼字長度:
R=∑Piβi=0.40×1+0.18×3+0.10×3+0.10×4+0.07×4+0.06×4+0.05×5+0.04×5=2.61上述編碼的平均碼字長度:62算術(shù)編碼六十年代初,Elias提出了算術(shù)編碼概念。1976年,Rissanen和Pasco首次介紹了它的實(shí)用技術(shù)。其基本原理是將編碼的信息表示成實(shí)數(shù)0和1之間的一個(gè)間隔(Interval),信息越長,編碼表示它的間隔就越小,表示這一間隔所需的二進(jìn)制位就越多。算術(shù)編碼六十年代初,Elias提出了算術(shù)編碼概念。63算術(shù)編碼舉例采用固定模式符號概率分配如下:
字符:aeiou
概率:0.20.30.10.20.2范圍:[0,0.2)[0.2,0.5)[0.5,0.6)[0.6,0.8)[0.8,1.0)編碼數(shù)據(jù)串為eai。令high間隔的高端,low為低端,range為間隔的長度,rangelow為編碼字符分配的間隔低端,rangehigh為編碼字符分配的間隔高端。算術(shù)編碼舉例采用固定模式符號概率分配如下:64
初始high=1,low=0,range=high-low,一個(gè)字符編碼后新的low和high按下式計(jì)算:
low=low+range×rangelow;high=low+range×rangehigh。(1)在第一個(gè)字符e被編碼時(shí),e的rangelow=0.2,rangehigh=0.5,因此:
low=0+1×0.2=0.2high=0+1×0.5=0.5range=high-low=0.5-0.2=0.3
此時(shí)分配給e的范圍為[0.2,0.5)初始high=1,low=0,range=high-lo65
(2)第二個(gè)字符a編碼時(shí)使用新生成范圍[0.2,0.5),a的rangelow=0,rangehigh=0.2,因此:
low=0.2+0.3×0=0.2high=0.2+0.3×0.2=0.26range=0.06
范圍變成[0.2,0.26)(2)第二個(gè)字符a編碼時(shí)使用新生成范圍[0.2,0.5)66
(3)對下一個(gè)字符i編號,i的rangelow=0.5,rangehigh=0.6,range=0.06,則:
low=0.2+0.06×0.5=0.23high=0.2+0.06×0.6=0.236結(jié)果:用[0.23,0.236)表示數(shù)據(jù)串eai,如果解碼器知道最后范圍是[0.23,0.236),它馬上可解得一個(gè)字符為e,然后依次得到唯一解a、i,最終得到eai。
(3)對下一個(gè)字符i編號,i的rangelow=0.567
算術(shù)編碼過程表示1e0.5ea0.260.2360.80.60.50.20uoieauoieauoieauoiea0.20.20.23eai算術(shù)編碼過程表示1e0.5ea0.260.2360.68算術(shù)編碼的特點(diǎn)不必預(yù)先定義概率模型,自適應(yīng)模式具有獨(dú)特的優(yōu)點(diǎn);信源符號概率接近時(shí),建議使用算術(shù)編碼,這種情況下其效率高于Huffman編碼(約5%)。JPEG擴(kuò)展系統(tǒng)采用。算術(shù)編碼的特點(diǎn)不必預(yù)先定義概率模型,自適應(yīng)模式具有獨(dú)特的優(yōu)點(diǎn)692.5多媒體數(shù)據(jù)轉(zhuǎn)換
不同媒體表示不同的信息表示方式。研究媒體之間轉(zhuǎn)換十分有意義。有些媒體之間的轉(zhuǎn)換是非常困難的事情,需要研究人類本身對各種媒體理解原理和解釋過程。有些媒體之間的轉(zhuǎn)換則相對容易,幾乎不用做什么工作。2.5多媒體數(shù)據(jù)轉(zhuǎn)換不同媒體表示不同的信息表示方式。研究70
部分媒體的轉(zhuǎn)換關(guān)系轉(zhuǎn)換位圖圖像圖形語音音樂文本視頻數(shù)值位圖圖像-*映射??*映射*凍結(jié)?圖形***輪廓或理解-*波形*樂譜**矢量化?*可視化語音??-*波形**語音合成?*合成音樂??***識別-*音樂合成??文本***文字識別**識別**語音識別*轉(zhuǎn)換-?*符號化視頻**序列化**序列化???-?數(shù)值?**計(jì)算***識別?*轉(zhuǎn)換?-部分媒體的轉(zhuǎn)換關(guān)系轉(zhuǎn)換位圖圖像圖形語音音樂文本視頻數(shù)值位圖71本章小結(jié)1.多媒體數(shù)據(jù)的表示方法。2.數(shù)字音頻編碼,數(shù)字圖像編碼和視頻數(shù)據(jù)編碼。3.多媒體數(shù)據(jù)常用的壓縮方法。4.多媒體數(shù)據(jù)類型的轉(zhuǎn)換。本章小結(jié)1.多媒體數(shù)據(jù)的表示方法。72第二章多媒體數(shù)據(jù)壓縮技術(shù)
數(shù)字音頻編碼數(shù)字圖像編碼數(shù)字視頻編碼常用的數(shù)據(jù)壓縮技術(shù)多媒體數(shù)據(jù)轉(zhuǎn)換第二章多媒體數(shù)據(jù)壓縮技術(shù)數(shù)字音頻編碼732.1
數(shù)字音頻編碼2.1數(shù)字音頻編碼74音頻的基本特性
聲音是由振動的聲波所組成,在任一時(shí)刻t,聲波可分解為一系列正弦波線性疊加:f(t)=ΣAnsin(nωt+φn)其中,ω稱為基頻或基音,它決定聲音的高低;nω稱為ω的n次諧波分量或稱為泛音,與聲音的音色有關(guān);An是振幅,表示聲音的強(qiáng)弱;φn是n次諧波的初相位。音頻的基本特性聲音是由振動的聲波所組成,在任一時(shí)刻t,聲波75音頻數(shù)字化
波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含ADC和DAC)來錄制與執(zhí)行播出聲音的。計(jì)算機(jī)對聲音表示主要通過采樣產(chǎn)生一系列聲音數(shù)據(jù)。事實(shí)上,聲波按頻率可分為4類,其中多媒體系統(tǒng)僅處理人類的聽力所接受的頻率范圍的聲音,我們稱之為音頻,這個(gè)頻率范圍的音波稱之為聲音信號。
音頻數(shù)字化波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含76聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所接受的頻率20Hz~20kHz超聲波20kHz~1GHz超高聲波1GHz~10THz聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所77通過規(guī)則時(shí)間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種測出數(shù)據(jù)方法稱之為采樣,一秒內(nèi)采樣次數(shù)叫采樣率。采樣的離散音頻數(shù)據(jù)要轉(zhuǎn)換成計(jì)算機(jī)能夠表示的數(shù)據(jù)范圍,這個(gè)過程稱之為量化。量化后數(shù)字音頻存儲量計(jì)算公式
音頻數(shù)據(jù)存儲量(字節(jié))=采樣率(Hz)×量化位數(shù)(位)×聲道數(shù)×音頻長度(秒)/8通過規(guī)則時(shí)間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種78例2.1激光數(shù)字唱盤CD-DA的標(biāo)準(zhǔn)采樣頻率為44.1Hz,量化位數(shù)為16位,立體聲,這即CD音質(zhì)??紤]一下CD-DA播放一分鐘音樂所需要的存儲量是多少?例2.1激光數(shù)字唱盤CD-DA的標(biāo)準(zhǔn)采樣頻率為44.1H79MIDI
音頻
1980年制定一項(xiàng)工業(yè)標(biāo)準(zhǔn),目的是讓音樂及合成音可以經(jīng)由一串消息在不同的設(shè)備上交流傳輸。MIDI提供了計(jì)算機(jī)外部的電子樂器與計(jì)算機(jī)內(nèi)部之間的連接器接口。這種連接接口定義物理連接與電子樂器溝通的協(xié)議。MIDI也定義音頻的形態(tài)與存儲的方法。MIDI音頻是以消息的方式而非波形的方式組成。MIDI有三種連接器(In、Out、Thru)。In為輸入,Out為輸出,而Thru是用來擴(kuò)充MIDI與其它設(shè)備連接用的。MIDI音頻1980年制定一項(xiàng)工業(yè)標(biāo)準(zhǔn),目的是讓音樂及合80
音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是一連串的音符加上系統(tǒng)事件的命令。
MIDI適配器是用來改變頻道、路徑與按鍵的。當(dāng)電子琴的鍵盤與一般的MIDI規(guī)格不一致時(shí)可以經(jīng)由適配器來修正使兩者一致。音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是81MIDI音頻文件
MIDI音頻文件是一串時(shí)序命令,它記錄音樂的行為。命令消息分為頻道消息(頻道聲音消息、頻道模式消息)和系統(tǒng)消息(系統(tǒng)實(shí)時(shí)消息、系統(tǒng)通用消息與系統(tǒng)專用消息)。它是以某種樂器的發(fā)聲為其數(shù)據(jù)記錄的基礎(chǔ)。它的文件占用很少存儲器空間,且可以做細(xì)部的修改,如修改節(jié)拍等。其聲音效果不會因改變節(jié)拍而變調(diào)。MIDI不適合編制口語旁白的音頻。MIDI音頻文件MIDI音頻文件是一串時(shí)序命令,它記錄音樂82波形音頻可從麥克風(fēng)、錄音帶、CD、電視及其它來源獲取。它把聲音轉(zhuǎn)換成儲存體中數(shù)字信息。波形音頻較為穩(wěn)定,容易保持一致性,音頻品質(zhì)也較易獲得保證。缺點(diǎn)是記錄非常詳盡,數(shù)據(jù)量極大,文件較MIDI音頻大出200倍以上。要修改數(shù)字音頻細(xì)節(jié)非常困難,大大地增加了CPU的負(fù)擔(dān)。它可以適合任何一種音響,包括人的口語在內(nèi),故大多數(shù)節(jié)目仍采用這種音頻。
波形音頻可從麥克風(fēng)、錄音帶、CD、電視及其它來源獲取。它把聲833D音頻三維環(huán)繞立體聲能產(chǎn)生更加逼真的音頻效果,是用戶在用計(jì)算機(jī)時(shí)能感覺聲音來自不同的方向。人耳的基本聲音定位原理是兩側(cè)聲音強(qiáng)度差別和兩側(cè)聲音時(shí)間延遲差別。耳廓的作用是濾波器,根據(jù)聲音的不同角度,加強(qiáng)、減弱音波能量,過濾后傳給大腦,讓人準(zhǔn)確的定位聲源。3D音頻三維環(huán)繞立體聲能產(chǎn)生更加逼真的音頻效果,是用戶在用計(jì)843D音頻3D音效的兩個(gè)因素是定位和交互。定位即讓人們準(zhǔn)確的判斷出聲音的來源,可以通過事先錄制,在進(jìn)行特定的解碼來實(shí)現(xiàn)。交互就是實(shí)時(shí)的定位,可以根據(jù)用戶的控制來決定聲音的位置。即時(shí)交互的聲音對設(shè)備的要求比預(yù)先錄制音軌的放音設(shè)備更高一些。3D音頻3D音效的兩個(gè)因素是定位和交互。853D音頻3D音效可分為以下幾類:(1)擴(kuò)展式立體聲。(2)環(huán)繞立體聲。(3)交互式3D音效。3D音效的控制是通過軟件來實(shí)現(xiàn)的,稱為應(yīng)用程序接口(API)。3D音頻3D音效可分為以下幾類:863D音頻支持3D音頻API種類:DirectXDirectSound3D;Aureal3D;
EAX;
Sensaura;Qsound;杜比AC-3;數(shù)字化影院系統(tǒng)DTS
3D音頻支持3D音頻API種類:872.2
數(shù)字圖像編碼2.2數(shù)字圖像編碼882.2.1
色彩的基本概念色彩的基本概念:色調(diào),飽和度,亮度。色調(diào)是指某種顏色的性質(zhì)和特點(diǎn),是由物體表面反射的光線中什么波長占優(yōu)勢決定的。色調(diào)和光波的波長相關(guān),而亮度和飽和度與光波的幅度相關(guān)。P18圖。主要采用數(shù)字化方式對聲音、文字等處理。2.2.1色彩的基本概念色彩的基本概念:色調(diào),飽和度,亮度892.2.1
色彩的基本概念例如:在彩色電視信號表示時(shí),設(shè)代表光強(qiáng)、色彩和色飽和度的YIQ彩色空間中各分量的帶寬分別為4.2MHZ、1.5MHZ、0.5MHZ。再設(shè)各分量均被數(shù)字化為8b。從而一秒鐘電視信號的數(shù)據(jù)量:(4.2+1.5+0.5)*2*8=99.2Mb(CD容量是650MB)數(shù)字化處理面臨的主要問題是數(shù)據(jù)量巨大,尤其是對動態(tài)圖像和視頻圖像。2.2.1色彩的基本概念例如:在彩色電視信號表示時(shí),設(shè)代表902.2.2彩色空間及其轉(zhuǎn)換彩色空間即彩色的表示模型??捎?位、9位、16位、24位、32位表示。常見模型:
RGB彩色空間
HSI彩色空間
YUV彩色空間
YIQ彩色空間2.2.2彩色空間及其轉(zhuǎn)換彩色空間即彩色的表示模型??捎?位91RGB彩色空間R、G、B是彩色最基本表示模型,也是計(jì)算機(jī)系統(tǒng)中所使用的彩色模型。
RGB5:5:5方式用2個(gè)字節(jié)表示一個(gè)象素,具體位分配。RGB5:5:5方式RGB8:8:8方式R、G、B三個(gè)分量各占一個(gè)字節(jié)。T(1b)R(5b)G(5b)B(5b)RGB彩色空間R、G、B是彩色最基本表示模型,也是計(jì)算機(jī)系統(tǒng)92HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Saturation,飽和度)、I(Intensity,光強(qiáng)度)3個(gè)分量來表示一種顏色,這種表示更適合人的視覺特性。HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Sat93YUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y)。
PAL制式彩色空間即為YUV。優(yōu)點(diǎn)是亮度和色差信號分離,容易使彩色電視系統(tǒng)與黑白電視信號兼容。國際無線電咨詢委員會根據(jù)實(shí)驗(yàn)認(rèn)為采用雙倍度采樣4:2:2方案效果較好,提出CCIR601標(biāo)準(zhǔn)。變換公式(YUV<--->RGB)Y=0.299*R+0.587*G+0.114*B;U=-0.169*R-0.332*G+0.500*B;V=0.500*R+0.419*G-0.081*BYUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y94YIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。NTSC制式彩色空間即為YIQ。這里Y是亮度,I和Q共同描述圖象的色調(diào)和飽和度。變換公式(YIQ<--->RGB)
Y=0.299*R+0.587*G+0.114*B;I=0.211*R-0.523*G+0.312*B;Q=0.596*R-0.275*G-0.322*BYIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。952.2.2數(shù)字圖象文件格式
TIFPCXGIF、TGA、BMP、DVI、JPEG等
2.2.2數(shù)字圖象文件格式TIF96TIF文件格式由美國AldusDeveloper’sDesk和Microsoft制定結(jié)構(gòu)文件頭(8B)參數(shù)指針表參數(shù)數(shù)據(jù)表圖象數(shù)據(jù)TIF文件格式由美國AldusDeveloper’sDe97
TIF文件格式文件頭含字節(jié)順序(2B,表示存貯格式:II-Intel格式;MM—Motorola格式);標(biāo)記號(2B,版本信息);指向第一個(gè)參數(shù)指針表的編碼(4B)。參數(shù)指針表由每個(gè)長為12B參數(shù)塊構(gòu)成,描述壓縮種類、長寬、彩色數(shù)、掃描密度等參數(shù)。較長參數(shù)(如調(diào)色板)只給出指針,參數(shù)放在參數(shù)數(shù)據(jù)表中。其結(jié)構(gòu)定義如下:TIF文件格式文件頭98
typedefstruct{inttag-type;intnumber-size;longlength;longoffset;}TIF-FIELD;
圖像參數(shù)表圖象數(shù)據(jù)按參數(shù)表中描述的形式按行排列typedefstruct{99PCX文件格式由ZSoft公司最初制定結(jié)構(gòu)文件頭(128字節(jié))數(shù)據(jù)部分(采用行程長度編碼)文件頭結(jié)構(gòu)定義PCX文件格式由ZSoft公司最初制定100
typedefstruct{charmanufacture;/*always0xa0*/charversion;charencoding;/*always1*/charbits-per-pixel;/*colorbits*/intXmin,Ymin;/*imageorigin*/intXmax,Ymax;/*imagedimension*/inthres;/*resolutionvalues*/intvres;charpalette[48];/*colorpalette*/charreserved;charcolor-planes;/*colorplanes*/intbytes-per-line;/*linebuffersize*/intpalette-type;/*greyorcolorpalette*/charfiller[58];}PCXHEAD;
其中Version若為5,文件內(nèi)有個(gè)256色調(diào)色板,數(shù)據(jù)768字節(jié),在文件最后。
typedefstruct{101
文件體對象素?cái)?shù)據(jù)采用行程長度編碼,由包含Keybyte和Databyte的包組成。分2種情況:
(1)若Keybyte最高位為11,則低6位(index)為重復(fù)次數(shù)。但最多重復(fù)63次,若再長重建一個(gè)包.PCX數(shù)據(jù)包的結(jié)構(gòu)
(2)若Keybyte最高位不是11,那么該Databyte按原樣寫入圖象文件。對一個(gè)字符的表示用長度為1的包。11IndexDatabyte111Databyte文件體對象素?cái)?shù)據(jù)采用行程長度編碼,由包含Keybyt1022.3
數(shù)字視頻編碼2.3數(shù)字視頻編碼1032.3.1數(shù)字視頻的結(jié)構(gòu)
數(shù)字視頻是連續(xù)的數(shù)字圖像序列。它與模擬視頻相比:很高的存儲質(zhì)量和交互性,易于實(shí)現(xiàn)視頻數(shù)據(jù)加密等優(yōu)點(diǎn)。但是相鄰圖像之間有相關(guān)性?;締挝皇菐?。幀就是一幅靜態(tài)的圖像,是構(gòu)成視頻的最小的單位。若干同一場景的一系列幀構(gòu)成鏡頭。若干鏡頭構(gòu)成情節(jié)(場景)若干情節(jié)構(gòu)成故事節(jié)目(幕)2.3.1數(shù)字視頻的結(jié)構(gòu)數(shù)字視頻是連續(xù)的數(shù)字圖像序列。它與1042.3.2國際視頻標(biāo)準(zhǔn)
NTSC
美國研制,是目前廣泛使用的電視制式。它以525條橫掃描線來組成一個(gè)屏幕幀,每秒30幀,其圖象改變采用偶數(shù)線與奇數(shù)線相互交錯(cuò)更新的方式,造成視覺動態(tài)圖象。PAL
中國、英國等國采用制式,W.Bruch1963年發(fā)明的,其基本原理類似于NTSC制式。以625條掃描線,每秒25幀,也是以奇偶數(shù)掃描線交錯(cuò)方式造成動態(tài)圖象。SECAM
法國、俄羅斯等國采用制式。同樣采用625條線和25幀,但與NTSC和PAL相比,其基礎(chǔ)技術(shù)是采用頻率調(diào)制,傳播方式也不同于以上兩種。2.3.2國際視頻標(biāo)準(zhǔn)NTSC美國研制,是目前廣泛使用1052.3.3數(shù)字視頻CCIR601編碼標(biāo)準(zhǔn)數(shù)字視頻CCIR601是國際無線電咨詢委員會制定的廣播級質(zhì)量的數(shù)字電視標(biāo)準(zhǔn)。主要對采樣頻率、采樣結(jié)構(gòu)、色彩空間轉(zhuǎn)換等給出了嚴(yán)格的標(biāo)準(zhǔn)。采樣頻率:為了保證信號同步,采樣頻率必須是電視信號行頻的倍數(shù)。CCIR為NTSC、PAL和SECAM制式制定的共同的電視圖像采樣標(biāo)準(zhǔn)為fs=13.5MHZ。分辨率2.3.3數(shù)字視頻CCIR601編碼標(biāo)準(zhǔn)數(shù)字視頻CCIR601062.4
常用數(shù)據(jù)壓縮技術(shù)2.4常用數(shù)據(jù)壓縮技術(shù)1072.4.1數(shù)據(jù)壓縮的基本原理傳統(tǒng)上用模擬方式表示聲音和圖象信息
易出故障,常產(chǎn)生噪音和信號丟失,且拷貝過程中噪音和誤差逐步積累;模擬信號不適合數(shù)字計(jì)算機(jī)加工處理。數(shù)字化處理:巨大的數(shù)據(jù)量2.4.1數(shù)據(jù)壓縮的基本原理傳統(tǒng)上用模擬方式表示聲音和圖象108采樣定理:
僅當(dāng)采樣頻率≥2倍的原始信號頻率時(shí),才能保證采樣后信號可被保真地恢復(fù)為原始信號。采用8bit數(shù)字化,從而1秒鐘電視信號的數(shù)據(jù)量約為99.2Mbits。即約為100Mbps。650MB的CD-ROM僅能存約1分鐘的原始電視數(shù)據(jù)。若HDTV(1.2Gbps),一張CD-ROM還存不下6秒鐘的HDTV圖象。采樣定理:109
人說話的音頻一般在20Hz到4KHz,即人類語音的帶寬為4KHz。依據(jù)采樣定理,設(shè)數(shù)字化精度為8b,則1秒鐘信號量為64Kbits。
因此,人講1分鐘話的數(shù)據(jù)量為480KB。數(shù)字化處理的關(guān)鍵問題-數(shù)據(jù)壓縮(去掉信號數(shù)據(jù)的冗余性)人說話的音頻一般在20Hz到4KHz,即人類語音的帶寬為110壓縮的基礎(chǔ)-數(shù)據(jù)冗余
空間冗余時(shí)間冗余信息熵冗余結(jié)構(gòu)冗余知識冗余視覺冗余其它冗余壓縮的基礎(chǔ)-數(shù)據(jù)冗余空間冗余111空間冗余這是圖象數(shù)據(jù)中經(jīng)常存在的一種冗余。在同一幅圖象中,規(guī)則物體和規(guī)則背景的表面物理特性具有相關(guān)性,這些相關(guān)性的光成象結(jié)構(gòu)在數(shù)字化圖象中就表現(xiàn)為數(shù)據(jù)冗余。
空間冗余這是圖象數(shù)據(jù)中經(jīng)常存在的一種冗余。112時(shí)間冗余這是序列圖象和語音數(shù)據(jù)中所經(jīng)常包含的冗余。圖象序列中的兩幅相鄰的圖象之間有較大的相關(guān)性,這反映為時(shí)間冗余。人在說話時(shí)發(fā)音音頻是一連續(xù)的漸變過程,而不是一個(gè)完全時(shí)間上獨(dú)立的過程,因而存在時(shí)間冗余。
時(shí)間冗余這是序列圖象和語音數(shù)據(jù)中所經(jīng)常包含的冗余。113信息熵冗余信息熵是指一組數(shù)據(jù)所攜帶的信息量,它定義為:H=-∑i=0N-1Pilog2Pi
N為數(shù)據(jù)類數(shù)或碼元個(gè)數(shù),Pi為碼元yi發(fā)生的概率.為使信息編碼單位數(shù)據(jù)量d接近于或等于H,應(yīng)設(shè):d=∑i=0N-1Pib(yi)
其中b(yi)是分配給碼元yi的比特?cái)?shù),理論上應(yīng)取b(yi)=-log2Pi.實(shí)際一般取b(y0)=b(y1)=…=b(yK-1).例如,英文字母編碼碼元長為7bit,即b(y0)=b(y1)=…=b(yK-1)=7,這樣d必然大于H,由此帶來的冗余稱為信息熵冗余或編碼冗余。
信息熵冗余信息熵是指一組數(shù)據(jù)所攜帶的信息量,它定義為:114結(jié)構(gòu)冗余有些圖象從大域上看存著非常強(qiáng)的紋理結(jié)構(gòu),我們稱它們在結(jié)構(gòu)上存在有冗余.例如布紋圖象和草席圖象結(jié)構(gòu)冗余有些圖象從大域上看存著非常強(qiáng)的紋理結(jié)構(gòu),我們稱它們在115知識冗余有許多圖象的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。例如,人臉的圖象有固定的結(jié)構(gòu)。比如說嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正臉圖象的中線上等等。這類規(guī)律性的結(jié)構(gòu)可由先驗(yàn)知識和背景知識得到,我們稱此類冗余為知識冗余。知識冗余有許多圖象的理解與某些基礎(chǔ)知識有相當(dāng)大的相關(guān)性。116視覺冗余人類視覺系統(tǒng)對于圖象場的任何變化,并不是都能感知的。例如,對于圖象的編碼處理時(shí),由于壓縮或量化截?cái)嘁肓嗽肼暥箞D象發(fā)生了一些變化,如果這些變化不能為視覺所感知,仍認(rèn)為圖象足夠好。事實(shí)上人類視覺系統(tǒng)一般分辨能力約為26灰度等級,而一般圖象量化采用28灰度等級,這類冗余我們稱為視覺冗余。
視覺冗余人類視覺系統(tǒng)對于圖象場的任何變化,并不是都能感知的。117其他冗余例如由圖象的空間非定常特性所帶來的冗余。
其他冗余例如由圖象的空間非定常特性所帶來的冗余。1182.4常用的數(shù)據(jù)壓縮技術(shù)
根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全一致,數(shù)據(jù)壓縮方法劃分為兩類:
可逆編碼(無失真編碼)
解碼圖象與原始圖象嚴(yán)格相同,壓縮大約在2:1到5:1之間。如Huffman編碼、算術(shù)編碼、行程長度編碼等。不可逆編碼(有失真編碼)
還原圖象與原始圖象存在一定的誤差,但視覺效果一般可以接受,壓縮比可以從幾倍到上百倍來調(diào)節(jié)。常用的有變換編碼和預(yù)測編碼2.4常用的數(shù)據(jù)壓縮技術(shù)根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全119
根據(jù)壓縮的原理分類:
預(yù)測編碼
利用空間中相鄰數(shù)據(jù)的相關(guān)性來預(yù)測未來點(diǎn)的數(shù)據(jù)。差分脈沖編碼調(diào)制(DPCM)和自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)。
變換編碼
將圖象時(shí)域信號變換到頻域空間處理。時(shí)域空間有強(qiáng)相關(guān)信號,反映在頻域上是某些特定區(qū)域內(nèi)能量集中,從而實(shí)現(xiàn)壓縮.正交變換如離散余弦變換,離散付立葉變換和Walsh-Hadamard變換.量化與向量量化編碼
為了使整體量化失真最小,就必須依照統(tǒng)計(jì)的概率分布設(shè)計(jì)最優(yōu)的量化器。已知最優(yōu)量化器是Max量化器。對象元點(diǎn)進(jìn)行量化時(shí),也可以考慮一次量化多個(gè)點(diǎn)的向量量化。根據(jù)壓縮的原理分類:120
信息熵編碼
根據(jù)信息熵原理,讓出現(xiàn)概率大的用短的碼字表達(dá),反之用長的碼字表示。最常見的方法如Huffman編碼、Shannon編碼以及算術(shù)編碼。
子帶編碼
將圖象數(shù)據(jù)變換到頻域后,按頻域分帶,然后用不同的量化器進(jìn)行量化,從而達(dá)到最優(yōu)的組合?;蛘叻植綕u近編碼,隨著解碼數(shù)據(jù)的增加,圖象逐漸清晰。
模型編碼
編碼時(shí)首先將圖象中邊界、輪廓、紋理等結(jié)構(gòu)特征找出來,保存這些參數(shù)信息。解碼時(shí)根據(jù)結(jié)構(gòu)和參數(shù)信息進(jìn)行合成,恢復(fù)出原圖象。具體方法有輪廓編碼、域分割編碼、分析合成編碼、識別合成編碼、基于知識的編碼、分形編碼等。多媒體技術(shù)與應(yīng)用視頻課件21212.4.1
預(yù)測編碼線性預(yù)測-DPCM基本原理是基于圖象中相鄰象素之間具有較強(qiáng)的相關(guān)性。每個(gè)象素可根據(jù)已知的前幾個(gè)象素來作預(yù)測。因此在預(yù)測編碼中,編碼和傳輸?shù)牟⒉皇窍笏夭蓸又当旧?,而是這個(gè)采樣值的預(yù)測值與其實(shí)際值之間的差值非線性預(yù)測(不討論)2.4.1預(yù)測編碼線性預(yù)測-DPCM122DPCM系統(tǒng)原理框圖預(yù)測器量化器編碼器解碼器預(yù)測器信道接收端輸出XN’+++XNe’NXNeNe’NXN’++輸入^XN^發(fā)送端+-DPCM系統(tǒng)原理框圖預(yù)測器量化器編碼器解碼器預(yù)測器接123XN為tN時(shí)刻的亮度采樣值;XN為根據(jù)tN時(shí)刻以前已知X1,X2,…,XN-1對XN所作的預(yù)測值;eN=XN-XN為差值信號;eN’為量化器輸出信號;XN’為接收端輸出,XN’
=XN+eN’
。因?yàn)椋篨N-XN’=XN-(XN+eN’)=(XN-XN)-eN’=eN-eN’所以,DPCM系統(tǒng)中的誤差來源是發(fā)送端的量化器,而與接收端無關(guān),若去掉量化器使eN=eN’,則XN=XN’,即實(shí)現(xiàn)信息保持編碼。事實(shí)上,這種量化誤差是不可避免的。^^^^^^^^^^1242.4.2
變換編碼輸入圖象G經(jīng)正交變換U變換到頻域空間,象素之間相關(guān)性下降,能量集中在變換域中少數(shù)變換系數(shù)上,已經(jīng)達(dá)到了數(shù)據(jù)壓縮的效果。對變換系數(shù)A中那些幅度大元素予以保留,其它數(shù)量多的幅度小的變換系數(shù),全部當(dāng)作零不予編碼,再輔以非線性量化,進(jìn)一步壓縮圖象數(shù)據(jù)。由于量化器存在,量化后變換系數(shù)A′和A間必然存在量化誤差,從而引起輸入圖象G和輸出圖象G′間存在誤差。圖中U′是U的逆變換。2.4.2變換編碼輸入圖象G經(jīng)正交變換U變換到頻域空間,象125變換編碼原理框圖
變換量化編碼器解碼器逆變換信道輸入發(fā)送端接收端輸出GG’U’UA’A變換編碼原理框圖變換量化編碼器解碼器逆變換信道輸入發(fā)送端接126變換編碼數(shù)據(jù)壓縮主要是去除信源的相關(guān)性。設(shè)信源序列為X={X0,X1,…,XN-1},表征相關(guān)性的統(tǒng)計(jì)特性就是協(xié)方差矩陣:
ΦX=
其中σi,j=E{(Xi-EXi)(Xj-EXj)}.當(dāng)協(xié)方差矩陣Φx除對角線上元素之外各元素均為0時(shí),就等效于相關(guān)性為0。為了有效壓縮,希望變換后的協(xié)方差矩陣為對角矩陣,并希望主對角線元素隨i,j增加盡快衰減。
σ0,02σ0,12σ0,N-12σ1,02σ1,12σN-1,02σ1,N-12σN-1,12σN-1,N-12…………………變換編碼數(shù)據(jù)壓縮主要是去除信源的相關(guān)性。σ0,02σ0,1127
已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使變換后的協(xié)方差矩陣滿足或接近為一對角陣。Karhunen-Loeve變換即是這樣一種變換,又稱為最佳變換,它能使變換后協(xié)方差矩陣為對角陣,并且有最小均方誤差。它的計(jì)算比較復(fù)雜。實(shí)際應(yīng)用中采用了一些準(zhǔn)最佳變換如DCT,DFT和WHT等,使用這些變換后的協(xié)方差矩陣一般都接近一對角陣。已知X的條件下,根據(jù)它的協(xié)方差矩陣去尋找一種正交變換T,使1282.4.3
信息熵編碼又稱為統(tǒng)計(jì)編碼,它是根據(jù)信源符號出現(xiàn)概率的分布特性而進(jìn)行的壓縮編碼?;舅枷?在信源符號和碼字之間建立明確的一一對應(yīng)關(guān)系,以便在恢復(fù)時(shí)能準(zhǔn)確地再現(xiàn)原信號,同時(shí)要使平均碼長或碼率盡量小。如Huffman編碼、算術(shù)編碼。2.4.3信息熵編碼又稱為統(tǒng)計(jì)編碼,它是根據(jù)信源符號出現(xiàn)概129Huffman定理定理在變長編碼中,對出現(xiàn)概率大的信源符號賦于短碼字,而對于出現(xiàn)概率小的信源符號賦于長碼字。如果碼字長度嚴(yán)格按照所對應(yīng)符號出現(xiàn)概率大小逆序排列,則編碼結(jié)果平均碼字長度一定小于任何其它排列方式。Huffman定理是Huffman編碼的理論基礎(chǔ)Huffman定理定理在變長編碼中,對出現(xiàn)概率大的信源符號130例2.2設(shè)一組音源符號為{X1,X2,X3,X4,X5,X6,X7,X8},這些符號出現(xiàn)的概率分別為{0.40,0.18,0.10,0.10,0.07,0.06,0.05,0.04},求它們的Huffman編碼。例2.2設(shè)一組音源符號為{X1,X2,X3,X4,X5,X6131實(shí)現(xiàn)步驟
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職動漫設(shè)計(jì)(動畫制作技術(shù))試題及答案
- 2025年高職(大數(shù)據(jù)與會計(jì))稅務(wù)籌劃實(shí)務(wù)階段測試題及答案
- 新聞傳媒行業(yè)就業(yè)趨勢
- 人工智能年會精彩回顧
- 基層安全督查制度講解
- 2025年12月華僑大學(xué)化工學(xué)院藍(lán)志元教授團(tuán)隊(duì)招聘科研助理4人備考題庫(福建)及一套參考答案詳解
- 2026江蘇中國人壽股份有限公司招聘備考題庫及一套答案詳解
- 2025年漯河市自然資源和規(guī)劃局所屬事業(yè)單位人才引進(jìn)1名備考題庫及參考答案詳解1套
- 2025上海市同濟(jì)口腔醫(yī)院(同濟(jì)大學(xué)附屬口腔醫(yī)院)實(shí)驗(yàn)技術(shù)員招聘1人備考題庫及答案詳解1套
- 2026中共中央對外聯(lián)絡(luò)部事業(yè)單位招聘5人備考題庫及參考答案詳解
- 小學(xué)六年級英語2026年上學(xué)期語法填空綜合題集
- 海洋電子信息產(chǎn)業(yè)現(xiàn)狀與發(fā)展路徑研究
- 草原管護(hù)考試題及答案
- Unit 8 Let's Communicate!Section B 1a-1e 課件 2025-2026學(xué)年人教版八年級英語上冊
- 2026年四川單招職高語文基礎(chǔ)知識練習(xí)與考點(diǎn)分析含答案
- 2026年交管12123駕照學(xué)法減分題庫100道【基礎(chǔ)題】
- 寒假女生安全教育課件
- 2026年孝昌縣供水有限公司公開招聘正式員工備考題庫及1套參考答案詳解
- 2024-2025學(xué)年蘇教版四年級數(shù)學(xué)上冊 第二單元專練:經(jīng)濟(jì)問題和促銷問題(買幾送幾)原卷版+解析
- 6.2 中位數(shù)與箱線圖 教學(xué)設(shè)計(jì)(2課時(shí))2025-2026學(xué)年數(shù)學(xué)北師大版八年級上冊
- 2024年常州工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案解析
評論
0/150
提交評論