版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第6章多媒體數(shù)據(jù)壓縮編碼技術(shù)6.1多媒體數(shù)據(jù)壓縮編碼的重要性和分類6.2常用壓縮編碼算法的基本原理及實(shí)現(xiàn)技術(shù),統(tǒng)計(jì)編碼、預(yù)測編碼、變換編碼
6.3量化的基本原理和量化器的設(shè)計(jì)思想
6.4靜態(tài)圖像壓縮編碼的國際標(biāo)準(zhǔn)(JPEG)原理、實(shí)現(xiàn)技術(shù),以及動(dòng)態(tài)圖像壓縮編碼國際標(biāo)準(zhǔn)(MPEG)的基本原理
16.1多媒體數(shù)據(jù)壓縮編碼的重要性和分類6.1.1多媒體數(shù)據(jù)壓縮編碼的重要性
多媒體技術(shù)最大難題是海量數(shù)據(jù)存儲(chǔ)與傳送電視信、傳輸電視信號數(shù)字化后的數(shù)據(jù)量。那么數(shù)據(jù)量是否等于信息量?
例如:一個(gè)512×512分辨率的一秒鐘視頻需要如下的存儲(chǔ)容量:512×512×8×3=6291456=6.3Mbit/s
6.3×30幀/s=188Mbit/s
188/8=23.5MByte/s
那么一張650MByte的光盤就只能存儲(chǔ)
650Mbyte硬盤/23.5Mbytes/s=27.5秒
例如:語音信號,正常人談話音頻20Hz~4KHz,采樣定理,精度為8位,人類語言帶寬為4KHz,則
4K×2×8=64Kbit/s=8Kbyte/s
與圖像相比:23.5M/8K=3000倍。所以必須進(jìn)行壓縮。2信息量與數(shù)據(jù)量的關(guān)系:I=D-duI—信息量D—數(shù)據(jù)量du—冗余量
1.du在平時(shí)說話時(shí)是大量存在的。
2.中文廣播員一分鐘讀180個(gè)漢字,一個(gè)漢字兩個(gè)字節(jié),360個(gè)Byte。
采樣1分鐘,8K×60=480KByte/分
480Kbyte/360byte=1000倍的冗余
3.中文百科全書掃描進(jìn)入計(jì)算機(jī)冗余更大。
4.圖像信息、視頻信息的冗余就更大了。36.1.2
多媒體數(shù)據(jù)壓縮的可能性
常見的圖像數(shù)據(jù)冗余
(1)空間冗余。在任何一幅圖像中,均有由許多灰度或顏色都相同的鄰近像素組成的區(qū)域,它們形成了一個(gè)性質(zhì)相同的集合塊,即它們相互之間具有空間(或空域)上的強(qiáng)相關(guān)性,在圖像中就表現(xiàn)為空間冗余。(2)結(jié)構(gòu)冗余。在有些圖像的紋理區(qū),圖像的像素值存在著明顯的分布模式。例如,方格狀的板圖案等,我們稱此為結(jié)構(gòu)冗余。已知分布模式,可以通過某一過程生成圖像。
4(3)時(shí)間冗余。這是序列圖像(電視圖像、運(yùn)動(dòng)圖像)表示中經(jīng)常包含的冗余。圖像序列中兩幅相鄰的圖像有較大的相關(guān),這反映為時(shí)間冗余。
(4)視覺冗余。人類視覺系統(tǒng)的一般分辨能力估計(jì)為26灰度等級,而一般圖像的量化采用的是28的灰度等級。像這樣的冗余,我們稱之為視覺冗余。
(5)知識冗余。有些圖像的理解與某些知識有相當(dāng)大的相關(guān)性。例如:狗的圖像有固定的結(jié)構(gòu),比如,狗有四條腿,頭部有眼、鼻、耳朵,有尾巴等。這類規(guī)律性的結(jié)構(gòu)可由先驗(yàn)知識和背景知識得到,我們稱此類冗余為知識冗余。空間冗余和時(shí)間冗余是將圖像信號看作為隨機(jī)信號時(shí)所反映出的統(tǒng)計(jì)特征,因此有時(shí)把這兩種冗余稱為統(tǒng)計(jì)冗余。56.1.3
多媒體數(shù)據(jù)壓縮方法的分類
根據(jù)編、解碼后數(shù)據(jù)是否一致來進(jìn)行分類,數(shù)據(jù)壓縮的方法一般被劃分為兩類:(1)可逆編碼(無損編碼)。此種方法的解碼圖像與原始圖像嚴(yán)格相同,壓縮比大約在2:1~5:1之間。主要編碼有Huffman編碼、算術(shù)編碼、行程長度編碼等。(2)不可逆編碼(有損編碼)。此種方法的解碼圖像與原始圖像存在一定的誤差,但視覺效果一般可以接受,壓縮比可以從幾倍到上百倍調(diào)節(jié)。常用的編碼有變換編碼和預(yù)測編碼。6(4)信息熵編碼。依據(jù)信息熵原理,讓出現(xiàn)概率大的信號用較短的碼字表示,反之用較長的碼字表示。常見的編碼方法有Huffman編碼、Shannon編碼以及算術(shù)編碼。(5)子帶(subband)編碼。將圖像數(shù)據(jù)變換到頻率后,按頻率分帶,然后用不同的量化器進(jìn)行量化,從而達(dá)到最優(yōu)的組合?;蛘叻植紳u進(jìn)編碼,在初始時(shí),對某一個(gè)頻帶的信號進(jìn)行解碼,然后逐漸擴(kuò)展到所有頻帶。
96.2常用壓縮編碼算法的基本原理及實(shí)現(xiàn)技術(shù),統(tǒng)計(jì)編碼、預(yù)測編碼、變換編碼
6.2.1信息熵及基本概念
1.信息量與信息熵
信息量是指從N個(gè)相等的可能事件中選出一個(gè)事件所需要的信息度量或含量,也就是在辨識N個(gè)事件中特定的一個(gè)事件的過程中所需要提問“是或否”的最少次數(shù)。設(shè)從N個(gè)數(shù)中選定任一個(gè)數(shù)xj的概率為p(xj),假定選定任意一個(gè)數(shù)的概率都相等,即p(xj)=,因此定義信息量見公式6-1。
(6-1)如果將信源所有可能事件的信息量進(jìn)行平均,就得到了信息的“熵”,即信息熵。式中,P(xj)是信源X發(fā)出xj的概率。I(xj)的含義是,信源X發(fā)出xj這個(gè)消息(隨機(jī)事件)后,接收端收到信息量的量度。10信源X發(fā)出的xj(j=1,2,…,n)共n個(gè)隨機(jī)事件的自信息統(tǒng)計(jì)平均,即H(X)稱為信源X的“熵”,即信源X發(fā)出任意一個(gè)隨機(jī)變量的平均信息量。其中:等概率事件的熵最大,假設(shè)有N個(gè)事件,由(6-2)式得此時(shí)熵為:(6-2)當(dāng)P(x1)=1時(shí),P(x2)=P(x3)=…=P(xj)=0,由(6-2)式得此時(shí)熵為由上可得熵的范圍為:11在編碼中用熵值來衡量是否為最佳編碼。若以Lc表示編碼器輸出碼字的平均碼長,則當(dāng)Lc≥H(X)有冗余,不是最佳。Lc<H(X)不可能。Lc=H(X)最佳編碼(Lc稍大于H(X))。熵值為平均碼長Lc的下限。平均碼長Lc的計(jì)算公式為:(j=1,2,…,n)(6-3)其中:P(xj)是信源X發(fā)出xj的概率,L(xj)為xj的編碼長。122.冗余度、編碼效率與壓縮比
設(shè)原圖像的平均碼長為L,熵為H(X),壓縮后圖像的平均碼長為Lc,則定義冗余度為(見公式6-4):
(6-4)編碼效率(見公式6-5):
(6-5)壓縮比(見公式6-6): (6-6)
在數(shù)字圖像通信系統(tǒng)中,冗余度、編碼效率與壓縮比是衡量信源特性以及編解碼設(shè)備性能的重要指標(biāo)。136.2.3
信息熵編碼
信息熵編碼也稱為統(tǒng)計(jì)編碼,是利用信息源出現(xiàn)的概率來進(jìn)行編碼,目前比較常見的信息熵編碼包括哈夫曼編碼、香農(nóng)-范諾編碼、行程編碼和算術(shù)統(tǒng)計(jì)編碼等。
1.哈夫曼編碼
基本原理
依據(jù)信源字符出現(xiàn)的概率大小來構(gòu)造代碼,對出現(xiàn)概率較大的信源字符,給予較短碼長,而對于出現(xiàn)概率較小的信源字符,給予較長的碼長,最后使得編碼的平均碼字最短。
14具體的編碼步驟如下:(1)將信源符號出現(xiàn)的概率按由大到小的順序排序。(2)將兩處最小的概率進(jìn)行組合相加,形成一個(gè)新的概率。(3)將新出現(xiàn)的概率與未編碼的字符一起重新排序。(4)重復(fù)步驟(2)、(3),直到出現(xiàn)的概率和為1。(5)分配代碼。代碼分配從最后一步開始反向進(jìn)行,對最后兩個(gè)概率一個(gè)賦予0代碼,一個(gè)賦予1代碼。如此反向進(jìn)行到開始的概率排列。在此過程中,若概率不變則采用原代碼。15例6-1:設(shè)輸入圖像的灰度級{a1,a2,a3,a4,a5,a6}出現(xiàn)的概率分別是0.4、0.2、0.12、0.15、0.1、0.03。試進(jìn)行哈夫曼編碼,并計(jì)算編碼效率、壓縮比、冗余度。
編碼步驟:(1)初始化,根據(jù)符號概率的大小按由大到小順序?qū)Ψ栠M(jìn)行排序,如圖所示。(2)把概率小的兩個(gè)符號組成一個(gè)節(jié)點(diǎn),如圖4-2中的a5、a6組成節(jié)點(diǎn)P1。(3)重復(fù)步驟2,得到節(jié)點(diǎn)P2、P3、P4、P5,形成一棵“樹”,其中P5為根節(jié)點(diǎn)。(4)從根節(jié)點(diǎn)P5開始到相應(yīng)于每個(gè)符號的“樹葉”,從上到下標(biāo)上1(上枝)或者0(下枝),至于哪個(gè)為1哪個(gè)為0則無關(guān)緊要,最后的結(jié)果僅僅是分配的代碼不同,而代碼的平均長度是相同的。最終編碼結(jié)果為:a1=1,a2=000, a3=011,a4=001,a5=0100, a6=0101
16由公式(6-2)可求得圖像信源熵是:H(X)=
=-(0.4×log20.4+0.2×log20.2+0.12×log20.12+ 0.15×log20.15+0.1×log20.1+0.03×log20.03) =2.25bit根據(jù)哈夫曼編碼過程圖給出的結(jié)果,由公式(6-3)可求出它的平均碼字長度:Lc=0.4×1+0.2×3+0.15×3+0.12×3+0.1×4+0.03×4=2.33由公式(6-5)得編碼效率為:壓縮之前8個(gè)符號需要3個(gè)比特量化,經(jīng)過壓縮之后的平均碼字長度為2.33,由公式(6-6)得其壓縮比為:由公式(6-4)得冗余度為:r=1-η=3.4%17采用哈夫曼編碼時(shí)有兩個(gè)問題值得注意:(1)哈夫曼編碼沒有錯(cuò)誤保護(hù)功能,在譯碼時(shí),如果碼串中沒有錯(cuò)誤,那么就能一個(gè)接一個(gè)的正確譯出代碼。但如果碼串中有錯(cuò)誤,哪怕僅是1位出現(xiàn)錯(cuò)誤,不但這個(gè)碼本身譯錯(cuò),更糟糕的是后面的譯碼可能全錯(cuò),這種現(xiàn)象稱為錯(cuò)誤傳播(ErrorPropagation)。(2)哈夫曼編碼是可變長度碼,因此很難隨意查找或調(diào)用壓縮文件中間的內(nèi)容,然后再譯碼,這就需要在存儲(chǔ)代碼之前加以考慮。182.算術(shù)編碼
算術(shù)編碼(arithmeticcodingAC)是利用0和1之間的間隔來表示信源編碼的一種方法,其編碼值是間隔的上、下限包含的相同二進(jìn)制。編碼過程中的間隔決定了符號壓縮后的輸出。算術(shù)編碼用到兩個(gè)基本的參數(shù):符號的概率和它的編碼間隔。
信源符號的概率決定壓縮編碼的效率,也決定編碼過程中信源符號的間隔,而這些間隔包含在0到1之間。
算術(shù)編碼器的編碼過程可用例6-2加以解釋。
19例6-2:假設(shè)信源符號為{A,B,C,D},這些符號的概率分別為{0.1,0.4,0.2,0.3},根據(jù)這些概率可把間隔[0,1]分成4個(gè)子間隔:[0,0.1],[0.1,0.5],[0.5,0.7],[0.7,1],其中[x,y]表示半開放間隔,即包含x不包含y,如表6-1所示。符號ABCD概率0.10.40.20.3初始編碼間隔[0,0.1)[0.1,0.5)[0.5,0.7)[0.7,1)表6-1信源符號、概率和初始編碼間隔如果消息序列的輸入為:CADACDB,其編碼過程如下:首先輸入的符號是C,找到它的編碼范圍是[0.5,0.7];由于消息中第2個(gè)符號A的編碼范圍是[0,0.1],因此它的間隔就取[0.5,0.7]的第一個(gè)1/10作為新間隔[0.5,0.52];編碼第3個(gè)符號D時(shí)取新間隔為[0.514,0.52];編碼第4個(gè)符號A時(shí),取新間隔為[0.514,0.5146],…。20消息的編碼輸出可以是最后一個(gè)間隔中的任意數(shù),整個(gè)編碼過程如下圖所示。最后在[0.5143876,0.51442]中選擇一個(gè)數(shù)作為編碼輸出值:0.5143876。解碼時(shí),解碼器由編碼輸出值:0.5143876,可馬上解得一個(gè)字符為C,然后依次得到唯一解A,D,A,C,D,B。21設(shè)初始時(shí),low=0,high=1.0,range=high-low=1,輸入第一個(gè)符號后:high=low+range*rangehigh;‘rangehigh是區(qū)間右端low=low+range*rangelow;‘rangelow是區(qū)間左端range=high-low;以此類推可用解碼公式(如下)解碼:
number=(Number-rangelow)/range用如下公式進(jìn)行運(yùn)算:22在算術(shù)編碼中需要注意的幾個(gè)問題:(1)由于實(shí)際的計(jì)算機(jī)的精度不可能無限長,運(yùn)算中出現(xiàn)溢出是一個(gè)明顯的問題,但多數(shù)機(jī)器都有16位、32位或者64位的精度,因此這個(gè)問題可使用比例縮放方法解決。
(2)算術(shù)編碼器對整個(gè)消息只產(chǎn)生一個(gè)碼字,這個(gè)碼字是在間隔[0,1)中的一個(gè)實(shí)數(shù),因此譯碼器在接受到表示這個(gè)實(shí)數(shù)的所有位之前不能進(jìn)行譯碼。
(3)算術(shù)編碼也是一種對錯(cuò)誤很敏感的編碼方法,如果有一位發(fā)生錯(cuò)誤就會(huì)導(dǎo)致整個(gè)消息譯錯(cuò)。
236.2.4
預(yù)測編碼1基本原理預(yù)測編碼是數(shù)據(jù)壓縮理論的一個(gè)重要分支。它根據(jù)離散信號之間存在一定相關(guān)性的特點(diǎn),利用前面的一個(gè)或多個(gè)信號對下一個(gè)信號進(jìn)行預(yù)測,然后對實(shí)際值和預(yù)測值的差(預(yù)測誤差)進(jìn)行編碼。如果預(yù)測比較準(zhǔn)確,那么誤差信號就會(huì)很小,就可以用較少的碼位進(jìn)行編碼,以達(dá)到數(shù)據(jù)壓縮的目的。第n個(gè)符號Xn的熵滿足:所以參與預(yù)測的符號越多,預(yù)測就越準(zhǔn)確,該信源的不確定性就越小,數(shù)碼率就可以降低。242DPCM和ADPCM
一、DPCM差分脈沖編碼調(diào)制DPCM編/解碼原理圖(下頁)1.預(yù)測器的設(shè)計(jì)2.ADPCM自適應(yīng)預(yù)測編碼
這種編碼方法中,量化器的步長和預(yù)測器的參數(shù)均能根據(jù)圖象的局部特征作自適應(yīng)的調(diào)整。3.ADPCM的分類
ADPCM分成兩類:(1)線性自適應(yīng)預(yù)測器Yamada(1977年)提出了二維DPCM自適應(yīng)預(yù)測方案。
(2)非線性自適應(yīng)預(yù)測器
引進(jìn)幾個(gè)和臨近象素有關(guān)的值,入i和di非線性改變預(yù)測的數(shù)。所以,叫非線性的自適應(yīng)預(yù)測。25DPCM編/解碼原理圖輸入輸出f(i,j)量化器編碼器預(yù)測器解碼器預(yù)測器信道傳輸e(i,j)f(i,j)f(i,j)f(i,j)f(i,j)f(i,j)e(i,j)e(i,j)26預(yù)測方程式線性預(yù)測:如果ai是常數(shù),則為不變線性預(yù)測,否則為自適應(yīng)線性預(yù)測(ADPCM)最簡單的預(yù)測方程:27最佳線性預(yù)測使誤差函數(shù)達(dá)到最小值的預(yù)測方程式叫做最佳線性預(yù)測。求最佳線性預(yù)測的各個(gè)參數(shù)ai,列方程組:代入得到聯(lián)立方程組:如果為一階線性預(yù)測,則可求得:28圖像信號的預(yù)測編碼一副數(shù)字圖像可以看成一個(gè)空間點(diǎn)陣,圖像信號不僅在水平方向是相關(guān)的,在垂直方向也是相關(guān)的。根據(jù)已知樣值與待預(yù)測樣值間的位置關(guān)系,可以分為:(1)一維預(yù)測(行內(nèi)預(yù)測):利用同一行上相鄰的樣值進(jìn)行預(yù)測。(2)二維預(yù)測(幀內(nèi)預(yù)測):利用同一行和前面幾行的數(shù)據(jù)進(jìn)行預(yù)測。(3)三維預(yù)測(幀間預(yù)測):利用相鄰幾幀(或不同波段)上的取樣值進(jìn)行預(yù)測29靜止圖像的二維預(yù)測編碼這種壓縮算法被應(yīng)用到JPEG標(biāo)準(zhǔn)的無損壓縮模式之中,中等復(fù)雜程度的圖像壓縮比可達(dá)到2:1。cabx選擇值預(yù)測值0非預(yù)測1a2b3c4a+b-c5a+(b-c)/26b+(a-c)/27(a+b)/2d三鄰域預(yù)測法30活動(dòng)圖像的幀間預(yù)測編碼視頻信號的冗余度主要體現(xiàn)在空間相關(guān)性(幀內(nèi))、時(shí)間相關(guān)性(幀間)和色度空間表示上的相關(guān)性。對于每秒25幀(30)的電視信號,其相繼幀之間存在極強(qiáng)的相關(guān)性。據(jù)統(tǒng)計(jì)256級灰度的黑白圖像序列,幀間差值超過3的象素?cái)?shù)不超過4%。所以在活動(dòng)圖像序列中可以利用前面的幀來預(yù)測后面的幀,以實(shí)現(xiàn)數(shù)據(jù)壓縮。幀間預(yù)測編碼技術(shù)被廣泛應(yīng)用到H.261、H.263、MPEG-1和MPEG-2等視頻壓縮標(biāo)準(zhǔn)之中。31具有運(yùn)動(dòng)補(bǔ)償?shù)膸g預(yù)測活動(dòng)圖像序列中的一個(gè)畫面可以大致劃分為3個(gè)區(qū)域:(1)背景區(qū):相鄰兩個(gè)畫面的背景區(qū)基本相同。(2)運(yùn)動(dòng)物體區(qū):可以視為由前一個(gè)畫面的某一區(qū)域的像素平移而成。(位移矢量)(3)暴露區(qū):指物體運(yùn)動(dòng)后而顯露出來的曾被遮蓋的背景區(qū)域。運(yùn)動(dòng)補(bǔ)償預(yù)測就是將前一個(gè)畫面的背景區(qū)+平移后的運(yùn)動(dòng)物體區(qū)作為后一個(gè)畫面的預(yù)測值。32運(yùn)動(dòng)補(bǔ)償幀間預(yù)測編碼運(yùn)動(dòng)補(bǔ)償幀間預(yù)測從原理上包括如下幾個(gè)基本步驟:(1)圖像分割:把圖像劃分為靜止的背景和若干運(yùn)動(dòng)的物體,各個(gè)物體可能有不同的位移,但構(gòu)成同一物體的所有像素的位移相同。(2)運(yùn)動(dòng)矢量估值:考察前后兩個(gè)畫面,利用運(yùn)動(dòng)估值算法得到每個(gè)物體的位移矢量。(3)運(yùn)動(dòng)補(bǔ)償:用運(yùn)動(dòng)矢量補(bǔ)償物體的運(yùn)動(dòng)效果再進(jìn)行預(yù)測。(4)編碼:除了對實(shí)測值與預(yù)測值之間的差值進(jìn)行編碼傳送外,還要傳送位移矢量以及區(qū)域分割信息。33運(yùn)動(dòng)補(bǔ)償幀間預(yù)測編碼編碼器運(yùn)動(dòng)補(bǔ)償圖像輸入運(yùn)動(dòng)矢量輸出-譯碼器幀緩存運(yùn)動(dòng)估值預(yù)測誤差輸出34運(yùn)動(dòng)估計(jì)有下述三種方法:
(1).塊匹配法(BlockMatchingAlgorithmBMA)以象素塊為準(zhǔn)進(jìn)行運(yùn)動(dòng)估計(jì)。(2).象素遞歸法(PixelRecursiveAlgorithmPRA)以象素為準(zhǔn)進(jìn)行遞歸的運(yùn)動(dòng)估計(jì)。(3).傅立葉變換法。35變換編碼正交變換:設(shè):原始圖象為X,變換矩陣為T,均為方陣.
則:Y=T*X,Y就是變換后的圖象.
若變換矩陣T滿足:
T'*T=I,T-1*T=I,
則變換T稱為正交變換.
由Y還原出原始圖象X的方法是:
因?yàn)閅=T*X,所以X=T'*Y36最佳的正交變換K-L變換K-L變換的物理意義:K-L變換實(shí)質(zhì)上是作坐標(biāo)系的轉(zhuǎn)換,盡量讓向量落在最少的坐標(biāo)軸上或其周圍,從而只用較少的變換系數(shù)就可以恢復(fù)出質(zhì)量不錯(cuò)的圖像,壓縮效率比較高,均方誤差小。缺點(diǎn):圖像變化后變換核矩陣也要相應(yīng)變換,求解過程比較復(fù)雜,沒有快捷方法。37離散余弦變換
離散余弦變換(DiscretecosineTransform)簡稱DCT。任何連續(xù)的實(shí)對稱函數(shù)的傅里葉變換中只含余弦項(xiàng),因此余弦變換與傅里葉變換一樣有明確的物理量意義。DCT是先將整體圖像分成N×N像素塊,然后對N×N像素塊逐一進(jìn)行DCT變換。由于大多數(shù)圖像的高頻分量較小,相應(yīng)于圖像高頻成分的系數(shù)經(jīng)常為零,加上人眼對高頻成分的失真不太敏感,所以可用更粗的量化,因此傳送變換系數(shù)所用的數(shù)碼率要大大小于傳送圖像像素所用的數(shù)碼率。到達(dá)接收端后再通過反離散余弦變換回到樣值,雖然會(huì)有一定的失真,但人眼是可以接受的。38二維正反離散余弦變換的算式:39N代表像素?cái)?shù),一般N=8,8×8的二維數(shù)據(jù)塊經(jīng)DCT后變成8×8個(gè)變換系數(shù),這些系數(shù)都有明確的物理意義:U代表水平像素號,V代表垂直像素號。如當(dāng)U=0,V=0時(shí),F(xiàn)(0,0)是原64個(gè)樣值的平均,相當(dāng)于直流分量,隨著U、V值增加,相應(yīng)系數(shù)分別代表逐步增加的水平空間頻率分量和垂直空間頻率分量的大小。40當(dāng)我們先只考慮水平方向上一行數(shù)據(jù)(8個(gè)像素)的情況時(shí),如下圖所示:41嚴(yán)格說DCT本身并不能進(jìn)行碼率壓縮,因?yàn)?4個(gè)樣值仍然得到64個(gè)系數(shù),如下圖所示。這里給出了一個(gè)8×8像塊的具體例子,經(jīng)DCT變換后,比特?cái)?shù)增加了。在這個(gè)例子中樣值是8比特,從0~225得到的直流分量的最大值是原來256的64/8倍,即0~2047,交流分量的范圍是-1024~1023。只是在經(jīng)過量化后,特別是按人眼的生理特征對低頻分量和高頻分量設(shè)置不同的量化,會(huì)使大多數(shù)高頻分量的系數(shù)變?yōu)榱?。一般說來,人眼對低頻分量比較敏感,而對高頻分量不太敏感。因此對低頻分量采用較細(xì)的量化,而對高頻分量采用較粗的量化。42436.3.1量化原理
量化處理是使數(shù)據(jù)比特率下降的一個(gè)強(qiáng)有力的措施。脈沖編碼調(diào)制(PCM)的量化處理是采樣之后進(jìn)行,從理論分析的角度,圖像灰度值是連續(xù)的數(shù)值,而我們通??吹降氖且裕?~255)的整數(shù)表示圖像灰度,這是經(jīng)A/D變換后的以256級灰度分層量化處理了的離散數(shù)值,這樣可以用log2256=8比特表示一個(gè)圖像像素的灰度值,或色差信號值。
6.3量化44數(shù)據(jù)壓縮編碼中的量化處理,不是指A/D變換后的量化,而是指以PCM碼作為輸入,經(jīng)正交變換、差分、或預(yù)測處理后,熵編碼之前,對正交變換系數(shù)、差值或預(yù)測誤差的量化處理。量化輸入值的動(dòng)態(tài)范圍很大,需要很多的比特?cái)?shù)表示一個(gè)數(shù)值,量化輸出只能取有限個(gè)整數(shù),稱作量化級,希望量化后的數(shù)值用較少的比特?cái)?shù)便可表示。每個(gè)量化輸入被強(qiáng)行歸到與其接近的某個(gè)輸出,即量化到某個(gè)級。量化處理總是把一批輸入,量化到一個(gè)輸出級上,所以量化處理是一個(gè)多對一的處理過程,是個(gè)不可逆過程,量化處理中有信息丟失,或者說,會(huì)引起量化誤差(量化噪聲)。456.3.2標(biāo)量量化器的設(shè)計(jì)
量化器的設(shè)計(jì)要求通常設(shè)計(jì)量化器有下述兩種情況:給定量化分層級數(shù),滿足量化誤差最小。限定量化誤差,確定分層級數(shù),滿足以盡量小的平均比特?cái)?shù),表示量化輸出。量化方法有標(biāo)量量化和矢量量化之分,標(biāo)量量化又可分為,均勻量化、非均勻量化和自適應(yīng)量化。
466.3.3矢量量化矢量量化編碼是近年來圖像、語音信號編碼技術(shù)中頗為流行的一種新型量化編碼方法。矢量量化編碼方法一般是有失真編碼方法。矢量量化的名字是相對于標(biāo)量量化而提出的。對于PCM數(shù)據(jù),一個(gè)數(shù)一個(gè)數(shù)地進(jìn)行量化叫標(biāo)量量化。若對這些數(shù)據(jù)分組,每組K個(gè)數(shù)構(gòu)成一個(gè)K維矢量,然后以矢量為單元,逐個(gè)矢量進(jìn)行量化,稱矢量量化。矢量量化編碼解碼框圖(P120圖4.5)476.4
多媒體數(shù)據(jù)壓縮的國際標(biāo)準(zhǔn)國際標(biāo)準(zhǔn)化組織(ISO)國際電子委員會(huì)(IEC)國際電信聯(lián)盟(ITU)有關(guān)圖像壓縮編碼的國際標(biāo)準(zhǔn):JPEG標(biāo)準(zhǔn)MPEG標(biāo)準(zhǔn)H.261標(biāo)準(zhǔn)48算法概要
JPEG(JointPhotographicExpertsGroup)是一個(gè)由ISO和CCITT兩個(gè)組織機(jī)構(gòu)聯(lián)合組成的一個(gè)圖像專家小組,負(fù)責(zé)制定靜態(tài)的數(shù)字圖像數(shù)據(jù)壓縮編碼標(biāo)準(zhǔn),這個(gè)專家組開發(fā)的算法稱為JPEG算法,并且成為國際上通用的標(biāo)準(zhǔn)。JPEG是一個(gè)適用范圍很廣的靜態(tài)圖像數(shù)據(jù)壓縮標(biāo)準(zhǔn),既可用于灰度圖像又可用于彩色圖像。JPEG不僅適于靜止圖像的壓縮,電視圖像的幀內(nèi)圖像的壓縮編碼,也常采用此算法。JPEG標(biāo)準(zhǔn)還可以大范圍地調(diào)節(jié)圖像壓縮率及其保真度。標(biāo)準(zhǔn)主要采用了兩種基本的壓縮算法,一種是采用以離散余弦變換(DCT)為基礎(chǔ)的有損壓縮算法,另一種是采用以預(yù)測技術(shù)為基礎(chǔ)的DPCM無損壓縮算法。JPEG編碼標(biāo)準(zhǔn)49JPEG編碼標(biāo)準(zhǔn)基于DPCM的無損編碼模式:壓縮比可以達(dá)到2:1?;贒CT的有損順序編碼模式:壓縮比可以達(dá)到10:1以上。基于DCT的遞增編碼模式基于DCT的分層編碼模式JPEG規(guī)定了4種運(yùn)行模式,以滿足不同需要:50JPEG壓縮的使用范圍可大范圍調(diào)節(jié)圖像壓縮率及其相應(yīng)的圖像保真度,解碼器可參數(shù)化,用戶應(yīng)用可以選擇期望的壓縮質(zhì)量比;可用于連接任何連續(xù)色調(diào)數(shù)字圖像,不限制圖像的景象內(nèi)容只需一定能力的CPU就可實(shí)現(xiàn),而不要求很高的檔次;可運(yùn)行四種模式:無失真壓縮、基于DCT的順序工作、基于DCT的累進(jìn)工作方式和基于DCT的分層工作方式。51JPEG有損順序編碼算法的主要計(jì)算步驟如下:1.將源圖像分成幾個(gè)顏色平面(分量圖像)。2.分成8×8數(shù)據(jù)塊進(jìn)行正向離散余弦變換(FDCT)2.量化(quantization)。3.Z字形排列量化結(jié)果(zigzagscan)。4.使用差分脈沖編碼調(diào)制(differentialpulsecodemodulation,DPCM)對直流系數(shù)(DC)進(jìn)行編碼。5.使用行程長度編碼(run-lengthencoding,RLE)對交流系數(shù)(AC)進(jìn)行編碼。6.熵編碼(entropycoding)。JPEG編碼標(biāo)準(zhǔn)52JPEG編碼標(biāo)準(zhǔn)53譯碼或者叫做解壓縮的過程與壓縮編碼過程正好相反。IDCTJPEG編碼標(biāo)準(zhǔn)54正向離散余弦變換對每個(gè)單獨(dú)的彩色圖像分量,把整個(gè)分量圖像分成8×8的圖像塊,如圖所示,并作為兩維離散余弦變換DCT的輸入。通過DCT變換,把能量集中在少數(shù)幾個(gè)系數(shù)上。DCT變換使用下式計(jì)算逆變換使用下式計(jì)算JPEG編碼標(biāo)準(zhǔn)55量化對于有損壓縮算法,JPEG算法使用如圖所示的均勻量化器進(jìn)行量化,量化步距是按照系數(shù)所在的位置和每種顏色分量的色調(diào)值來確定。
JPEG編碼標(biāo)準(zhǔn)56量化因?yàn)槿搜蹖α炼刃盘柋葘ι钚盘柛舾校虼耸褂昧藘煞N量化表:亮度量化值和色差量化值。此外,由于人眼對低頻分量的圖像比對高頻分量的圖像更敏感,因此圖中的左上角的量化步距要比右下角的量化步距小。JPEG編碼標(biāo)準(zhǔn)色度量化表亮度量化表57DC系數(shù)DPCM編碼和AC系數(shù)Z形排列之后采用RLE編碼JPEG編碼標(biāo)準(zhǔn)AC01AC7758行程編碼(直流和交流系數(shù))AC01DCAC07AC77AC7059熵編碼
使用熵編碼還可以對DPCM編碼后的直流DC系數(shù)和RLE編碼后的交流AC系數(shù)作進(jìn)一步的壓縮。JPEG標(biāo)準(zhǔn)規(guī)定了兩種熵編碼算法:哈夫曼編碼和自適應(yīng)算術(shù)編碼。哈夫曼編碼采用的一般是固定的哈夫曼編碼表,而不是臨時(shí)統(tǒng)計(jì)出來的,并且對亮度分量和色度分量采用了不同的哈夫曼表。JPEG編碼標(biāo)準(zhǔn)60基于DPCM的無損編碼模式:主要采用了三鄰域二維預(yù)測編碼和熵編碼。無失真編碼器源圖像數(shù)據(jù)壓縮的圖像數(shù)據(jù)預(yù)測器熵編碼器表說明DPCM預(yù)測編碼框圖JPEG編碼標(biāo)準(zhǔn)61JPEG編碼標(biāo)準(zhǔn)基于DCT的遞增編碼模式:此模式與順序模式編碼步驟基本一致,不同之處在于遞增模式每個(gè)圖像分量的編碼要經(jīng)過多次掃描才完成。第一次掃描只進(jìn)行一次粗糙的壓縮,然后根據(jù)此數(shù)據(jù)先重建一幅質(zhì)量低的圖像,以后的掃描再作較細(xì)的掃描,使重建圖像質(zhì)量不斷提高,直到滿意為止。遞增模式分為兩種:(1)按頻段累進(jìn)。(2)按位累進(jìn)。62JPEG編碼標(biāo)準(zhǔn)基于DCT的分層編碼模式:(1)降低原始圖像的空間分辨率。(2)對已經(jīng)降低分辨率的圖像按照順序編碼模式進(jìn)行壓縮并存儲(chǔ)或傳輸。(3)對低分辨率圖像進(jìn)行解碼,然后用插值法提高圖像的分辨率。(4)將分辨率已經(jīng)升高的圖像作為原圖像的預(yù)測值,并把它與原圖像的差值進(jìn)行基于DCT的編碼。(5)重復(fù)步驟3、4直到圖像達(dá)到完整的分辨率。63JPEG圖像文件格式JPEG標(biāo)準(zhǔn)委員會(huì)沒有對JPEG文件格式作出明確的定義,現(xiàn)在被廣泛采用的是1992年9月由C-CubeMicrosystems公司提出的JPEG文件交換格式(JPEGFileInterchangeFormat,JFIF),版本號為1.02。JFIF文件格式直接使用JPEG標(biāo)準(zhǔn)為應(yīng)用程序定義的許多標(biāo)記,因此JFIF格式成了事實(shí)上JPEG文件交換格式標(biāo)準(zhǔn)。JEPG文件大體上可以分成兩個(gè)部分:標(biāo)記碼(tag)和壓縮數(shù)據(jù)。標(biāo)記碼部分給出了JPEG圖像的所有信息,如圖像的寬、高、Huffman表、量化表等等。64JPEG圖像文件格式JPEG文件使用的顏色空間是電視圖像信號數(shù)字化標(biāo)準(zhǔn)ITU-RBT601推薦標(biāo)準(zhǔn)規(guī)定的YCbCr彩色空間。從RGB轉(zhuǎn)換成YCbCr的計(jì)算公式如下:Y=0.299R+0.587G+0.114BCb=-0.1687R-0.3313G+0.5B+128Cr=0.5R-0.4187G-0.0813B+128654、運(yùn)動(dòng)圖像壓縮編碼的國際標(biāo)準(zhǔn)(MPEGI,Ⅱ,Ⅳ和Ⅶ)隨著數(shù)字化、網(wǎng)絡(luò)化、全球一體化信息時(shí)代的來臨,多媒體技術(shù)成為信息技術(shù)的重要組成部分。它包括聲音、圖形、數(shù)據(jù)以及圖像在內(nèi)的多種媒體信息的傳送和處理,其關(guān)鍵在于壓縮技術(shù)。此外,在多媒體的傳輸、處理、應(yīng)用中還有許多問題:如何在網(wǎng)絡(luò)上傳輸視頻?如何通過手機(jī)上網(wǎng)并接收視頻和圖像?如何對多媒體數(shù)據(jù)進(jìn)行快速有效的檢索?如何對多媒體信息進(jìn)行統(tǒng)一的存取?等等。66MPEG是活動(dòng)圖像專家組(MovingPictureExportsGroup)英文的縮寫,于1988年成立,是為數(shù)字視/音頻制定壓縮標(biāo)準(zhǔn)的專家組,目前已擁有300多名成員,包括IBM、SUN、BBC、NEC、INTEL、AT&&T等世界知名公司。MPEG組織最初得到的授權(quán)是制定用于“活動(dòng)圖像”編碼的各種標(biāo)準(zhǔn),隨后擴(kuò)充為“及其伴隨的音頻”及其組合編碼。后來針對不同的應(yīng)用需求,解除了“用于數(shù)字存儲(chǔ)媒體”的限制,成為現(xiàn)在制定“活動(dòng)圖像和音頻編碼”標(biāo)準(zhǔn)的組織。MPEG組織制定的各個(gè)標(biāo)準(zhǔn)都有不同的目標(biāo)和應(yīng)用,目前已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21標(biāo)準(zhǔn)。67MPEG-1標(biāo)準(zhǔn)及其應(yīng)用
MPEG-1標(biāo)準(zhǔn)于1993年8月公布,用于傳輸1.5Mbps數(shù)據(jù)傳輸率的數(shù)字存儲(chǔ)媒體運(yùn)動(dòng)圖像及其伴音的編碼。該標(biāo)準(zhǔn)包括五個(gè)部分:
第一部分說明了如何根據(jù)第二部分(視頻)以及第三部分(音頻)的規(guī)定,對音頻和視頻進(jìn)行復(fù)合編碼。第四部分說明了檢驗(yàn)解碼器或編碼器的輸出比特流符合前三部分規(guī)定的過程。第五部分是一個(gè)用完整的C語言實(shí)現(xiàn)的編碼和解碼器。
該標(biāo)準(zhǔn)從頒布的那一刻起,MPEG-1取得一連串的成功,如VCD和MP3的大量使用,Windows95以后的版本都帶有一個(gè)MPEG-1軟件解碼器,可攜式MPEG-1攝像機(jī)等等。68MPEG1曾經(jīng)是VCD的主要壓縮標(biāo)準(zhǔn),是目前實(shí)時(shí)視頻壓縮的主流,可適用于不同帶寬的設(shè)備,如CD-ROM、Video-CD、CD-I。與M-JPEG技術(shù)相比較,在實(shí)時(shí)壓縮、每幀數(shù)據(jù)量、處理速度上均有顯著的提高。MPEG1可以滿足多達(dá)16路以上25幀/秒的壓縮速度,在500kbit/s的壓縮碼流和352像素×288行的清晰度下,每幀大小僅為2k。若從VCD到超級VCD到DVD的不同格式來看,MPEG1的352×288格式,MPEG2可有576×352、704×576等,用于CDROM上存儲(chǔ)同步和彩色運(yùn)動(dòng)標(biāo)視頻信號,旨在達(dá)到VCR(模擬式磁帶錄放機(jī)VideoCassetteRecorder;VCR)質(zhì)量,其視頻壓縮率為26:1。69MPEG1可使圖像在空間軸上最多壓縮1/38,在時(shí)間軸上對相對變化較小的數(shù)據(jù)最多壓縮1/5。MPEG1壓縮后的數(shù)據(jù)傳輸率為1.5Mbps,壓縮后的源輸入格式SIF(SourceInputFormat),分辨率為352像素×288行(PAL制),亮度信號的分辨率為360×240,色度信號的分辨率為180×120,每秒30幀。MPEG1對色差分量采用4:1:1的二次采樣率。MPEG1、MPEG2是傳送一張張不同動(dòng)作的局部畫面。在實(shí)現(xiàn)方式上,MPEG1可以借助于現(xiàn)有的解碼芯片來完成,而不像M-JPEG那樣過多依賴于主機(jī)的CPU。與軟件壓縮相比,硬件壓縮可以節(jié)省計(jì)算機(jī)資源,降低系統(tǒng)成本。70但也存在著諸多不足:一、壓縮比還不夠大,在多路監(jiān)控情況下,錄像所要求的磁盤空間過大。尤其當(dāng)DVR主機(jī)超過8路時(shí),為了保存一個(gè)月的存儲(chǔ)量,通常需要10個(gè)80G硬盤,或更多,硬盤投資大,而由此引起的硬盤故障和維護(hù)更是叫人頭疼。二、是圖像清晰度還不夠高。由于MPEG1最大清晰度僅為352X288,考慮到容量、模擬數(shù)字量化損失等其它因素,回放清晰度不高,這也是市場反應(yīng)的主要問題。三、是對傳輸圖像的帶寬有一定的要求,不適合網(wǎng)絡(luò)傳輸,尤其是在常用的低帶寬網(wǎng)絡(luò)上無法實(shí)現(xiàn)遠(yuǎn)程多路視頻傳送。四、是MPEG1的錄像幀數(shù)固定為每秒25幀,不能丟幀錄像,使用靈活性較差。從目前廣泛采用的壓縮芯片來看,也缺乏有效的調(diào)控手段,例如關(guān)鍵幀設(shè)定、取樣區(qū)域設(shè)定等等,造成在保安監(jiān)控領(lǐng)域應(yīng)用不適合,造價(jià)也高。71MPEG-2標(biāo)準(zhǔn)及其應(yīng)用MPEG-2制定于1994年,設(shè)計(jì)目標(biāo)是高級工業(yè)標(biāo)準(zhǔn)的圖象質(zhì)量以及更高的傳輸率。MPEG-2所能提供的傳輸率在3-10Mbits/sec間,其在NTSC制式下的分辨率可達(dá)720X486,MPEG-2也可提供并能夠提供廣播級的視像和CD級的音質(zhì)。MPEG-2的音頻編碼可提供左右中及兩個(gè)環(huán)繞聲道,以及一個(gè)加重低音聲道,和多達(dá)7個(gè)伴音聲道(DVD可有8種語言配音的原因)。由于MPEG-2在設(shè)計(jì)時(shí)的巧妙處理,使得大多數(shù)MPEG-2解碼器也可播放MPEG-1格式的數(shù)據(jù),如VCD。72MPEG-2圖像壓縮的原理是利用了圖像中的兩種特性:空間相關(guān)性和時(shí)間相關(guān)性。一幀圖像內(nèi)的任何一個(gè)場景都是由若干像素點(diǎn)構(gòu)成的,因此一個(gè)像素通常與它周圍的某些像素在亮度和色度上存在一定的關(guān)系,這種關(guān)系叫作空間相關(guān)性;一個(gè)節(jié)目中的一個(gè)情節(jié)常常由若干幀連續(xù)圖像組成的圖像序列構(gòu)成,一個(gè)圖像序列中前后幀圖像間也存在一定的關(guān)系,這種關(guān)系叫作時(shí)間相關(guān)性。這兩種相關(guān)性使得圖像中存在大量的冗余信息。如果我們能將這些冗余信息去除,只保留少量非相關(guān)信息進(jìn)行傳輸,就可以大大節(jié)省傳輸頻帶。而接收機(jī)利用這些非相關(guān)信息,按照一定的解碼算法,可以在保證一定的圖像質(zhì)量的前提下恢復(fù)原始圖像。一個(gè)好的壓縮編碼方案就是能夠最大限度地去除圖像中的冗余信息。73MPEG-2的編碼圖像被分為三類,分別稱為I幀,P幀和B幀。
I幀圖像采用幀內(nèi)編碼方式,即只利用了單幀圖像內(nèi)的空間相關(guān)性,而沒有利用時(shí)間相關(guān)性。I幀使用幀內(nèi)壓縮,不使用運(yùn)動(dòng)補(bǔ)償,由于I幀不依賴其它幀,所以是隨機(jī)存取的入點(diǎn),同時(shí)是解碼的基準(zhǔn)幀。I幀主要用于接收機(jī)的初始化和信道的獲取,以及節(jié)目的切換和插入,I幀圖像的壓縮倍數(shù)相對較低。I幀圖像是周期性出現(xiàn)在圖像序列中的,出現(xiàn)頻率可由編碼器選擇。
P幀和B幀圖像采用幀間編碼方式,即同時(shí)利用了空間和時(shí)間上的相關(guān)性。P幀圖像只采用前向時(shí)間預(yù)測,可以提高壓縮效率和圖像質(zhì)量。P幀圖像中可以包含幀內(nèi)編碼的部分,即P幀中的每一個(gè)宏塊可以是前向預(yù)測,也可以是幀內(nèi)編碼。B幀圖像采用雙向時(shí)間預(yù)測,可以大大提高壓縮倍數(shù)。值得注意的是,由于B幀圖像采用了未來幀作為參考,因此MPEG-2編碼碼流中圖像幀的傳輸順序和顯示順序是不同的。74MPEG-2的編碼碼流分為六個(gè)層次。為更好地表示編碼數(shù)據(jù),MPEG-2用句法規(guī)定了一個(gè)層次性結(jié)構(gòu)。它分為六層,自上到下分別是:圖像序列層、圖像組(GOP)、圖像、宏塊條、宏塊、塊。MPEG-2標(biāo)準(zhǔn)的主要應(yīng)用如下:
1、視音頻資料的保存
2、非線性編輯系統(tǒng)及非線性編輯網(wǎng)絡(luò)
3、衛(wèi)星傳輸
4、電視節(jié)目的播出75同時(shí),由于MPEG-2的出色性能表現(xiàn),已能適用于HDTV,使得原打算為HDTV設(shè)計(jì)的MPEG-3,還沒出世就被拋棄了。(MPEG-3要求傳輸速率在20Mbits/sev-40Mbits/sec間,但這將使畫面有輕度扭曲)。而現(xiàn)在網(wǎng)絡(luò)上大行其道的數(shù)字音樂格式MP3并不是MPEG3,而是MPEG1的第三層(MPEG1Layer3)。除了作為DVD的指定標(biāo)準(zhǔn)外,MPEG-2還可用于為廣播,有線電視網(wǎng),電纜網(wǎng)絡(luò)以及衛(wèi)星直播(DirectBroadcastSatellite)提供廣播級的數(shù)字視頻。76從技術(shù)層面講,MP4使用的是MPEG-2AAC技術(shù),也就是簡稱為A2B或AAC的技術(shù)。它的特點(diǎn)是音質(zhì)更加完美而壓縮比更大(15:1-20:1)。MPEG-2AAC在采樣頻率為8~96KHz時(shí)可提供1~48個(gè)聲道可選范圍的高質(zhì)量音頻編碼。AAC就是AdvancedAudioCoding(先進(jìn)音頻編碼)的縮寫,它適用于從比特率為8kbps單聲道的電話語音音質(zhì)到160kbps多聲道超高質(zhì)量音頻信號范圍內(nèi)的編碼,并且允許對多媒體進(jìn)行編碼/解碼。它增加了諸如對立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪等MP3沒有的特性,使得在音頻壓縮后仍能完美的再現(xiàn)CD的音質(zhì)。77MPEG-2的另一特點(diǎn)是,其可提供一個(gè)較廣的范圍改變壓縮比,以適應(yīng)不同畫面質(zhì)量,存儲(chǔ)容量,以及帶寬的要求。
對于最終用戶來說,由于現(xiàn)存電視機(jī)分辨率限制,MPEG-2所帶來的高清晰度畫面質(zhì)量(如DVD畫面)在電視上效果并不明顯,倒是其音頻特性(如加重低音,多伴音聲道等)更引人注目。
MPEG2是DVD的壓縮標(biāo)準(zhǔn),對每秒30幀的720×576分辨率的視頻信號進(jìn)行壓縮,適用于計(jì)算機(jī)顯示質(zhì)量的圖像,壓縮后的數(shù)據(jù)率為6Mbps,它將視頻節(jié)目中的視頻、音頻、數(shù)據(jù)內(nèi)容等組成部分復(fù)合成單一的比特流,以便在網(wǎng)上傳送或者在存儲(chǔ)設(shè)備中存放的壓縮。在DVR產(chǎn)品中只有少量采用MPEG2壓縮標(biāo)準(zhǔn)。78MPEG-4標(biāo)準(zhǔn)及其應(yīng)用
運(yùn)動(dòng)圖像專家組MPEG于1999年2月正式公布了MPEG-4(ISO/IEC14496)標(biāo)準(zhǔn)第一版本。同年年底MPEG-4第二版亦告底定,且于2000年年初正式成為國際標(biāo)準(zhǔn)。
MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮算法,它是針對數(shù)字電視、交互式繪圖應(yīng)用(影音合成內(nèi)容)、交互式多媒體(WWW、資料擷取與分散)等整合及壓縮技術(shù)的需求而制定的國際標(biāo)準(zhǔn)。MPEG-4標(biāo)準(zhǔn)將眾多的多媒體應(yīng)用集成于一個(gè)完整的框架內(nèi),旨在為多媒體通信及應(yīng)用環(huán)境提供標(biāo)準(zhǔn)的算法及工具,從而建立起一種能被多媒體傳輸、存儲(chǔ)、檢索等應(yīng)用領(lǐng)域普遍采用的統(tǒng)一數(shù)據(jù)格式。79MPEG-4的編碼理念是:MPEG-4標(biāo)準(zhǔn)同以前標(biāo)準(zhǔn)的最顯著的差別在于它是采用基于對象的編碼理念,即在編碼時(shí)將一幅景物分成若干在時(shí)間和空間上相互聯(lián)系的視頻音頻對象,分別編碼后,再經(jīng)過復(fù)用傳輸?shù)浇邮斩?,然后再對不同的對象分別解碼,從而組合成所需要的視頻和音頻。這樣既方便我們對不同的對象采用不同的編碼方法和表示方法,又有利于不同數(shù)據(jù)類型間的融合,并且這樣也可以方便的實(shí)現(xiàn)對于各種對象的操作及編輯。例如,我們可以將一個(gè)卡通人物放在真實(shí)的場景中,或者將真人置于一個(gè)虛擬的演播室里,還可以在互聯(lián)網(wǎng)上方便的實(shí)現(xiàn)交互,根據(jù)自己的需要有選擇的組合各種視頻音頻以及圖形文本對象。
MPEG-4系統(tǒng)的一般框架是:對自然或合成的視聽內(nèi)容的表示;對視聽內(nèi)容數(shù)據(jù)流的管理,如多點(diǎn)、同步、緩沖管理等;對靈活性的支持和對系統(tǒng)不同部分的配置。80與MPEG-1、MPEG-2相比,MPEG-4具有如下獨(dú)特的優(yōu)點(diǎn):
(1)基于內(nèi)容的交互性
MPEG-4提供了基于內(nèi)容的多媒體數(shù)據(jù)訪問工具,如索引、超級鏈接、上下載、刪除等。利用這些工具,用戶可以方便地從多媒體數(shù)據(jù)庫中有選擇地獲取自己所需的與對象有關(guān)的內(nèi)容,并提供了內(nèi)容的操作和位流編輯功能,可應(yīng)用于交互式家庭購物,淡入淡出的數(shù)字化效果等。MPEG-4提供了高效的自然或合成的多媒體數(shù)據(jù)編碼方法。它可以把自然場景或?qū)ο蠼M合起來成為合成的多媒體數(shù)據(jù)。
(2)高效的壓縮性
MPEG-4基于更高的編碼效率。同已有的或即將形成的其它標(biāo)準(zhǔn)相比,在相同的比特率下,它基于更高的視覺聽覺質(zhì)量,這就使得在低帶寬的信道上傳送視頻、音頻成為可能。同時(shí)MPEG-4還能對同時(shí)發(fā)生的數(shù)據(jù)流進(jìn)行編碼。一個(gè)場景的多視角或多聲道數(shù)據(jù)流可以高效、同步地合成為最終數(shù)據(jù)流。這可用于虛擬三維游戲、三維電影、飛行仿真練習(xí)等。81(3)通用的訪問性
MPEG-4提供了易出錯(cuò)環(huán)境的魯棒性(所謂“魯棒性”,是指控制系統(tǒng)在一定(結(jié)構(gòu),大?。┑膮?shù)攝動(dòng)下,維持某些性能的特性),來保證其在許多無線和有線網(wǎng)絡(luò)以及存儲(chǔ)介質(zhì)中的應(yīng)用,此外,MPEG-4還支持基于內(nèi)容的的可分級性,即把內(nèi)容、質(zhì)量、復(fù)雜性分成許多小塊來滿足不同用戶的不同需求,支持具有不同帶寬,不同存儲(chǔ)容量的傳輸信道和接收端。
這些特點(diǎn)無疑會(huì)加速多媒體應(yīng)用的發(fā)展,從中受益的應(yīng)用領(lǐng)域有:因特網(wǎng)多媒體應(yīng)用;廣播電視;交互式視頻游戲;實(shí)時(shí)可視通信;交互式存儲(chǔ)媒體應(yīng)用;演播室技術(shù)及電視后期制作;采用面部動(dòng)畫技術(shù)的虛擬會(huì)議;多媒體郵件;移動(dòng)通信條件下的多媒體應(yīng)用;遠(yuǎn)程視頻監(jiān)控;通過ATM網(wǎng)絡(luò)等進(jìn)行的遠(yuǎn)程數(shù)據(jù)庫業(yè)務(wù)等。82MPEG-4主要應(yīng)用如下:
1、應(yīng)用于因特網(wǎng)視音頻廣播
2、應(yīng)用于無線通信
3、應(yīng)用于靜止圖像壓縮
4、應(yīng)用于電視電話
5、應(yīng)用于計(jì)算機(jī)圖形、動(dòng)畫與仿真
6、應(yīng)用于電子游戲
83MPEG-7標(biāo)準(zhǔn)及其應(yīng)用MPEG-7標(biāo)準(zhǔn)被稱為“多媒體內(nèi)容描述接口”,為各類多媒體信息提供一種標(biāo)準(zhǔn)化的描述,這種描述將與內(nèi)容本身有關(guān),允許快速和有效的查詢用戶感興趣的資料。它將擴(kuò)展現(xiàn)有內(nèi)容識別專用解決方案的有限的能力,特別是它還包括了更多的數(shù)據(jù)類型。換而言之,MPEG-7規(guī)定一個(gè)用于描述各種不同類型多媒體信息的描述符的標(biāo)準(zhǔn)集合。該標(biāo)準(zhǔn)于1998年10月提出,于2001年最終完成并公布。
MPEG-7的目標(biāo)是支持多種音頻和視覺的描述,包括自由文本、N維時(shí)空結(jié)構(gòu)、統(tǒng)計(jì)信息、客觀屬性、主觀屬性、生產(chǎn)屬性和組合信息。對于視覺信息,描述將包括顏色、視覺對象、紋理、草圖、形狀、體積、空間關(guān)系、運(yùn)動(dòng)及變形等。84MPEG-7的目標(biāo)是根據(jù)信息的抽象層次,提供一種描述多媒體材料的方法以便表示不同層次上的用戶對信息的需求。以視覺內(nèi)容為例,較低抽象層將包括形狀、尺寸、紋理、顏色、運(yùn)動(dòng)(軌道)和位置的描述。對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 跨境電商獨(dú)立站服務(wù)器安裝協(xié)議2025
- 初級應(yīng)急救護(hù)考試試題及答案
- 2025-2026人教版小學(xué)三年級音樂上學(xué)期期末測試卷
- 融資融券開戶試題及答案
- 2025-2026人教版二年級語文期末測試卷
- 2025-2026七年級上學(xué)期道德與法治測試
- 面包店衛(wèi)生系統(tǒng)管理制度
- 小學(xué)衛(wèi)生院規(guī)章制度
- 某機(jī)關(guān)衛(wèi)生管理制度
- 環(huán)境衛(wèi)生管理制度及流程
- 《筑牢安全防線 歡度平安寒假》2026年寒假安全教育主題班會(huì)課件
- 2026國家國防科技工業(yè)局所屬事業(yè)單位第一批招聘62人備考題庫及答案詳解(新)
- 信息技術(shù)應(yīng)用創(chuàng)新軟件適配測評技術(shù)規(guī)范
- 2026版安全隱患排查治理
- 道路施工安全管理課件
- 肉瘤的課件教學(xué)課件
- VTE患者并發(fā)癥預(yù)防與處理
- 車輛救援合同協(xié)議書
- 貴州省遵義市匯川區(qū)2024-2025學(xué)年八年級上學(xué)期12月期末數(shù)學(xué)試題
- UWB定位是什么協(xié)議書
- 第三終端藥品銷售技巧
評論
0/150
提交評論