第六章-視頻縮編碼標準及編碼技術_第1頁
第六章-視頻縮編碼標準及編碼技術_第2頁
第六章-視頻縮編碼標準及編碼技術_第3頁
第六章-視頻縮編碼標準及編碼技術_第4頁
第六章-視頻縮編碼標準及編碼技術_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

主要內(nèi)容6.1視頻壓縮標準6.2視頻壓縮標準比照6.3MPEG視頻編碼標準算法6.4MPEG音頻編碼標準算法6.5H.26X系列壓縮標準簡介多媒體信息技術20216.1視頻編碼標準〔1〕多媒體信息技術20216.1視頻編碼標準〔2〕H標準H.261H.262H.263H.264對應MPEG標準~MPEG-1=MPEG-2~MPEG-4=MPEG-4/AVC發(fā)布時間1993.31995.71998.22003.5主要應用可視電話與視頻會議HDTV與DVD網(wǎng)絡與移動視頻DTV、網(wǎng)絡與移動視頻、藍光盤多媒體信息技術2021視頻壓縮標準開展歷史ITU:ISO/IEC:H.261H.262H.263H.263+H.264MPEG1MPEG2MPEG4(Part2)MPEG7MPEG21MPEG4(Part10)多媒體信息技術20216.1.1MPEG視頻編碼標準〔1〕多媒體信息技術2021MPEG-1標準

MPEG-1即“用于數(shù)字存儲媒體運動圖像及其伴音速率為1.5Mbps的壓縮編碼〞,于1992年正式出版。MPEG-1的任務主要是,將視頻信號及其伴音以可接收的重建質量壓縮到約1.5Mbps的碼率,并復合成一個單一的MPEG位流,同時保證視頻和音頻的同步。MPEG-1是VCD視頻的壓縮標準。多媒體信息技術2021MPEG-1標準分4個局部①MPEG系統(tǒng):定義音頻、視頻及有關數(shù)據(jù)的同步;②MPEG視頻:定義視頻數(shù)據(jù)的編碼和重建圖像所需的解碼過程,亮度信號分辨率為360×240,色度信號分辨率為180×120;③MPEG音頻:定義音頻數(shù)據(jù)的編碼和解碼;④一致性測試。多媒體信息技術2021MPEG-2標準MPEG-2標準于1994年公布,包括系統(tǒng)局部、視頻局部、音頻局部及符合性測試局部。MPEG-2編碼標準希望囊括數(shù)字電視、圖象通信各領域的編碼標準,MPEG-2按壓縮比大小的不同分成五個檔次(profile),每一個檔次又按圖象清晰度的不同分成四種圖象格式,或稱為級別(level)。五個檔次四種級別共有20種組合,但實際應用中有些組合不太可能出現(xiàn),較常用的是11種組合。MPEG-2是DVD視頻的壓縮標準。MPEG-2增加了許多MPEG-1所沒有的功能:例如增加了隔行掃描電視的編碼,提供了位速率的可變性能(scalability)功能。MPEG-2要到達的最根本目標是:位速率為4~9Mbit/s,最高達15Mbit/s。多媒體信息技術2021MPEG-4標準多媒體信息技術2021MPEG-7標準MPEG-7是“多媒體內(nèi)容描述接口〞,(MultimediaContentDescriptionInterface)。準確說來,MPEG-7并不是一種壓縮編碼方法,繼MPEG-4之后,要解決的矛盾就是對日漸龐大的圖像、聲音信息的管理和迅速搜索。MPEG7就是針對這個矛盾的解決方案。其目標就是產(chǎn)生一種描述多媒體信息的標準,并將該描述與所描述的內(nèi)容相聯(lián)系,以實現(xiàn)快速有效的檢索。只有首先解決了多媒體信息的標準化描述后,才能更好地實現(xiàn)信息定位。該標準不包括對描述特征的自動提取。多媒體信息技術2021MPEG-7標準檢索的媒體材料可包括靜態(tài)圖像、圖形、3D模型、聲音、話音、電視以及在多媒體演示中它們之間的組合關系。在某些情況下,數(shù)據(jù)類型還可包括面部特性和個人特性的表達。

MPEG-7標準可以獨立于其他MPEG標準使用,MPEG-7的適用范圍廣泛,既可以應用于存儲,也可以用于流式應用,它還可以在實時或非實時的環(huán)境下應用。多媒體信息技術2021MPEG-21標準多媒體信息技術20216.1.1MPEG視頻編碼標準〔2〕種類功能編碼格式MPEG-1低分辨率數(shù)字視頻編碼標準(數(shù)字存儲的運動圖象及伴音:VCD,MP3、視頻監(jiān)控等)DCT+視覺加權量化+熵編碼+運動補償+幀間預測CIF:25或30幀/秒,288行×360列或240行×352列、8位量化,低于1.5Mb/sMPEG-2高分辨率數(shù)字視頻編碼標準(運動圖象及伴音:DVD、HDTV似MPEG-1低:352×288×29.79、主:720×480或576×29.79或25、高-1440:1440×1080或1152×30或25。1.5~35Mb/sMPEG-4分辨率可變的視聽對象編碼(標準音視頻對象,Internet,交互視頻專業(yè)視頻,移動通信視音頻對象、分塊/分級/分層、基于內(nèi)容和對象的編碼支持各種不同的分辨率,8Kb/s~35Mb/sMPEG-7多媒體內(nèi)容描述標準(為各種類型的多媒體信息規(guī)定一種標準化的描述方法:基于內(nèi)容的多媒體信息檢索,并針對某種特殊的應用,支持盡可能廣泛的應用)MPEG-21多媒體框架標準(不同多媒體系統(tǒng)的集成和應用)多媒體信息技術20216.1.1MPEG視頻編碼標準〔3〕分塊MPEG-1視頻編碼器框架多媒體信息技術20216.1.2H.26x系列標準及其應用〔1〕多媒體信息技術20216.1.2H.26x系列標準及其應用〔2〕H.262——運動圖像和伴音信息的通用編碼(Informationtechnology-Genericcodingofmovingpicturesandassociatedaudioinformation:Video)。ITU-T于1990年成立了“ATM視頻編碼專家組〞,負責制定適用于B-ISDN信道ATM編碼傳輸標準。該專家組于1993年11月與ISO的MPEG專家組聯(lián)合提出了H.262建議草案〔MPEG-2〕,用于數(shù)字存儲介質和數(shù)字視頻通信中圖像信息的編碼表示和解碼規(guī)定。該標準向下兼容,能夠在很寬的范圍內(nèi)對不同分辨率和不同輸出比特的圖像信號有效的進行壓縮。1995年7月通過,與MPEG-2共同作為ISO/IEC13818標準〔HDTV、DVD〕格式:低—352×288主—720×480或576高-1440—1440×1080或1152高—1920×1080或115225或29.97幀/秒編碼:同H.261多媒體信息技術20216.1.2H.26x系列標準及其應用〔3〕多媒體信息技術20216.1.2H.26x系列標準及其應用〔4〕多媒體信息技術20216.1.2H.26x系列標準及其應用〔5〕多媒體信息技術20216.1.2H.26x系列標準及其應用〔6〕MPEG標準主要用于光存儲、播送和流媒體,H.26x標準主要用于網(wǎng)絡和通信。除了視頻編碼標準本身之外,H.26x還有配套的系統(tǒng)、音頻、控制等相關標準。類別系統(tǒng)視頻音頻混合控制數(shù)據(jù)舊標準H.320H.261G.723H.221H.241無新標準H.324H.263G.723.1H.223H.246T.120多媒體信息技術2021視頻壓縮標準比照H.261p×64kb/s視頻編碼標準

時間1990年12月輸入176×144(QCIF)352×288(CIF)幀速率可變<=30輸出p×64kb/s(p=1,2,…,32)壓縮率20~30小于MPEG1壓縮算法運動補償幀間預測與分塊DCT相結合的混合編碼應用可視電話、視頻會議等對稱應用多媒體信息技術20216.2視頻壓縮標準比照〔1〕MPEG1數(shù)據(jù)傳輸速率為1.5Mb/s的數(shù)字存儲媒體運動圖像及其伴音編碼標準時間1993年8月輸入視頻:352×240×30,352×288×25音頻:32、44.1、48kHz的線性PCM輸出1.5Mb/s、32-384Kb/s(音頻)壓縮率20~30壓縮算法運動補償幀間預測(單向預測+雙向預測)+DCT應用VCD、MP3、局域網(wǎng)視頻傳輸多媒體信息技術20216.2視頻壓縮標準比照〔2〕MPEG2H.262運動圖像及其伴音通用編碼標準

時間1994年11月輸入352×288~1920×1152采用頻率為16、22.05、24、32、44.1、48kHz的線性PCM、支持5.1聲道

輸出1.5-80Mb/s、8-640Kb/s(音頻)壓縮率30-40壓縮算法運動補償幀間預測(單雙向預測)+DCT、可伸縮性、前向兼容應用DVD、DVB、HDTV多媒體信息技術20216.2視頻壓縮標準比照〔3〕H.263H.263+甚低碼率通信的視頻編碼標準時間1996年3月、1998年1月輸入QCIF、CIF、128×96(SubQCIF)、704×576(4CIF)、1408×1152(16CIF)輸出30kb/s~壓縮率H.263+>H.263>MPEG2壓縮算法運動補償幀間預測(單雙向預測)+DCT局部算法改進可伸縮性應用通用電話交換網(wǎng)、局域網(wǎng)的視頻通信多媒體信息技術20216.2視頻壓縮標準比照〔4〕MPEG4(Part2)MPEG4Visual甚低碼率活動圖像及其伴音編碼標準時間1999年輸入≧176×144的多種分辨率格式輸出4.6Kb/s~64Kb/s壓縮率≧100壓縮算法基于對象的新一代編碼技術,注重交互性,即可包含自然對象,又可包含人工合成對象應用可應用范圍很廣、目前多用于因特網(wǎng)視頻傳輸、流媒體應用多媒體信息技術20216.2視頻壓縮標準比照〔5〕H.264MPEG4(Part10)MPEG4AVC時間2003年5月輸入多種分辨率格式輸出壓縮率壓縮率最高的視頻壓縮標準,比MPEG4Visual節(jié)約50%的碼率壓縮算法基于傳統(tǒng)框架的混合編碼系統(tǒng),只是做了局部優(yōu)化。更注重編碼效率和可靠性應用視頻廣播、視頻通信和存儲媒體(CDDVD)等多種應用多媒體信息技術20216.3MPEG視頻編碼標準算法前面已經(jīng)介紹了視頻的數(shù)字化和MPEG與H系列的國際編碼標準,下面具體介紹MPEG-1/2和MPEG-4的視頻壓縮算法,以及它們的伴音編碼方法MPEG-1&2的視頻壓縮算法MPEG-4視頻編碼MPEG音頻編碼多媒體信息技術20216.3.1MPEG-1&2的視頻壓縮算法〔1〕視頻數(shù)據(jù)壓縮利用的各種特性和采用的方法歸納在下頁表中視頻本身在時間上和空間上都含有許多冗余信息、圖像自身的構造也有冗余性、利用人的視覺特性也可對圖像進行壓縮(視覺冗余)MPEG-Video圖像壓縮方法可以歸納成兩個要點:①在空間方向上,圖像數(shù)據(jù)壓縮采用JPEG壓縮算法來去掉冗余信息②在時間方向上,圖像數(shù)據(jù)壓縮采用運動補償(motioncompensation)算法來去掉冗余信息多媒體信息技術20216.3.1MPEG-1&2的視頻壓縮算法〔2〕視頻壓縮利用的各種冗余信息多媒體信息技術20216.3.1MPEG-1&2的視頻壓縮算法〔3〕MPEG定義的三種圖像為了在保證圖像質量根本不降低而又能夠獲得高的壓縮比,MPEG專家組定義了三種圖像:幀內(nèi)圖像I(intra),預測圖像P(predicted)和雙向預測圖像B(bidirectionallyinterpolated),典型的排列如以下圖所示這三種圖像將采用三種不同的算法進行壓縮一個內(nèi)幀是一個隨機訪問點。B圖像不能作為其它圖像的參考幀。多媒體信息技術2021幀內(nèi)圖像I的壓縮編碼算法幀內(nèi)圖像I不參照任何過去的或者將來的其他圖像幀,壓縮編碼采用類似JPEG的壓縮算法,框圖如下多媒體信息技術2021預測圖像P的壓縮編碼算法預測圖像需要過去的圖像幀來進行預測編碼預測圖像的編碼是以圖像宏塊(macroblock)為根本編碼單元,一個宏塊定義為I×J像素的圖像塊,一般取16×16預測圖像P使用兩種類型的參數(shù)來表示:一種參數(shù)是當前要編碼的圖像宏塊與參考圖像的宏塊之間的差值另一種參數(shù)是宏塊的移動矢量多媒體信息技術2021求解差值的方法假設編碼圖像宏塊MPI是參考圖像宏塊MRJ的最正確匹配塊,它們的差值就是這兩個宏塊中相應像素值之差對所求得的差值進行彩色空間轉換,并作4:1:1的子采樣得到Y,Cr和Cb分量值,然后仿照JPEG壓縮算法對差值進行編碼,計算出的移動矢量也要進行霍夫曼編碼多媒體信息技術2021預測圖像P的壓縮編碼算法框圖多媒體信息技術2021移動矢量的算法在求兩個宏塊差值之前,需要找出編碼圖像中的預測圖像編碼宏塊MPI相對于參考圖像中的參考宏塊MRJ所移動的距離和方向,這就是移動矢量(motionvector)多媒體信息技術2021雙向預測圖像B的壓縮編碼算法雙向預測圖像B的壓縮編碼框圖如以下圖所示具體計算方法與預測圖像P的算法類似多媒體信息技術2021視頻的結構MPEG編碼器算法允許選擇I圖像的頻率和位置。I圖像的頻率是指每秒鐘出現(xiàn)I圖像的次數(shù),位置是指時間方向上幀所在的位置。一般情況下,I圖像的頻率為2MPEG編碼器也允許在一對I圖像或者P圖像之間選擇B圖像的數(shù)目。I圖像、P圖像和B圖像數(shù)目的選擇依據(jù)主要是根據(jù)目的內(nèi)容例如,對于快速運動的圖像,I圖像的頻率可以選擇高一些,B圖像的數(shù)目可以選擇少一點;對于慢速運動的圖像,幀內(nèi)圖像I的頻率可以低一些,而B圖像的數(shù)目可以選擇多一點。此外,在實際應用中還要考慮媒體的速率多媒體信息技術2021MPEG電視幀編排一個典型的I、P、B圖像安排如以下圖所示編碼參數(shù)為:幀內(nèi)圖像I的距離為N=15預測圖像P的距離為M=3多媒體信息技術2021三種圖像的壓縮后的典型值I、P和B圖像壓縮后的大小如下表所示,單位為比特從表中可以看到,I幀圖像的數(shù)據(jù)量最大,而B幀圖像的數(shù)據(jù)量最小多媒體信息技術20216.3.2MPEG-4視頻編碼MPEG-4Video編碼算法支持由MPEG-1和MPEG-2提供的所有功能,包括對各種輸入格式下的標準矩形圖像、幀速率、位速率和隔行掃描圖像源的支持MPEG-4Video算法的核心是支持基于內(nèi)容(content-based)的編碼和解碼功能,也就是對場景中使用分割算法抽取的單獨的物理對象進行編碼和解碼MPEG-4Video還提供管理這些電視內(nèi)容的最根本方法多媒體信息技術2021一.視頻對象平面的概念為了實現(xiàn)預想的基于內(nèi)容交互等功能,MPEG-4Video引進了一個叫做“視頻對象平面(VideoObjectPlane,VOP)〞的概念。MPEG-4Video不像MPEG-1/-2Video那樣把視頻都認為是一個矩形區(qū),而是假設每幀圖像被分割成許多任意形狀的圖像區(qū),每個區(qū)都有可能覆蓋描述場景中感興趣的物理對象或者內(nèi)容,這種區(qū)被定義為視頻對象平面VOP。多媒體信息技術2021普通MPEG-4編碼器和MPEG-4VLBV核心編碼器上圖:MPEG-4核心編碼器以下圖:擴展MPEG-4核心編碼器多媒體信息技術2021視頻對象VO與視頻對象層VOL編碼器輸入的是任意形狀的圖像區(qū),圖像區(qū)的形狀和位置也可隨幀的變化而改變。屬于相同物理對象的連續(xù)的視頻對象平面(VOP)組成視頻對象(VideoObjects,VO)。如上圖中的沒有背景圖像的演講人MPEG-4可單獨對屬于相同視頻對象(VO)的視頻區(qū)(VOP)的形狀、移動(motion)和紋理(texture)信息進編碼和傳送,或者把它們編碼成一個單獨的視頻對象層(VideoObjectLayer,VOL)此外,需要標識每個視頻對象層(VOL)的信息也包含在編碼后的位流(bitstream)中,這些信息包括各種視頻對象層(VOL)的視頻在接收端應該如何進行組合,以便重構完整的原始圖像序列。這樣就可以對每個視頻對象平面(VOP)進行單獨解碼,提供了管理視頻序列的靈活性多媒體信息技術2021MPEG-4Video的編碼算法以下圖描繪了MPEG-4Video的編碼算法,用來對矩形和任意形狀的輸入圖像序列進行編碼這個根本編碼算法結構圖包含了移動矢量(motionvector)的編碼,以及以離散余弦變換為根底的紋理編碼MPEG-4采用基于內(nèi)容編碼方法的一個重要優(yōu)點是,使用適宜的和專門的基于對象的移動預測工具(object-basedmotionpredictiontools)可以明顯提高場景中某些視頻對象的壓縮效率多媒體信息技術2021MPEG-4Video編碼器的算法方框圖多媒體信息技術2021MPEG-4電視序列編碼舉例多媒體信息技術2021三.視頻分辨率可變編碼“視頻分辨率〞是指視頻的空間分辨率(一幀圖像的行列數(shù)之積的像素數(shù))和時間分辨率(每秒幀數(shù))設置視頻分辨率可變編碼功能的一個重要目的是為了能夠靈活支持性能不同(例如不同帶寬)的各種電視接收或顯示設備,或者支持要求瀏覽電視數(shù)據(jù)庫等方面的應用。另一個目的是提供分層次的視頻數(shù)據(jù)位流,這樣可按應用所要求的先后次序進行傳輸MPEG-2也有視頻分辨率可變編碼功能,但它是以圖像的幀為根底進行編碼。而MPEG-4視頻分辨率可變編碼是以任意形狀的視頻對象平面(VOP)為根底進行編碼多媒體信息技術2021對那些沒有能力或者不愿意接收高分辨率圖像的接收器,它可以接收分辨率比較低的視頻,降低空間分辨率或者時間分辨率意味降低圖像的質量空間和時間分辨率可變性(scalability)的實現(xiàn)方法類似以下圖描述了多尺度(multiscale)視頻編碼方案。該方案提供三個層次的編碼/解碼,每一層都支持在不同空間分辨率下進行編碼/解碼從圖中可以看到,多種空間分辨率的實現(xiàn)是通過降低輸入電視信號的采樣率來獲得的多媒體信息技術2021VOP空間分辨率可變編碼方法多媒體信息技術20216.4MPEG音頻編碼最些年來,人類在利用自身的聽覺系統(tǒng)的特性來壓縮聲音數(shù)據(jù)方面取得了很大的進展,先后制定了MPEG-1Audio,MPEG-2Audio和MPEG-2AAC等標準對于要求深入鉆研的讀者,請參考有關文獻和網(wǎng)頁多媒體信息技術2021MPEG-1Audio音感編碼與前面所介紹的波形聲音壓縮編碼(如ADPCM)不同,其對聲音數(shù)據(jù)壓縮編碼不是依據(jù)波形本身的相關性和模擬人的發(fā)音器官的特性,而是利用人的聽覺系統(tǒng)的特性來到達壓縮聲音數(shù)據(jù)的目的,這種壓縮編碼稱為感知聲音編碼(perceptualaudiocoding),簡稱為音感編碼MPEG-1/2Audio和MPEG-2AAC等視頻伴音標準都采用了音感編碼現(xiàn)在十分流行的MP3采用的就是MPEG-1AudioLayerIII編碼。多媒體信息技術2021感知與編碼多媒體信息技術2021感知子帶編碼的簡化算法框圖多媒體信息技術2021DolbyAC-3壓縮編碼算法框圖多媒體信息技術2021MPEG-1Audio編碼MPEG-1Audio的編碼對象是20~20000Hz的寬帶聲音,采用的是感知子帶編碼。具體思想是:先把時域中的聲音數(shù)據(jù)變換到頻域,再對頻域內(nèi)的子帶分量分別進行量化和編碼,然后根據(jù)心理聲學模型確定樣本的精度,從而到達壓縮數(shù)據(jù)量的目的為了使量化所帶來的失真對于人耳來說是感覺不到,在MPEG標準的制定過程中,作了大量的主觀測試實驗。實驗說明,采樣頻率為48kHz、樣本精度為16位的立體聲音數(shù)據(jù)壓縮到256kb/s時,即在6:1的壓縮率下,即使是專業(yè)測試員也很難分辨出是原始聲音還是編碼壓縮后的聲音多媒體信息技術2021MPEG-1Audio壓縮算法MPEG

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論