第七章多媒體數(shù)據(jù)壓縮及音視頻處理技術(shù)

上傳人：5*** IP屬地：湖北上傳時間：2022-01-12 格式：DOCX 頁數(shù)：37 大小：4.74MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第七章多媒體數(shù)據(jù)壓縮和音視頻處理技術(shù)7.3多媒體數(shù)據(jù)壓縮編碼技術(shù)17.3.1 概述17.3.2 數(shù)據(jù)壓縮的理論及主要技術(shù)27.3.3 靜態(tài)圖像壓縮編碼標(biāo)準(zhǔn)JPEG47.3.4 運動圖像（視頻）壓縮編碼標(biāo)準(zhǔn)MPEG77.3.5 常見圖像壓縮格式評價117.4 多媒體音頻/視頻數(shù)據(jù)的處理157.4.1數(shù)字音頻的編輯處理157.4.2.數(shù)字視頻制作和處理247.6常用多媒體工具軟件347.6.1圖像圖形制作和圖像瀏覽工具347.6.2音視頻播放工具367.3多媒體數(shù)據(jù)壓縮編碼技術(shù)7.3.1 概述多媒體技術(shù)的出現(xiàn)大大的改善了人們傳遞信息的方式，使得信息能夠以人類更容易接受和學(xué)習(xí)的方式進(jìn)行傳遞，增強信

2、息傳遞的效率。但是同時由于多媒體數(shù)據(jù)中蘊含了多種媒體的信息（通常表現(xiàn)為大量數(shù)字化了的聲音、圖片和視頻信息等），需要傳遞或者處理的數(shù)據(jù)量非常大。舉例來說，假設(shè)有一幀分辨率為800 600的24位真彩色數(shù)字圖像，如果沒有經(jīng)過壓縮處理，則其存儲數(shù)據(jù)量約為每幀11.52Mb（這里只計算了純數(shù)據(jù)的容量，實際中會有一些控制數(shù)據(jù)會產(chǎn)生額外開銷）。如果把這樣的圖片制作成動畫來顯示，按照每秒24幀的動態(tài)顯示要求，每秒所需傳輸和處理的數(shù)據(jù)量為276.48Mb，這樣的傳輸速率當(dāng)前大多數(shù)網(wǎng)絡(luò)環(huán)境都很難勝任。如果再加上聲音數(shù)據(jù)，需要傳輸和處理的數(shù)據(jù)量將會變得更大。如果不進(jìn)行處理，現(xiàn)有多數(shù)的計算機系統(tǒng)和網(wǎng)絡(luò)環(huán)境要實現(xiàn)動畫

3、和聲音多媒體數(shù)據(jù)的實時傳輸就比較困難。為了節(jié)約數(shù)據(jù)的存儲空間，獲得連貫的高質(zhì)量視頻播放效果和聽覺效果，實現(xiàn)多媒體數(shù)據(jù)的實時交換，除了不斷提高計算機本身的性能及通信信道的帶寬外，目前更有效的的方法是對多媒體數(shù)據(jù)進(jìn)行有效的壓縮。由于可以幫助減少如硬盤空間與連接帶寬這樣的昂貴資源的消耗，所以壓縮非常重要，然而壓縮需要消耗信息處理資源，這也可能是非常昂貴的。所以數(shù)據(jù)壓縮機制的設(shè)計需要在壓縮能力、失真度、所需計算資源以及其它需要考慮的不同因素之間進(jìn)行折中。多媒體數(shù)據(jù)特別適合壓縮，這個是由多媒體數(shù)據(jù)的特點和應(yīng)用對象決定的。多媒體數(shù)據(jù)的特點是整體上數(shù)據(jù)的冗余度很大，這就決定了多媒體可以被大幅度壓縮。例如，一

4、幅風(fēng)景圖像中的背景是藍(lán)天和綠地，而這部分?jǐn)?shù)據(jù)中許多像素值是相同的，如果逐點存儲就會浪費許多空間，這種冗余方式稱為空間冗余。又例如，在電視和動畫的相鄰序列中，只有運動物體有少許變化，僅存儲差異部分即可，這稱為時間冗余。此外還有結(jié)構(gòu)冗余、視覺冗余等，這些都為多媒體數(shù)據(jù)的壓縮提供了條件。另一方面，多媒體數(shù)據(jù)的最終應(yīng)用對象是人，即要把數(shù)據(jù)以視聽的方式呈現(xiàn)給人，實現(xiàn)人機信息交流，而我們?nèi)祟惥哂心：R別的能力，這便意味著即使在壓縮過程中損失了一些細(xì)節(jié)數(shù)據(jù)（一定程度上），將不會影響人類從多媒體數(shù)據(jù)中獲取信息。因此，采用合適的壓縮技術(shù)，可以對多媒體數(shù)據(jù)的數(shù)據(jù)量進(jìn)行大幅度壓縮而基本不影響人們從多媒體數(shù)據(jù)中獲取信

5、息。數(shù)據(jù)壓縮的定義是在不丟失信息的前提下，縮減數(shù)據(jù)量以減少存儲空間，提高其傳輸、存儲和處理效率的一種技術(shù)方法。或按照一定的算法對數(shù)據(jù)進(jìn)行重新組織，減少數(shù)據(jù)的冗余和存儲的空間。下面對壓縮理論和數(shù)據(jù)壓縮技術(shù)做簡要介紹。 7.3.2 數(shù)據(jù)壓縮的理論及主要技術(shù)數(shù)據(jù)壓縮的主要理論基礎(chǔ)是信息論，這個領(lǐng)域的研究工作是由信息論的創(chuàng)始人克勞德艾爾伍德香農(nóng)（Claude Elwood Shannon拓展閱讀：/wiki/Claude_Shannon）奠定的，他在二十世紀(jì)40年代末期到50年代早期發(fā)表了這方面的基礎(chǔ)性的論文。另外密碼學(xué)、統(tǒng)計學(xué)和編碼理論也是和數(shù)據(jù)壓縮關(guān)系密

6、切的學(xué)科。從數(shù)學(xué)上講，可以將壓縮看做是一種變換。具體操作時，數(shù)據(jù)的壓縮實際上是一個編碼過程，即把原始的數(shù)據(jù)進(jìn)行編碼壓縮。數(shù)據(jù)的解壓縮是數(shù)據(jù)壓縮的逆過程，即把壓縮的編碼還原為原始數(shù)據(jù)。因此數(shù)據(jù)壓縮方法也稱為編碼方法。隨著基礎(chǔ)學(xué)科理論的不斷發(fā)展，目前數(shù)據(jù)壓縮技術(shù)也日新月異，適應(yīng)各種應(yīng)用場合的編碼方法不斷產(chǎn)生。針對多媒體數(shù)據(jù)冗余類型的不同，相應(yīng)地有不同的壓縮方法。根據(jù)解碼后數(shù)據(jù)與原始數(shù)據(jù)是否完全一致可將壓縮方法分為無損壓縮算法（lossy compression）和有損壓縮算法（lossness compression）兩大類。無損壓縮算法是指去掉或減少數(shù)據(jù)中的冗余，但這些冗余值是可以重新插入到數(shù)據(jù)

7、中的，因此冗余壓縮是可逆的過程。例如在一幅圖像中，有一部分?jǐn)?shù)據(jù)排列為“藍(lán)色的點，藍(lán)色的點藍(lán)色的點”共計300個，壓縮后的圖像可以記錄為“300個藍(lán)色的點”，這樣就節(jié)省了大量的存儲空間。在多媒體技術(shù)中，無損壓縮經(jīng)常用于一般文本、數(shù)據(jù)的壓縮，它能保證百分之百地恢復(fù)原始數(shù)據(jù)。但這種方法壓縮比較低。統(tǒng)計編碼就是一種無失真編碼。它是根據(jù)信息出現(xiàn)概率的分布而進(jìn)行的壓縮編碼。編碼時某種比特或字節(jié)模式的出現(xiàn)概率大，用較短的碼字表示；出現(xiàn)概率小，用較長的碼字表示。這樣，可以保證總的平均碼長最短。無損壓縮使用最廣泛的是LZ（ LempelZiv )壓縮算法。常用的無損壓縮算法基本都是從LZ壓縮算法演化而來，例如G

8、IF圖像中用到的LZW(Lenpel-Ziv & Welch)壓縮算法，PNG圖像中用到的 DEFLATE壓縮算法和Zip格式壓縮文件中用到的LZR(Lepel-Ziv-Renau)壓縮算法。無損壓縮常用的技術(shù)如下： RLE(Run-length encoding)被稱為行程長度編碼，是一種非常簡單的無損壓縮方法，這種方法使用數(shù)據(jù)及數(shù)據(jù)長度這樣簡單的編碼代替重復(fù)出現(xiàn)的連續(xù)數(shù)據(jù)。例如有一幅簡單圖像是白色背景上面有一些黑點，這樣就會有很多白點為重復(fù)數(shù)據(jù)。如果用W表示白色的點，用B來表示黑色的點，圖像中的一行就可以簡單表示如下： WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWW

9、WWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW對于這一行數(shù)據(jù)用RLE壓縮后變?yōu)椋?12W1B12W3B24W1B14WLempel-Ziv（LZ）壓縮方法是最流行的無損存儲算法之一。LZ 方法使用基于表格的壓縮模型，其中表格中的條目用重復(fù)的數(shù)據(jù)串替換。對于大多數(shù)的 LZ 方法來說，這個表格是從最初的輸入數(shù)據(jù)動態(tài)生成的。微軟公司的 CAB 格式采用的壓縮方式LZX就是基于LZ編碼機制的。DEFLATE是另外一種 LZ算法的變體，它針對解壓速度與壓縮率進(jìn)行了優(yōu)化，可以獲得比較高的壓縮率，但是有時候壓縮速度可能會比較緩慢， PNG格式圖像就使用的是 DEFLATE壓縮算法。LZW

10、（Lempel-Ziv-Welch）也是從LZ壓縮算法演化而來，這種方法用于 GIF 圖像。由于這個算法曾經(jīng)是 Unisys 公司的專利（2003年6月專利到期限），因此在很長一段時間內(nèi)影響了GIF圖像的應(yīng)用。另外還有Zip壓縮文件采用的 LZR (LZ-Renau) 方法。有損壓縮法是指在不影響人類理解的情況下，丟棄一些細(xì)節(jié)信息來獲得更高的壓縮比，這些丟棄的信息是不能再恢復(fù)的，因此這種壓縮法是不可逆的（即解壓后的數(shù)據(jù)和壓縮前的數(shù)據(jù)不完全一樣）。有損壓縮多用于由人的視覺或者聽覺對解壓縮后的數(shù)據(jù)進(jìn)行識別的場合。這些壓縮算法利用了人在識別信息時的一些生理特點。例如，人的視覺對于亮度的變化特別敏

11、感而對顏色的變化不敏感；人的耳朵能夠識別的聲波頻段范圍非常有限等。因此很多最終由人類的視覺系統(tǒng)和聽覺系統(tǒng)接收的圖像、音視頻數(shù)據(jù)就可以采用有損壓縮，在壓縮時可以丟掉一不敏感或者無法感知些數(shù)據(jù)，不會對數(shù)據(jù)所表達(dá)的意思產(chǎn)生誤解，但卻可以大大提高壓縮比。有損壓縮算法經(jīng)常需要處理的一個問題就是在壓縮解壓時間、保留信息量和減小數(shù)據(jù)存儲空間之間尋找一個折中。需要注意的是在某些特殊情況下，例如醫(yī)學(xué)診斷或者刑偵等場合，為了不遺漏任何信息細(xì)節(jié)，一般不采用有損壓縮算法。有損圖像壓縮技術(shù)應(yīng)用最廣泛的的是JEPG圖像壓縮技術(shù)，大量的用于數(shù)碼相機和互聯(lián)網(wǎng)上圖像，可以大幅度地提高了存儲能力，同時圖像質(zhì)量幾乎沒有降低。在有損

12、音頻壓縮中，經(jīng)常利用心理聲學(xué)的原理來去除信號中聽不見或者很難聽見的成分。人類語音的壓縮經(jīng)常使用更加專業(yè)的技術(shù)，因此人們有時也將“語音壓縮”或者“語音編碼”作為一個獨立的研究領(lǐng)域與“音頻壓縮”區(qū)分開來，其中語音壓縮比較常見的應(yīng)用是因特網(wǎng)電話。不同的音頻和語音壓縮標(biāo)準(zhǔn)都屬于音頻編解碼范疇。視頻壓縮技術(shù)中絕大多數(shù)都是有損壓縮，有損視頻壓縮的一個最常用技術(shù)就是可同時對音視頻數(shù)據(jù)進(jìn)行壓縮的MPEG-x系列技術(shù)。無論是無損壓縮還是有損壓縮，其壓縮算法是基于軟件的，也就是其需要一定的處理時間，因此在很多實時性要求比較高的環(huán)境中，會對硬件的性能提出一些要求從而保證其實時性。而在文件備份、歸檔過程中的壓縮一般不

13、會有什么問題。另外需要注意，有些文件已經(jīng)被壓縮，進(jìn)一步的外部壓縮不會有任何好處，一些圖形文件格式，如標(biāo)簽映象文件格式（TIFF），就已經(jīng)包含了壓縮。由于數(shù)據(jù)壓縮在使用計算機存儲、傳輸和處理數(shù)據(jù)的過程中非常常用，在數(shù)據(jù)壓縮發(fā)展的早期出現(xiàn)了各種壓縮算法，這些各具特色的壓縮算法降低了文件的可移植性，除非在數(shù)據(jù)交換時把解壓縮軟件也與文件一起傳送，否則將會出現(xiàn)一個用戶的壓縮數(shù)據(jù)傳輸給另一個用戶時無法打開的現(xiàn)象。為了便于不同的用戶之間能夠更好的交流數(shù)據(jù)，有必要制定一些國際標(biāo)準(zhǔn)來規(guī)范壓縮算法，以促進(jìn)不同用戶之間數(shù)據(jù)交流的效率。促進(jìn)數(shù)據(jù)壓縮算法標(biāo)準(zhǔn)產(chǎn)生的組織主要有國際標(biāo)準(zhǔn)化組織ISO、國際電工委員會 IEC和

14、國際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門 ITU-T。其制定的通用壓縮編碼標(biāo)準(zhǔn)認(rèn)可度比較高且應(yīng)用比較廣泛的大致有四種：H.261、JPEG、 MPEG和DVI。其中H.261是1990年ITU-T制定的一個視頻編碼標(biāo)準(zhǔn)，屬于視頻編解碼器。設(shè)計的目的是能夠在帶寬為64kbps的倍數(shù)的綜合業(yè)務(wù)數(shù)字網(wǎng)（ISDN for Integrated Services Digital Network）上傳輸質(zhì)量可接受的視頻信號。隨著新的軟硬件技術(shù)發(fā)展，視頻編碼標(biāo)準(zhǔn)也在不斷演化，但后來的視頻編碼標(biāo)準(zhǔn)基本都是在H.261的基礎(chǔ)上進(jìn)行改進(jìn)。H.261使用兩種類型的壓縮：用于幀內(nèi)的基于DCT（離散余弦變換）的有損壓縮和用于幀間壓縮

15、的無損編碼，并在此基礎(chǔ)上使編碼器采用帶有運動估計的DCT和DPCM（差分脈沖編碼調(diào)制）的混合方式。這種標(biāo)準(zhǔn)與JPEG及MPEG標(biāo)準(zhǔn)間有明顯的相似性，但關(guān)鍵區(qū)別是它是為動態(tài)使用設(shè)計的，并提供完全包含的組織和高水平的交互控制。現(xiàn)在的H.261成為了過時的標(biāo)準(zhǔn)，已經(jīng)基本上看不到使用H.261的產(chǎn)品了，但是在視頻編碼歷史上H.261的地位非常重要，是一個重要的里程碑式的標(biāo)準(zhǔn)。JPEG、 MPEG和DVI壓縮算法將在后續(xù)部分詳細(xì)介紹。7.3.3 靜態(tài)圖像壓縮編碼標(biāo)準(zhǔn)JPEG JPEG（發(fā)音為 depg）的本義是全稱是聯(lián)合照片專家組，英文全名為Joint Photographic Experts Grou

16、p。此小組創(chuàng)建于1986年，其由國際標(biāo)準(zhǔn)化組織、國際電工委員會和國際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門（前身為國際電報電話咨詢委員會CCITT，1993年更名為國際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門）共同組成，并于1992年發(fā)布了JPEG圖像壓縮解壓算法。通常所說的JPEG都是是指由這個專家組制定的這個靜止圖像壓縮和解壓縮算法，并在1994年被采納成為國際標(biāo)準(zhǔn)。人們在提到JPEG壓縮算法時往往指的的有損壓縮，實際上在JPEG標(biāo)準(zhǔn)中也支持一種被稱為Lossless JPEG的無損壓縮方式，但Lossless JPEG并沒有受到廣泛的支持和應(yīng)用。JPEG壓縮算法通常包含色彩空間轉(zhuǎn)換、縮減取樣、離散余弦變換、量化幾個步驟

17、。其中色彩空間轉(zhuǎn)換和縮減取樣兩個步驟的目的是把圖像色彩轉(zhuǎn)換到由YUV色彩空間后，保留亮度成分（也就是“Y”，人眼敏感的成分）成分，而對其它人眼睛不敏感的成分色度“U”和飽和度“V”進(jìn)行縮減（關(guān)于YUV空間的概念將在后面學(xué)習(xí)運動圖像的編碼標(biāo)準(zhǔn)時介紹）。縮減抽樣步驟是JPEG壓縮步驟中有損的一個步驟，會丟棄一些人眼不敏感的信息。后續(xù)的壓縮步驟將分別對三個成分進(jìn)行相同的處理。離散余弦變換是把圖像轉(zhuǎn)換到用頻率表達(dá)的空間，進(jìn)行轉(zhuǎn)換的目的是便于后續(xù)步驟中有針對性的對圖像中的高頻成分進(jìn)行壓縮。離散余弦變化過程是一個可逆的過程。量化的過程本身是一種壓縮，其原理在于人類的眼睛對一個相對比較大范圍內(nèi)的微小亮度變化

18、非常敏感，但在高頻率的亮度變化時，對具體亮度值卻難以分辨。因此量化的思路就是在進(jìn)行離散余弦變換后的圖像上，減小高頻率成分的信息數(shù)量。量化的過程很簡單，就是把轉(zhuǎn)換后的圖像中的每一個成分，除以一個針對于該成分的常數(shù)再舍位取最接近的整數(shù)即可。量化過程也是有損運算，而且是整個壓縮過程中的主要有損運算。量化的過程經(jīng)常會把很多更高頻率的成分舍位成為接近0，且剩下很多會變成小的正數(shù)或者負(fù)數(shù)。從量化的原理也可以看出，JPEG壓縮特別適合相機等拍攝的實景自然圖像，壓縮后可以獲得很好的視覺效果。但并不適合于線條繪圖、圖標(biāo)、圖形或者含有文字的圖像，這類圖像使用經(jīng)典的無損壓縮例如（PNG格式圖像采用的DEFLATE壓

19、縮）會取得更好的視覺效果。JPEG壓縮算法的壓縮比是可以調(diào)節(jié)的，可以根據(jù)需要在圖像質(zhì)量和存儲量大小之間尋找一個最佳值。通常情況下壓縮比為10:1時只會給圖像質(zhì)量帶來微小的損失。圖7-3-1顯示了不同壓縮比帶來的圖像質(zhì)量變化。(a) 未壓縮圖像，大小725K (b) JPG低壓縮比，大小111K (c) JPG高壓縮比，大小36K圖7-3-1 不同JPEG壓縮比例對比圖需要注意的是JPEG標(biāo)準(zhǔn)本身只描述了如何將一個圖像轉(zhuǎn)換為字節(jié)的數(shù)據(jù)流，并沒有說明這些字節(jié)如何在任何特定的存儲媒體上進(jìn)行存儲。如果要把這些壓縮后的數(shù)據(jù)流存放在計算機硬盤等存儲媒體上，其存儲格式也需要規(guī)范。為了解決這個問題，在199

20、1年一個名叫C-Cube Microsystems的公司聯(lián)合其它公司創(chuàng)建了一個額外的標(biāo)準(zhǔn)，稱為JFIF（JPEG File Interchange Format，JPEG文件交換格式）詳細(xì)說明如何從一個JPEG數(shù)據(jù)流，產(chǎn)出一個適合于計算機存儲和傳輸?shù)奈募?。JPEG/JFIF 支持的最大圖像尺寸是 6553565535。JPEG/JFIF是萬維網(wǎng)（World Wide Web）上最普遍的圖片存儲和傳輸格式。另外一個標(biāo)準(zhǔn)是由日本電子工業(yè)發(fā)展協(xié)會在1996年制定的。稱為可交換圖像文件（Exchangeable image file format, EXIF），是專門為數(shù)碼相機的照片設(shè)定的，可以記錄

21、數(shù)碼照片的屬性信息和拍攝數(shù)據(jù)。EXIF可以附加于JPEG、TIFF、RIFF等文件之中，為其增加有關(guān)數(shù)碼相機拍攝信息的內(nèi)容和索引圖或圖像處理軟件的版本信息。在Windows 7操作系統(tǒng)中，最簡單的查看EXIF信息的方法是右鍵單擊JPEG圖片打開快捷菜單，單擊“屬性”再切換到“詳細(xì)信息”標(biāo)簽下即可，如圖7-3-2。圖7-3-2 Exif JPEG文件提供的圖像信息在日常使用中，當(dāng)有人說一個“JPEG文件”，一般而言是意指一個JFIF文件，或者是一個Exif JPEG文件。使用JPEG格式壓縮的圖片文件一般也被稱為JPEG Files，使用的最普遍的文件擴(kuò)展名格式為“.jpg”和“.jpeg”。其

22、它還有：“.jpe”、“.jfif”以及“.jif”。JPEG格式的數(shù)據(jù)也能被嵌進(jìn)其他類型的文件格式中，例如在TIFF類型的文件中就可以嵌入JPEG數(shù)據(jù)，作為圖像的縮略圖；在壓縮音頻數(shù)據(jù)mp3中也可以嵌入JPEG數(shù)據(jù)作為歌曲或者唱片集的封面，這就是為什么在播放mp3歌曲時有的播放器能顯示出該歌曲對應(yīng)的唱片集的封面圖像。關(guān)于JPEG標(biāo)準(zhǔn)的最新進(jìn)展，值得一提的是JPEG 2000。JPEG 2000也是由聯(lián)合照片專家組創(chuàng)建和維護(hù)的標(biāo)準(zhǔn)拓展閱讀：/wiki/JPEG_2000。和經(jīng)典的JPEG標(biāo)準(zhǔn)相比，JPEG 2000是用基于小波變換替代了基于離散余弦變

23、換。JPEG 2000的優(yōu)勢比較明顯，它的壓縮比更高，而且不會產(chǎn)生原先的基于離散余弦變換的JPEG標(biāo)準(zhǔn)產(chǎn)生的塊狀模糊瑕疵。JPEG 2000同時支持有損數(shù)據(jù)壓縮和無損數(shù)據(jù)壓縮。另外，JPEG 2000也支持更復(fù)雜的漸進(jìn)式顯示和下載。因此JPEG 2000通常被認(rèn)為是未來取代基于離散余弦變換的的下一代圖像壓縮標(biāo)準(zhǔn)。JPEG 2000文件的文檔后綴名通常為“.jp2”。雖然JPEG 2000在技術(shù)上有一定的優(yōu)勢，但是目前互聯(lián)網(wǎng)上采用JPEG 2000技術(shù)制作的圖像文件數(shù)量仍然很少，并且大多數(shù)的瀏覽器仍然不支持JPEG 2000圖像文件的顯示。使用JPEG可能要承擔(dān)版權(quán)和專利的風(fēng)險，這也許是目前JP

24、EG 2000技術(shù)沒有得到廣泛應(yīng)用的原因之一。JPEG 2000標(biāo)準(zhǔn)本身是沒有授權(quán)費用，但是因為編碼的核心部分的各種算法被大量注冊專利。如果要開發(fā)基于JPEG 2000的商用軟件，一般不太可能避開這些專利費用而開發(fā)出免授權(quán)費的編碼器。由于JPEG 2000在無損壓縮下仍然能有比較好的壓縮率，所以JPEG 2000在圖像品質(zhì)要求比較高的醫(yī)學(xué)圖像的分析和處理中已經(jīng)有了一定程度的應(yīng)用。7.3.4 運動圖像（視頻）壓縮編碼標(biāo)準(zhǔn)MPEG視頻壓縮的目標(biāo)是在盡可能保證視覺效果的前提下減少視頻數(shù)據(jù)率。視頻壓縮比一般指壓縮后的數(shù)據(jù)量與壓縮前的數(shù)據(jù)量之比。由于視頻是連續(xù)的靜態(tài)圖像，因此其壓縮編碼算法與靜態(tài)圖像的壓

25、縮編碼算法有某些共同之處，但是由于其運動導(dǎo)致視頻壓縮有其自身的特性，在壓縮時還應(yīng)考慮其運動特性才能達(dá)到高壓縮的目標(biāo)。在視頻壓縮中常需用到概念有幀內(nèi)壓縮、幀間壓縮、對稱性、位速、AVI和YUV等。幀內(nèi)（Intraframe）壓縮也稱為空間壓縮（Spatial compression）。當(dāng)壓縮一幀圖像時，僅考慮本幀的數(shù)據(jù)而不考慮相鄰幀之間的冗余信息，這實際上與靜態(tài)圖像壓縮類似。幀內(nèi)一般采用有損壓縮算法，由于幀內(nèi)壓縮時各個幀之間沒有相互關(guān)系，所以壓縮后的視頻數(shù)據(jù)仍可以以幀為單位進(jìn)行編輯。幀內(nèi)壓縮一般達(dá)不到很高的壓縮。采用幀間（Interframe）壓縮是基于許多視頻或動畫的連續(xù)前后兩幀具有很大的相關(guān)

26、性，或者說前后兩幀信息變化很小的特點。也即連續(xù)的視頻其相鄰幀之間具有冗余信息，根據(jù)這一特性，壓縮相鄰幀之間的冗余量就可以進(jìn)一步提高壓縮量，減小壓縮比。幀間壓縮也稱為時間壓縮（Temporal compression），它通過比較時間軸上不同幀之間的數(shù)據(jù)進(jìn)行壓縮。例如有一段60秒的視頻，這個視頻中的前景一直在變化，但是在背景中的同一位置始終有一把椅子。那么壓縮算法可能就會把一幀圖像中椅子的數(shù)據(jù)存儲下來，以在接下來的幀中使用，從而實現(xiàn)壓縮的效果。幀間壓縮一般是無損的。幀差值（Frame differencing）算法是一種典型的時間壓縮法，它通過比較本幀與相鄰幀之間的差異，僅記錄本幀與其相鄰幀的差

27、值，這樣可以大大減少數(shù)據(jù)量。對稱性（symmetric）是壓縮編碼的一個關(guān)鍵特征。對稱意味著壓縮和解壓縮占用相同的計算處理能力和時間，對稱算法適合于實時壓縮和傳送視頻，如視頻會議應(yīng)用就以采用對稱的壓縮編碼算法為好。而在電子出版和其它多媒體應(yīng)用中，一般是把視頻預(yù)先壓縮處理好，然后再播放，因此可以采用不對稱（asymmetric）編碼。不對稱或非對稱意味著壓縮時需要花費大量的處理能力和時間，而解壓縮時則能較好地實時回放，也即以不同的速度進(jìn)行壓縮和解壓縮。一般地說，壓縮一段視頻的時間比回放（解壓縮）該視頻的時間要多得多。例如，壓縮一段三分鐘的視頻片斷可能需要10多分鐘的時間，而該片斷實時回放時間只有

28、三分鐘。位速（bit rate）是指在一個數(shù)據(jù)流中每秒鐘能通過的信息量，通常都是用每秒鐘通過的比特量（bps）來表示。由于比特是一個很小的單位，因此實際中常用的單位是Kbps、Mbps和Gbps，分別代表103bps，106bps和109bps。位速越高，信息量越大，對這些信息進(jìn)行解碼的處理量就越大，文件需要占用的空間也就越多。CD中的數(shù)字音樂比特率為1411.2Kbps（也就是記錄1秒鐘的CD音樂，需要1411.21024比特的數(shù)據(jù)），近乎于CD音質(zhì)的MP3數(shù)字音樂需要的比特率大約是112Kbps128Kbps。另外如何選擇適當(dāng)?shù)奈凰偃Q于播放目標(biāo)。如果要把制作的 VCD 放在 DVD 播放

29、器上播放，那么視頻必須是 1150 Kbps，音頻必須是 224 Kbps。AVI是將語音和影像同步組合在一起的文件格式。它對視頻文件采用了一種有損壓縮方式，但壓縮比較高，因此盡管面面質(zhì)量不是太好，但其應(yīng)用范圍仍然非常廣泛。AVI支持256色和RLE壓縮。AVI信息主要應(yīng)用在多媒體光盤上，用來保存電視、電影等各種影像信息。YUV有時候也寫作YCrCb，是歐洲電視系統(tǒng)所采用的一種顏色編碼方法。YUV主要用于優(yōu)化彩色視頻信號的傳輸并兼容老式黑白電視。與RGB視頻信號傳輸相比，它最大的優(yōu)點在于只需占用極少的帶寬（RGB要求三個獨立的視頻信號同時傳輸）。其中“Y”表示明亮度（Luminance或Lum

30、a），也就是灰階值；而“U”和“V”表示的則是色度和濃度（Chrominance或Chroma），用于指定像素的顏色。如果把UV信息去掉，則剩下的就是和早期黑白電視兼容的亮度信息。RGB色彩空間可以通過公式直接轉(zhuǎn)換到Y(jié)UV空間。在前面學(xué)習(xí)JPEG壓縮原理時，第一步就是把圖像色彩從RGB轉(zhuǎn)化到Y(jié)UV空間。由于視頻的每一幀都是由像素柵格構(gòu)成的。如果在水平方向上（也就是每行）有W個像素，而在垂直方向上（每列）有H個像素，則稱為幀大小為WH。像素的唯一屬性就是顏色，一般用一定數(shù)量的比特來表示。用的比特數(shù)越多，表達(dá)的顏色變化就越豐富，這個稱為視頻的顏色深度。顏色深度為n則可以表達(dá)的顏色數(shù)為2n個。假設(shè)有

31、一部時間長度為1個小時的視頻，其幀大小為1280 x 720，顏色深度為24，按照幀率25進(jìn)行播放。那么可以計算出此視頻的以下屬性：每幀像素數(shù)= 1280 * 720= 921600每幀比特數(shù)= 每幀像素數(shù) *24b = 921600*24b = 22118400b 21Mb比特率 =每幀比特數(shù)*幀率 =21Mb/幀 * 25幀/s= 525 Mb/s視頻大小 = 比特率*時間 = 525 Mb/s * 3600s = 1890000Mb = 236250MB231GB從這個計算可以看出，一部普通的時常為1小時的視頻數(shù)據(jù)，如果不進(jìn)行壓縮，其占用的存儲空間已經(jīng)非常巨大。隨著數(shù)字視頻的發(fā)展，一些

32、三維視頻技術(shù)也開始出現(xiàn)，可以預(yù)料，其數(shù)據(jù)量會越來也大。因此有必要研究視頻的壓縮技術(shù)，從而使視頻的存儲、處理和傳輸更加方便。和圖像的壓縮相似，數(shù)字視頻壓縮以后基本不影響作品的最終視覺效果。例如，雖然顏色深度為24的視頻可以呈現(xiàn)的顏色有上千萬種，但是人類肉眼只能辨別大約 1024 種。因為我們覺察不到一種顏色與其鄰近顏色的細(xì)微差別，所以也就沒必要將每一種顏色都保留下來。另外和圖像相似、視頻數(shù)據(jù)也有冗余的問題。例如在視頻作品中經(jīng)常可以看到在一個較短的時間段內(nèi)，視頻的背景很少發(fā)生變化或者就根本不發(fā)生變化。在這種情況下，這個時間段內(nèi)的多個幀的背景數(shù)據(jù)就會出現(xiàn)大量冗余數(shù)據(jù)，在視頻數(shù)據(jù)的壓縮中可以用類似行程

33、長度編碼的思路來設(shè)計壓縮算法。標(biāo)準(zhǔn)的數(shù)字?jǐn)z像機的壓縮率為 5 比 1，有的格式可使視頻的壓縮率達(dá)到 100 比 1。需要注意的是，過分壓縮也不是件好事。因為壓縮得越多，丟失的數(shù)據(jù)就越多。如果丟棄的數(shù)據(jù)太多，產(chǎn)生的影響就越來越明顯。過分壓縮的視頻會導(dǎo)致觀看者無法辨認(rèn)。和JPEG類似，MPEG是運動圖像專家組（Moving Picture Experts Group）的簡稱。這個名字本義是指成立于1988年的研究視頻和音頻編碼標(biāo)準(zhǔn)的“動態(tài)圖像專家組”。MPEG是隸屬于國際標(biāo)準(zhǔn)化組織和國際電工委員會的工作組，它的官方頭銜為：第一技術(shù)委員會第二十九子委員會第十一號工作組正式審核程序，英文為ISO/IE

34、C JTC1/SC29 WG11。MPEG大約每2-3個月舉行一次會議，每次會議大約持續(xù)5天，在會議期間，新的建議和技術(shù)細(xì)節(jié)先在小組中討論，成熟后進(jìn)入標(biāo)準(zhǔn)化的正式審核程序。現(xiàn)在人們所說的MPEG泛指由該工作組制定的一系列視頻編碼標(biāo)準(zhǔn)正式審核程序。該工作組從1988年至今已經(jīng)制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多個標(biāo)準(zhǔn)，MPEG-21正在制定中。MPEG的標(biāo)志如圖7-3-3。圖7-3-3 MPEG的標(biāo)志（圖片來源：Moving Picture Experts Group）MPEG圖像編碼是基于變換的有損壓縮。光學(xué)信號線經(jīng)過采樣形成視頻信號形成一系列幀圖像，

35、然后幀被分區(qū)成小塊做變換編碼，然后量化，最后進(jìn)行熵編碼。MPEG-1、MPEG-2、MPEG-4采用了的動量估計和動量補償技術(shù)。在利用了動量補償?shù)膸?，被編碼的是經(jīng)過動量補償?shù)膮⒖紟c目前圖像的差。與傳統(tǒng)圖像編碼技術(shù)不同，MPEG并不是每格圖像進(jìn)行壓縮，而是以一秒時段作為單位，將時段內(nèi)的每一格圖像做比較，由于一般視頻內(nèi)容都是背景變化小、主體變化大，MPEG技術(shù)就應(yīng)用這個特點，以一幅圖像為主圖，其余圖像格只記錄參考資料及變化數(shù)據(jù)，更有效記錄動態(tài)圖像。從MPEG-1到MPEG-4，其核心技術(shù)基本都是這個原理，各個版本的區(qū)別主要在于比較的過程和分析的復(fù)雜性等。MPEG只規(guī)定比特流的格式與解碼精確度，

36、實際上相當(dāng)于對解碼的方法進(jìn)行了規(guī)定。這樣的好處在于任何人都可以依照MPEG標(biāo)準(zhǔn)以不同方式實現(xiàn)編碼器程序，而MPEG標(biāo)準(zhǔn)的主要目的在于確保不同的編碼器所產(chǎn)生的比特流可被其他解碼器正確的解碼。由于解碼方法是通用的，因此可以大大減少因編碼專利造成的商業(yè)利益糾紛外，也促進(jìn)了標(biāo)準(zhǔn)的應(yīng)用和普及。下面對各個時段的MPEG標(biāo)準(zhǔn)做簡要介紹。MPEG-1是第一個官方的視頻音頻壓縮標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)是一個面向家庭電視質(zhì)量級的視頻、音頻壓縮標(biāo)準(zhǔn)。MPEG-1主要用于傳輸15Mbps數(shù)據(jù)傳輸率的數(shù)字存儲媒體運動圖像及其伴音的編碼，經(jīng)過MPEG-1標(biāo)準(zhǔn)壓縮后，視頻數(shù)據(jù)壓縮率為1/100-1/200，音頻壓縮率為1/6.5。MP

37、EG-1提供每秒30幀352*240分辨率的圖像，當(dāng)使用合適的壓縮技術(shù)時，具有接近家用視頻制式（VHS）錄像帶的質(zhì)量。MPEG-1允許超過70分鐘的高質(zhì)量的視頻和音頻存儲在一張CD-ROM盤上。VCD采用的就是MPEG-1的標(biāo)準(zhǔn)。值得一提的是MPEG音頻壓縮的第三級（MPEG-1 Layer 3）簡稱MP3，是目前比較流行的音頻壓縮格式。 MPEG-2是廣播質(zhì)量的視訊、音頻和傳輸協(xié)議。被用于無線數(shù)字電視、數(shù)字衛(wèi)星電視、數(shù)字有線電視信號和DVD視頻光盤技術(shù)中。傳輸速率為10Mbps，與MPEG-1兼容，適用于1.5-60Mbps甚至更高的編碼范圍。MPEG-2有每秒30幀704*480的分辨率，

38、是MPEG-1播放速度的四倍，適用于高要求的廣播和娛樂應(yīng)用程序。MPEG-3原本目標(biāo)是為高分辨率電視（HDTV）設(shè)計，后來發(fā)現(xiàn)MPEG-2已足夠HDTV應(yīng)用，故MPEG-3的研發(fā)便中止。MPEG-4是2003年發(fā)布的壓縮標(biāo)準(zhǔn)，主要是擴(kuò)展MPEG-1、MPEG-2等標(biāo)準(zhǔn)以支持視頻音頻對象的編碼、3D內(nèi)容、低比特率編碼和數(shù)字版權(quán)管理。MPEG-7并不是一個壓縮標(biāo)準(zhǔn)，它是一個多媒體內(nèi)容的描述標(biāo)準(zhǔn)。MPEG-21是一個正在制定中的標(biāo)準(zhǔn)，它的目標(biāo)是為未來多媒體的應(yīng)用提供一個完整的平臺。主要MPEG視頻編碼標(biāo)準(zhǔn)應(yīng)用關(guān)系如圖7-3-4。圖7-3-4 目前比較成熟的MPEG視頻編碼標(biāo)準(zhǔn)的應(yīng)用提到MPEG，就不

39、得不提到國際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門制定的 VCEG標(biāo)準(zhǔn)。和MPEG類似，VCEG是Video Coding Experts Group的簡稱，也可直接稱為VCEG，中文名稱為視頻編碼專家組。VCEG開發(fā)制定了一系列視頻通信協(xié)議和標(biāo)準(zhǔn)，包括H.261視頻會議標(biāo)準(zhǔn)，和其后續(xù)版本H.263、H.263 plus、H.263 plus plus、H.264等。最新的標(biāo)準(zhǔn)是H.265（或稱為High Efficiency Video Coding， HEVC）。H.264和H.265均是由VCEG和MPEG合作共同發(fā)布的標(biāo)準(zhǔn)。其中H.264的第10部分由ISO/IEC和ITU-T聯(lián)合發(fā)布，稱為H.264

40、/MPEG-4 Part 10。很多視頻編解碼標(biāo)準(zhǔn)可以很容易的在個人計算機和消費電子產(chǎn)品上實現(xiàn)，這使得在這些設(shè)備上有可能同時實現(xiàn)多種視頻編解碼標(biāo)準(zhǔn)，避免了由于兼容性原因使得某種占優(yōu)勢的編解碼標(biāo)準(zhǔn)影響其它編解碼標(biāo)準(zhǔn)的發(fā)展和推廣。綜合以上介紹，把一些主流的視頻編解碼標(biāo)準(zhǔn)按照它們成為國際標(biāo)準(zhǔn)的時間整理如表7-3-1所示。表7-3-1視頻編碼標(biāo)準(zhǔn)發(fā)展年份標(biāo)準(zhǔn)制定組織主要應(yīng)用1984H.120ITU-T1990H.261ITU-T視頻會議、視頻通話1993MPEG-1 第二部份ISOIEC影音光盤（VCD）1995H.262/MPEG-2 第二部份ISOIEC、ITU-TDVD影碟（DVD-Video）

41、、藍(lán)光（Blu-Ray）影碟、數(shù)字視頻廣播（DVB）、SVCD1996H.2636ITU-T視頻會議、視頻通話、3G手機視頻（3GP）1999MPEG-4 第二部份ISOIEC更加注重多媒體系統(tǒng)的交互性和靈活性2003H.264/MPEG-4 AVC1ISOIEC、ITU-T藍(lán)光（Blu-Ray）影碟、數(shù)字視頻廣播（DVB）、iPod視頻、高畫質(zhì)DVD（HD DVD）2013High Efficiency Video CodingITU-T尚未普及7.3.5 常見圖像壓縮格式評價前面介紹的JPEG壓縮編碼方式外，比較常用的還有無損圖像壓縮格式還有GIF和PNG，采用的壓縮算法分別為LZW和DE

42、FLATE壓縮算法。其中GIF（Graphics Interchange Format）是一種位圖文件格式，以8位色（即256種顏色）重現(xiàn)真彩色的圖像。是目前廣泛應(yīng)用于網(wǎng)絡(luò)傳輸?shù)膱D像格式之一。PNG（Portable Network Graphics）簡稱便攜式網(wǎng)絡(luò)圖形，也是一種無損壓縮的位圖圖像格式，支持索引、灰度、RGB三種顏色方案以及Alpha通道等特性。PNG最初的開發(fā)目標(biāo)是改善并取代GIF作為適合網(wǎng)絡(luò)傳輸?shù)母袷蕉恍鑼＠S可，目前也被廣泛應(yīng)用于互聯(lián)網(wǎng)圖像交換上。下面對這幾種常見的壓縮文件進(jìn)行比較評價。評價用參考圖像如圖7-3-5，其原始格式為顏色深度24位的位圖格式。圖7-3-5未壓

43、縮的位圖格式圖像（大小764K）1. JPEG 2000和JPEG的比較在有損壓縮下，JPEG 2000一個比較明顯的優(yōu)點就是沒有JPEG壓縮中的馬賽克失真效果。JPEG 2000的失真主要是模糊失真。模糊失真產(chǎn)生的主要原因是在編碼過程中高頻量一定程度的衰減。傳統(tǒng)的JPEG壓縮也存在模糊失真的問題。就圖像整體壓縮性能來說，在低壓縮比情形下（比如壓縮比小于10:1），傳統(tǒng)的JPEG圖像質(zhì)量有可能要比JPEG 2000要好。JPEG 2000在壓縮比較高的情形下，優(yōu)勢才開始明顯。整體來說，和傳統(tǒng)的JPEG相比，JPEG 2000仍然有很大的技術(shù)優(yōu)勢，通常壓縮性能大概可以提高20%以上。一般在壓縮比

44、達(dá)到100:1的情形下，采用JPEG壓縮的圖像已經(jīng)嚴(yán)重失真并開始難以識別了，但JPEG 2000的圖像仍可識別。有損壓縮圖像質(zhì)量或失真程度一般用峰值信噪比（PSNR）指標(biāo)來衡量。雖然峰值信噪比不能完全反映人類視覺效果，但是它仍是一個目前比較流行的量化指標(biāo)。圖7-3-6 顯示了JPG2000和JPG格式壓縮效果對比，壓縮比大約為20:1，此時可以看到JPG的效果要略優(yōu)于JPG2000。(a) JPG2000有損壓縮（大小31K ） (b) JPG壓縮（大小37K）圖7-3-6 JPG2000和JPG格式壓縮對比2. PNG 和JPEG的比較由于采用的壓縮算法不同，JPEG和PNG兩種圖像格式

45、適用的圖片內(nèi)容也有差異。JPEG采用了一種針對照片圖像的特定有損編碼方法，這種編碼適用于低對比、顏色過渡平滑、噪音多且結(jié)構(gòu)不規(guī)則的圖像，因此JPEG可以對真實世界照片（或類似）圖像生成更小的文件。而如果用PNG文件格式來壓縮存儲此類數(shù)據(jù)，文件尺寸則會增大很多，雖然此時是無損壓縮，但是和有損壓縮的JPEG相比，圖像質(zhì)量的提高有限。如果需要保存的圖像中含有文本、線條或類似的邊緣清晰，有大塊相同顏色區(qū)域的圖像，PNG格式的壓縮效果就要比JPEG好很多，并且不會出現(xiàn)JPEG那樣的高對比度區(qū)域的圖像有損。如果圖像既有清晰邊緣，又有照片圖像的特點，則需要根據(jù)實際應(yīng)用需求在這兩種格式之間權(quán)衡。由于JPEG是

46、有損壓縮，會產(chǎn)生迭代有損，在重復(fù)壓縮和解碼的過程中會不斷丟失信息使圖像質(zhì)量下降。而PNG是無損的，因此如果要保存需要被反復(fù)編輯的圖像，PNG格式更好一些。對于將要發(fā)布的圖像，用JPEG壓縮一次不會造成明顯的圖像質(zhì)量降低。PNG和JPEG的另一個區(qū)別是JPEG不支持透明度。圖7-3-7 顯示了PNG和JPG格式壓縮效果對比，壓縮比大約為20:1。由于此圖像邊緣清晰，有大塊相同顏色區(qū)域，因此可以看到PNG的壓縮效果要明顯優(yōu)于JPG壓縮。(a) PNG壓縮（大小33K ） (b) JPG壓縮（大小37K）圖7-3-7 PNG和JPG格式壓縮對比3. GIF和JPEG比較GIF是CompuServ

47、e公司在 1987年開發(fā)的圖像文件格式，因其體積小而成像相對清晰，特別適合于初期慢速的互聯(lián)網(wǎng)而大受歡迎。GIF采用無損壓縮技術(shù)，只要圖像不多于256色，則可既減少文件的大小，又保持成像的質(zhì)量。GIF顏色深度是8決定了GIF并不適合存儲彩色豐富的照片，當(dāng)然顏色深度很小也意味著存儲的數(shù)據(jù)量很小。和JPEG圖像一樣，GIF也是互聯(lián)網(wǎng)上很流行的一種圖像格式。但GIF的特點是可以做成透明的，也可以做成動畫，這些特點都是JPEG所無法實現(xiàn)的。因此對于有這些特殊需求的圖像，適合用GIF圖像格式壓縮存放。由于GIF是無損壓縮，因此對于顏色簡單的圖像、或者圖像中含有文本、線條或類似的邊緣清晰、有大塊相同顏色區(qū)域

48、等不適合采用JPEG方式壓縮的圖像，GIF也是比JPEG更好的一個選擇。一般情況下，JPEG允許壓縮比大一些。GIF的壓縮比小一些。因此對于比較大的圖像，宜采用JPEG格式進(jìn)行壓縮存儲。圖7-3-8 顯示了GIF和JPG格式壓縮效果對比，壓縮比大約為20:1。由于圖像固有的特點（邊緣清晰，有大塊相同顏色區(qū)域），可以明顯看到 JPG壓縮效果要差一些。(a) GIF壓縮（大小38K ） (b) JPG壓縮（大小37K）圖7-3-8 GIF和JPG格式壓縮對比4. 圖像壓縮格式匯總在圖像壓縮的發(fā)展過程中，根據(jù)壓縮圖像的特點不同，壓縮最終應(yīng)用的目的不同，壓縮算法的設(shè)計各具特色，出現(xiàn)了各種各樣的壓縮

49、算法。除了ISO組織、IEC和ITU-T等權(quán)威的標(biāo)準(zhǔn)化制定者，也有很多第三方組織結(jié)構(gòu)提出一些壓縮算法并獲得了很好的應(yīng)用。表7-3-2列出了前面學(xué)習(xí)的一些格式，也列出其它一些常見的圖像壓縮格式。表7-3-2常見圖像壓縮格式匯總制定者壓縮格式ISO/IEC/ITU-TJPEG， JPEG 2000， JPEG XR， lossless JPEG，JBIG， JBIG2， PNG， WBMP其它APNG， BMP， DjVu， EXR， GIF， ICER， ILBM， MNG， PCX， PGF， TGA， TIFF，QTVR，WebP7.4 多媒體音頻/視頻數(shù)據(jù)的處理7.4.1數(shù)字音頻的編輯處理

50、1. 概述數(shù)字音頻是指使用脈沖編碼調(diào)制、數(shù)字信號來錄音。其中包含了數(shù)字模擬轉(zhuǎn)換器、模擬數(shù)字轉(zhuǎn)換器、貯存以及傳輸。相比而言，它具有存儲方便、存儲成本低廉、存儲和傳輸?shù)倪^程中沒有聲音的失真、編輯和處理非常方便等特點。數(shù)字音頻處理涉及到很多種技術(shù)，如：音頻采集、語音編碼/解碼、音樂合成、語音識別與理解、音頻數(shù)據(jù)傳輸、音視頻同步、音頻效果與編輯等。限于篇幅，我們這里僅僅介紹利用音頻處理軟件Audition來對數(shù)字音頻完成分割、裁剪、合并和混縮等一些簡單的操作。2. Adobe Audition數(shù)字音頻的制作和處理Adobe Audition是Adobe公司開發(fā)的一款多軌錄音和音頻處理軟件。它是一個非常

51、出色的數(shù)字音樂編輯器和MP3制作軟件，其主界面如圖7-4-1。和眾多Windows操作系統(tǒng)下的程序相似，Audition的編輯界面由位于中央的工作區(qū)和左側(cè)的素材框組成，在素材框上方的選項卡里可以選擇效果調(diào)板和收藏夾調(diào)板。圖7-4-1 Audition的主界面下面分別介紹如何使用Adobe Audition進(jìn)行聲音錄制和對已有的音頻進(jìn)行編輯處理。（1）聲音的錄制選擇“文件”菜單中的“新建”命令或者直接直接單擊傳送器調(diào)板上的錄音鍵進(jìn)行錄音，可以新建一個音頻文件。首先Audition會彈出一個“新建波形”窗口讓用戶來選擇采樣率、通道和分辨率三個參數(shù)，如圖7-4-2。圖7-4-2 新建波形參數(shù)選擇窗

52、口選擇參數(shù)后按下“確定”按鈕即可按照指定的參數(shù)開始錄音，在工作區(qū)可以看到聲音的波形，如圖7-4-3。圖7-4-3 Audition開始錄制聲音在實際的音頻制作中，為了能夠獲得更好的錄制效果，擬制環(huán)境噪音，可以先錄制10秒左右的環(huán)境噪音，然后再開始正式錄音，這樣在后期制作時可以利用前面10秒中的環(huán)境噪音采樣對整個錄音進(jìn)行降噪處理。環(huán)境噪音樣本文件可以單獨存一個文件，也可以錄制在正式錄音的音頻前段。如果環(huán)境噪音文件和正式錄音錄制在一起，可以在處理完畢后可以把環(huán)境噪音部分剪裁掉。錄制完畢時再次單擊傳送器調(diào)板上的錄音鍵停止錄音，然后對錄音文件進(jìn)行保存。保存時最好是選擇“wav”或者是其他的無損或高質(zhì)量

53、的音頻格式，以便于后續(xù)的編輯處理。（2）音頻的編輯對于單個音頻，比較常見的操作是剪裁和降噪。剪裁的方法非常簡單，首先用鼠標(biāo)在工作區(qū)拖動選擇，選中部分會反色顯示，如圖7-4-4。然后在傳送器調(diào)板按下播放按鈕可以試聽選擇部分，鼠標(biāo)可以調(diào)整選擇區(qū)域，確認(rèn)后利用“編輯”菜單中對應(yīng)的命令或者直接按下delete鍵就可以完成選擇部分的音頻剪裁。圖7-4-4 選擇部分波形降噪處理是基于提前錄制的環(huán)境噪音樣本進(jìn)行的。這里假設(shè)環(huán)境噪音是和正式錄音被錄制在同一個音頻文件中。打開音頻文件后，定位到正式錄音前所錄制的10秒鐘環(huán)境噪音部分，若要獲得較好的降噪效果，在選擇噪音樣本時應(yīng)當(dāng)盡量選擇一段平穩(wěn)且單純的環(huán)境噪音片

54、段。然后在素材框上，選擇效果調(diào)板，選擇“修復(fù)”“降噪器（進(jìn)程）”打開降噪器窗口，如圖7-4-5。單擊“獲取特性”按鈕進(jìn)行分析獲得噪音特性，結(jié)果如圖7-4-6。圖7-4-5 降噪器窗口圖7-4-6 降噪器窗口獲取噪音特性分析完成后可以將噪音的樣本保存為單獨的文件。關(guān)閉降噪器窗口回到工作區(qū)，選擇整個波形，再打開降噪器，單擊“加載”，將剛才保存的噪音樣本打開，如圖7-4-7。為了獲得較好的降噪效果，一次降噪的降噪級別不宜太高，本例中選擇15%。單擊“確定”按鈕完成降噪。圖7-4-7 降噪器窗口載入噪音特性文件還有一種簡單的降噪方法就是適應(yīng)性降噪，適應(yīng)性降噪的特點是無需采樣，Audition可以按照

55、音頻文件進(jìn)行分析自動完成降噪。其操作方法是選擇效果調(diào)板，選擇“修復(fù)”“適應(yīng)性降噪”，打開窗口，在窗口頂端“預(yù)設(shè)效果”下拉列表區(qū)域選擇Light Noise Reduction預(yù)置，再勾選“高質(zhì)量模式（緩慢）”，如圖7-4-8。然后慢慢調(diào)整“降噪級別”一個參數(shù)即可。除了最主要的降噪器工具，還可以用“消除嘶聲”工具，“自動移除咔噠聲“工具和”破音修復(fù)“工具進(jìn)行其他噪聲的消除處理。圖7-4-8 適應(yīng)性降噪如果需要對多個音頻文件進(jìn)行編輯，則需要進(jìn)入到多軌模式下進(jìn)行。在菜單“視圖”中選擇“多軌視圖”命令即可進(jìn)入多軌模式。在文件調(diào)板中導(dǎo)入多個要編輯的音頻文件后，可以用鼠標(biāo)拖動逐個放到工作區(qū)的對應(yīng)軌道上。此

56、時工作區(qū)上方的工具欄變成如圖7-4-9所示。工具欄最左側(cè)為工作區(qū)三種工作模式：編輯、多軌（當(dāng)前選擇狀態(tài)）和CD，在CD的右側(cè)為四個操作工具，從左到右依次為混合工具、時間選擇工具、移動/復(fù)制剪輯工具和刷選工具。圖7-4-9 多軌查看模式在多軌模式下，可以很靈活地對多個音軌的剪輯進(jìn)行分離、復(fù)制、剪切、粘貼、合并、混縮等操作。所有的操作基本都遵循一個原則，即利用時間選擇工具選擇部分或者全部音頻剪輯，通過分離合作、剪切、復(fù)制/移動等操作使得選中剪輯的變成一段獨立的剪輯塊。把每一段獨立的剪輯塊可以看成是一個對象，然后再利用工具實現(xiàn)合并或者混縮等操作形成新的剪輯塊對象。對于每一個剪輯塊對象，在選中狀態(tài)

57、下，可以添加特殊的效果。其操作方法和前面降噪的操作類似，通過選擇效果調(diào)板中對應(yīng)的操作就可以完成。當(dāng)對多軌音頻編輯全部完成之后，刪除不需要的音軌，選擇“編輯”“混縮到新文件”命令，然后根據(jù)需求輸出到文件?！緦嵗?-4-1】：消除音頻mp3中的原唱聲音。打開需要進(jìn)行操作的MP3文件。選中整個波形文件，然后選擇“效果”“立體聲聲像”“聲道重混縮”命令，打開通道重混縮對話框。分別如圖7-4-10和圖7-4-11所示圖7-4-10打開聲音重混縮對話框圖7-4-11聲道重混縮對話框在聲道重混縮窗口頂部預(yù)設(shè)效果下拉列表中選擇“Vocal Cut”選項，然后單擊“確定”按鈕便可以完成原聲消除。處理完成后返回到

58、主界面窗口，便可以把處理后的音頻以“另存為”的方式保存成一個新的只保留伴奏的mp3文件。上述操作非常簡單，實際上對于不同的mp3文件處理的效果也有差異，比較常見的情況是按照上述步驟處理后原唱的聲音沒有消除干凈，依然隱約能聽到原唱的聲音；還有就是伴奏的聲音也發(fā)生了一些變化。因此在要求不高的場合這個操作已經(jīng)可以滿足需求。如果想獲得更好的“消音”效果，那么需要 “效果”菜單里多個功能來綜合實現(xiàn)，讀者可以搜索相關(guān)材料自行閱讀實現(xiàn)。7.4.2.數(shù)字視頻制作和處理1. 概述數(shù)字視頻的一大優(yōu)點是可重用性，如果需要重用某一部分，只需要在計算機里執(zhí)行復(fù)制和粘貼這樣的操作即可；即使視頻中沒有任何可重用的部分，使用數(shù)字視頻工

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第七章多媒體數(shù)據(jù)壓縮及音視頻處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

第七章多媒體數(shù)據(jù)壓縮及音視頻處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔