版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、School of Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,什么是信號的頻域空間? 信號頻域分析是采用傅立葉變換將時域信號x(t)變換為頻域信號X(f),從而幫助人們從另一個角度來了解信號的特征。,School of Management Tianjin University,頻域分析,信號頻譜X(f)代表了信號在不同頻率分量成分的大小,能夠提供比時域信號波形更直觀,豐富的信息。,School of Management Tianjin University,頻域分析,時域和頻域的 對應關系,School of Management Tianjin Un
2、iversity,多媒體數(shù)據(jù)壓縮技術,音頻壓縮標準 電話質(zhì)量的語音壓縮標準應用于數(shù)字移動通訊。語音信號的頻率范圍300HZ-3.4KHZ 三種語音編譯 碼器: 波形編譯碼器 音源編譯碼器 混合編譯碼器 普通編譯碼器的音質(zhì)與數(shù)據(jù)率,School of Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,電話質(zhì)量語音信號的頻率范圍是300HZ-3.4KHZ,采用標準的PCM: 采樣頻率為8KHZ,量化位數(shù)為8b,所對應的速率為64kb/s。 最簡單的波形編碼是脈沖編碼調(diào)制(pulse code modulation,PCM) 電話質(zhì)量的語音壓縮標準: G.711、G.7
3、21、G.723等(參見書P56),School of Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,PCM是概念上最簡單、理論上最完善的編碼系統(tǒng),是最早研制成功、使用最為廣泛的編碼系統(tǒng),它僅僅是對輸入信號進行采樣和量化,但也是數(shù)據(jù)量最大的編碼系統(tǒng) 下圖中的“防失真濾波器”是一個低通濾波器,用來濾除聲音頻帶以外的信號;“波形編碼器”可暫時理解為“采樣器”,“量化器”可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。,School of Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,School of
4、 Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,高保真立體聲音頻壓縮標準頻率范圍50HZ-20KHZ 目前國際上比較成熟的高保真立體聲音頻壓縮標準為MPEG音頻。 MPEG-1和MPEG-2的聲音數(shù)據(jù)壓縮編碼不是依據(jù)波形本身的相關性和模擬人的發(fā)音器官的特性,而是利用人的聽覺系統(tǒng)的特性來達到壓縮聲音數(shù)據(jù)的目的,這種壓縮編碼稱為感知聲音編碼(perceptual audio coding)。,School of Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,進入20世紀80年代之后,尤其最近幾年,人類在利用自身的聽覺系統(tǒng)的特性來壓
5、縮聲音數(shù)據(jù)方面取得了很大的進展,先后制定了MPEG-1 Audio, MPEG-2 Audio等標準 它們處理10 Hz20000 Hz范圍里的聲音數(shù)據(jù),使用“心理聲學模型(psychoacoustic model)”來達到壓縮聲音數(shù)據(jù)的目的。 心理聲學模型中一個基本的概念就是聽覺系統(tǒng)中存在一個聽覺閾值電平,低于這個電平的聲音信號就聽不到,因此就可以把這部分信號去掉。,School of Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,心理聲學模型中的另一個概念是聽覺掩飾特性,意思是一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象。例如,同時有兩種頻率的聲音
6、存在,一種是1000 Hz的聲音,另一種是1100 Hz的聲音,但它的強度比前者低18分貝,因此,1100 Hz的聲音就會聽不到 比如在一安靜房間里的普通談話可以聽得很清楚,但在播放搖滾樂的環(huán)境下同樣的普通談話就聽不清楚了。聲音壓縮算法也同樣可以確立這種特性的模型來取消更多的冗余數(shù)據(jù)。,School of Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,“聽閾頻率”曲線,School of Management Tianjin University,多媒體數(shù)據(jù)壓縮技術,School of Management Tianjin University,音頻壓縮標準,
7、音頻層根據(jù)壓縮質(zhì)量和編碼復雜度分為Layer1、Layer2、Layer3三層,School of Management Tianjin University,音頻壓縮標準, 層1的編碼器最為簡單,編碼器的輸出數(shù)據(jù)率為384 kb/s,主要用于小型數(shù)字盒式磁帶(digital compact cassette,DCC)。 層2的編碼器的復雜程度屬中等,編碼器的輸出數(shù)據(jù)率為256 kb/s192 kb/s,其應用包括數(shù)字廣播聲音(digital broadcast audio,DBA)、數(shù)字音樂、CD-I(compact disc-interactive)和VCD(video compact d
8、isc)等。 層3的編碼器最為復雜,編碼器的輸出數(shù)據(jù)率為64 kb/s,廣泛用于INTERNET傳播。,School of Management Tianjin University,音頻壓縮標準,MPEG-1 Audio (ISO/IEC 11172-3)壓縮算法是世界上第一個高保真聲音數(shù)據(jù)壓縮國際標準,并且得到了極其廣泛的應用。雖然MPEG聲音標準是MPEG標準的一部分,但它也完全可以獨立應用。數(shù)據(jù)的輸入/輸出圖如下:,School of Management Tianjin University,音頻壓縮標準,MPEG-1 Audio的編碼對象是2020kHz的寬帶聲音,因此它采用了感知
9、子帶編碼。或叫做子帶編碼(sub-band coding,SBC)。 利用子帶編碼達到既壓縮聲音數(shù)據(jù)又盡可能保留聲音原有質(zhì)量的目的。 這種方法的具體思想是首先把時域中的聲音數(shù)據(jù)變換到頻域中的多個子帶當中,對每個子帶里的信號分別進行量化和編碼,根據(jù)心理聲學模型確定樣本的精度,從而達到壓縮數(shù)據(jù)量的目的。,School of Management Tianjin University,音頻壓縮標準,輸入聲音信號經(jīng)過一個“時間-頻率多相濾波器組”變換到頻域里的多個子帶中。 濾波器組:實現(xiàn)時域到頻域的轉換,采用多相正交分解濾波器組將數(shù)字化的寬帶音頻信號分成32個子帶,School of Manageme
10、nt Tianjin University,音頻壓縮標準,利用心理學模型控制量化和編碼的一組數(shù)據(jù)人們利用模型來判斷哪些頻率中的音在整個音中對人們影響最大,因此編碼時候決定分配給子帶信號的量化位數(shù) 最后通過“數(shù)據(jù)流幀包裝”將量化的子帶樣本和其他數(shù)據(jù)按照規(guī)定的稱為“幀(frame)”的格式組裝成位數(shù)據(jù)流。,School of Management Tianjin University,音頻壓縮標準,解碼器對位數(shù)據(jù)流進行解碼,恢復被量化的子帶樣本值以重建聲音信號。由于解碼器無需心理聲學模型,只需拆包、重構子帶樣本和把它們變換回聲音信號,因此解碼器比編碼器簡單得多。,School of Managem
11、ent Tianjin University,音頻壓縮標準,MPEG的聲音數(shù)據(jù)分成幀(frame),層1每幀包含384個樣本的數(shù)據(jù),每幀由32個子帶分別輸出的12個樣本組成。 層即稱掩蔽模式通用子帶集成編碼與多路復用,層2對層1作了一些直觀的改進,相當于3個層1的幀,每幀有1152個樣本。它使用的心理聲學模型除了使用頻域掩蔽特性之外還利用了時間掩蔽特性,并且在低、中和高頻段對位分配作了一些限制,對位分配、比例因子和量化樣本值的編碼也更緊湊。,School of Management Tianjin University,音頻壓縮標準,由于層2采用了上述措施,因此所需的位數(shù)減少了,這樣就可以有更
12、多的位用來表示聲音數(shù)據(jù),音質(zhì)也比層1更高。 典型的碼流為每通道128 Kbit/S,廣泛應用于數(shù)字音頻廣播、數(shù)字演播室等數(shù)字音頻專業(yè)的制作、交流、存儲和傳送。,School of Management Tianjin University,音頻壓縮標準,School of Management Tianjin University,音頻壓縮標準,ISO/MPEG audio層1和層2編碼器和解碼器的結構,School of Management Tianjin University,音頻壓縮標準,MUX(多路復合器)相當上圖中的“數(shù)據(jù)流幀包裝”,它按規(guī)定的幀格式對聲音樣本和編碼信息(包括比特分
13、配合比例因子等)進行包裝。 每幀都包含:用于同步和記錄該幀信息的同步頭,長度為32位用于檢查是否有錯誤的循環(huán)冗余碼(cyclic redundancy code,CRC),長度為16位,用于描述位分配的位分配域,長度為4位,比例因子域,長度為6位,子帶樣本域,有可能添加的附加數(shù)據(jù)域,長度未規(guī)定。,School of Management Tianjin University,音頻壓縮標準,School of Management Tianjin University,音頻壓縮標準,層3使用比較好的臨界頻帶濾波器,把聲音頻帶分成非等帶寬的子帶,心理聲學模型除了使用頻域掩蔽特性和時間掩蔽特性之外,還考慮了立體聲數(shù)據(jù)的冗余,并且使用了赫夫曼(Huffman)編碼器。 雖然層3所用的濾波器組與層1和層2所用的濾波器組的結構相同,但是層3還使用了改進離散余弦變換(modified discrete cosine transform,MDCT),對層1和層2的濾波器組的不足作了一些補償,School of
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年活動執(zhí)行(現(xiàn)場布置)試題及答案
- 2025年大學能源科學(科學研究實務)試題及答案
- 2026年電子技術(元件焊接)試題及答案
- 2026年耳鼻喉科(中耳炎手術護理)試題及答案
- 2025年中職歷史(歷史基礎技能應用)試題及答案
- 2025年高職第三學年(市政工程技術)道路施工技能測試試題及答案
- 2025年高職工業(yè)機器人運維(運維管理)試題及答案
- 2025年大學藥品生產(chǎn)技術(藥物合成反應)試題及答案
- 2026年酒柜除濕模塊項目可行性研究報告
- 2025年高職(現(xiàn)代農(nóng)業(yè)技術)農(nóng)業(yè)物聯(lián)網(wǎng)應用試題及答案
- 煤礦返崗培訓課件
- 醫(yī)院法律法規(guī)專項培訓實施計劃方案
- 反滲透膜性能檢測與維護流程
- 數(shù)字藏品授權協(xié)議書
- 頭暈中西醫(yī)課件
- 瀝青混凝土面板全庫盆防滲施工質(zhì)量通病防治手冊
- 光伏電站故障處理培訓大綱
- 總經(jīng)理2025年度總結參考(六篇)
- DB22∕T 3648-2024 取水井封井技術規(guī)范
- 設備維保三級管理制度
- 儲能電站安全監(jiān)控系統(tǒng)方案
評論
0/150
提交評論