多媒體通信原理第2章.ppt

上傳人：q*** IP屬地：河南上傳時間：2020-07-27 格式：PPT 頁數(shù)：113 大小：767.50KB 積分：24 舉報 版權(quán)申訴

已閱讀5頁，還剩108頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、多媒體技術(shù)第二章，多媒體音頻技術(shù)，本章的主要內(nèi)容，音頻信號相關(guān)概念音頻信號的基本概念數(shù)字化方法壓縮編碼的可行性、分類語音類別和數(shù)據(jù)速率語音信息壓縮編碼技術(shù)標準系統(tǒng)G.7XX系列和MPEG-X系列G.7XX語音壓縮編碼技術(shù)各標準編碼方法編譯碼器等MPEG-X語音壓縮編碼電子樂器數(shù)字化接口樂器數(shù)字接口、2.1語音信號、語音的產(chǎn)生來源于物體的振動，該振動引起物體周圍氣壓的變化進行傳播，最后形成語音。聲音是波浪，用頻率：聲音的銳度這兩個殘奧表來描述。振幅：聲音的大小。也叫響度。音頻信號是在20Hz20kHz頻率范圍內(nèi)的聲音。音頻信號、聲波圖，其中包括兩個重要的殘奧儀表：根據(jù)頻率和振幅、音頻信

2、號、音頻信號的占有頻譜，可以將音頻信號分為三種：1.音頻信號：又稱音頻信號，是人正常發(fā)出的聲音，頻率范圍約為30 3 .噪音信號：人們不感興趣的一種聲音，通常研究如何去除它。每個這些個的聲音都可以稱為波形音。正常聲音的強度、正常聲音的分類、音頻信號的數(shù)字化以及音頻信號是正常連續(xù)信號，并且要被計算機處理，必須首先將其數(shù)字化。另外，一般使用音頻范圍的ADC (模數(shù)變換器)進行音頻信號的數(shù)字化、聲音信號的采樣。不同ADC主要涉及(1)采樣頻率：采樣頻率，即每秒收集的聲音樣本的數(shù)量。可能的值應(yīng)當(dāng)滿足Nyquist Theory，即，采樣頻率fs應(yīng)當(dāng)大于或等于語音信號中的最大射頻波數(shù)量fm的兩

3、倍。采樣頻率的單位為Hz或samples/s。例如，數(shù)碼電話的采樣速率是8KHz。音頻信號的數(shù)字化，(2)采樣精度：采樣精度用采樣注音字位數(shù)表示。樣本的二進制位越多，音質(zhì)越高，因為每個樣本的量化值越接近原始樣本值。采樣精度的單位為bits/sample。音頻信號的數(shù)字化、采樣頻率越高，采樣精度越大，數(shù)字化的音響效果越高，但需要的存儲器容量越大。因此，在實用上，有必要折中考慮音質(zhì)和存儲量的問題。然后表示另一個精度的方法是信噪比(SNR )，表示為。其中，Vsignal為信號電壓，Vnoise為噪聲電壓，SNR的單位為分貝(dB )。信噪比越高，音質(zhì)越好。音頻信號的數(shù)字化、語

4、音硬件：音頻信號的壓縮編碼的可能性和分類、對于高質(zhì)量和長時間的音頻數(shù)據(jù)，由于數(shù)據(jù)量特別大，所以為了有效的存儲和傳送，需要進行壓縮編碼。 (1)音頻信號中包含諸如樣本相關(guān)、時間周期相關(guān)、基本聲音相關(guān)等多種冗馀信息。 (2)利用人類的知覺特性進行壓縮。 (3)根據(jù)聲音的發(fā)生反應(yīng)歷程進行壓縮。語音信號壓縮編碼的可能性和分類根據(jù)壓縮編碼思想，分為(1)波形編碼(2)源編碼(3)混合編碼(hybbin )這3種進行分類編碼率算法的復(fù)雜度。語音信號壓縮編碼的可能性和分類、波形編碼：不利用語音信號自身的特征。例如，1.CD質(zhì)量音頻數(shù)據(jù)量：2x44100 x16 b/s 2.電話質(zhì)量音頻數(shù)據(jù)量：8Kx8

5、b/s(DPCM 56Kb/s； ADPCM 32Kb/s )原代碼：進行殘奧儀表化，利用聲音信號的特征進行數(shù)據(jù)壓縮。例如，信道聲音編碼器的操作原理：基于聲音分析原理將聲音信號分解為一系列頻率分量，并且在各個信道上發(fā)送該這些個分量。語音信號的壓縮編碼的可能性和分類，接收方根據(jù)接收到的數(shù)據(jù)進行語音重構(gòu)：將接收到的數(shù)據(jù)中的頻率成分作為語音的基頻，產(chǎn)生一系列脈沖作為濁音，將噪聲發(fā)生器的輸出作為清音。這種方法可以將語音傳輸速率降低到3Kb/s。混合編碼：例如，使用語音識別和語音合成系統(tǒng)建構(gòu)的語音壓縮。聲音種類和數(shù)據(jù)速率、聲音根據(jù)頻帶分類為5種： (1)電話(電話)聲音(2)振幅調(diào)變(Amplit

6、ude Modulation )廣播聲音(3)調(diào)頻(frequencymoddion )、聲音類別和數(shù)據(jù)速率、聲音類別和數(shù)據(jù)速率，我們所熟知的數(shù)字音效文件格式可分為語音質(zhì)量測量、語音質(zhì)量測量兩種。聲音的客觀質(zhì)量測量以信噪比展開：信噪比越大，聲音的質(zhì)量越好，相反，信噪比越小，音質(zhì)越差的聲音的主觀質(zhì)量測量利用人的感覺(聽覺)進行，通常5分： 1分：差(極有反感)。 2分：差(討厭但不反感) 3分：中(討厭) 4分：良(基本接受) 5分：優(yōu)(效果好)，音質(zhì)的測定，2.5數(shù)字音樂的文件形式， WAV文件微軟公司定義的音頻文件形式表示基于PCM編碼直接表現(xiàn)聲波的數(shù)字形式，將以. WAV為擴展名的文件

7、形式稱為波形文件形式(wave file format )。 Wav文件由采樣數(shù)據(jù)組成，所以需要的存儲容量很大。例如，以44.1kHz的采樣頻率對聲波進行采樣，如果每個采樣點位的量化位數(shù)為16二進制位，則記錄1秒鐘的立體聲節(jié)目，該波形文件所需的存儲容量為44 100162/8176 400 (字節(jié))、 VOC文件是Creative公司的波形聲音文件格式，并且也是聲音的每個VOC文件由文件報頭塊(header block )和音頻數(shù)據(jù)塊(data block )構(gòu)成。文件頭包含id、版本號和指向數(shù)據(jù)標簽搖滾樂開頭的指針。數(shù)據(jù)標簽搖滾樂可以分為各種類型的子搖滾樂，例如語音數(shù)據(jù)、靜音、標簽、A

8、SCII查詢密碼文件、重復(fù)結(jié)束、重復(fù)和結(jié)束標志、擴展子搖滾樂等。的雙曲馀弦值。 VOC格式的音頻文件的文件頭是00H13H字節(jié)：文件類型的說明。前19個字節(jié)包含以下內(nèi)容：創(chuàng)建語音文件。最后是EOF字節(jié)(1AH) 14H15H字節(jié)：其值為001AH 16H17H字節(jié)：文件的版本號。小數(shù)點以下的部分在前面。如果此編號為1.10，則兩個這些個字節(jié)內(nèi)的值為010AH。 18H19H字節(jié)：驗證碼。從這個查詢密碼可以驗證那個文件是否是真正的VOC文件。該值是在16H和17H的用戶針織面料中存儲的文件版本號的反轉(zhuǎn)上加上1234H后的值。例如，如果版本號為1.10，010 ah的反轉(zhuǎn)查詢密碼為

9、FEF5H，則此查詢密碼為FEF5H1234H1129H。利用電腦聲卡提供的軟件，可以實現(xiàn)VOC和WAV文件的轉(zhuǎn)換。 plum VOC2WAV將創(chuàng)建的VOC文件轉(zhuǎn)換為Microsoft的wav文件。 plum wav2VOC將Microsoft wav文件轉(zhuǎn)換為creative VOC文件。此外，樂器數(shù)字接口文件不是音樂波形信號而是命令或消息描述音樂上通告，并且可以包括2.5數(shù)字音樂文件格式、RMI、SND RMI是微軟公司的樂器數(shù)字接口文件格式的圖像、標記、文本等。音頻是PCM(pulse code modulation :脈沖編碼調(diào)制)格式，是通過對模擬計程儀的音頻信號進行模擬計程儀

10、數(shù)字轉(zhuǎn)換(A/D轉(zhuǎn)換)而直接形成的二進制序列，在各文件中沒有附加文件頭部和文件結(jié)束標志SND是另一臺計算機的波形音頻文件格式。 AIF AIF是蘋果電腦的音頻文件格式。 Windows轉(zhuǎn)換工具將AIF格式的文件轉(zhuǎn)換為Microsoft wav格式的文件。表2-4中根據(jù)一部分聲音文件的擴展名、2.5聲音信號的特征、2.5.1概要(1)聲音數(shù)據(jù)的統(tǒng)一修正特性進行編碼，其典型的技術(shù)是波形編碼。其目標是使重構(gòu)聲音波形保持原來的波形形狀。 PCM (脈沖編碼調(diào)制)是最簡單最基本的編碼方法。由于查詢密碼直接附加到采樣點，且未壓縮，因此需要更多的存儲空間。為了減少存儲空間，需要壓縮編碼技術(shù)。利用音頻

11、采樣寬度分布規(guī)律和相鄰樣本值相關(guān)的特點，提出了DPCM、APCM和自ADPCM等算法，實現(xiàn)了數(shù)據(jù)壓縮。由于波形編碼適應(yīng)性強，聲音品質(zhì)好，但壓縮比不大，所以數(shù)據(jù)率高。 (2)通過根據(jù)語音的音響殘奧儀表進行殘奧儀表編碼，可進一步降低數(shù)據(jù)速率。其目標是使重構(gòu)音頻保持原因產(chǎn)品的特性。常見的音頻殘奧表包括共振峰值、線性預(yù)測系數(shù)和濾波面包車。該編碼技術(shù)的優(yōu)點是數(shù)據(jù)率低，但是恢復(fù)信號的質(zhì)量差和銳度低。將這些個的兩個編碼算法很好地組合起來，采用了混合編碼的方法。因此，可以以低編碼率獲得高音質(zhì)。例如碼本激勵線性預(yù)測(CELP )、多脈沖激勵線性預(yù)測編碼化(MPLPC )等。 (3)根據(jù)人的聽覺特性

12、進行編碼。從人類的聽覺系統(tǒng)，利用掩蔽效應(yīng)來設(shè)定心理聲學(xué)模型，實現(xiàn)更有效率的數(shù)字音效壓縮。其中，MPEG標準中的射頻波編碼和Dollby AC-3最有影響。 (4)編碼算法：編碼的作用是以一定的格式記錄數(shù)字數(shù)據(jù)，以及以一定的算法壓縮數(shù)字數(shù)據(jù)，減少存儲空間，提高傳輸效率。有損壓縮包括有損壓縮和無損壓縮，這意味著解壓縮后的數(shù)據(jù)無法完全恢復(fù)，某些信息將丟失。壓縮編碼的基本指標之一是壓縮率，通常小于1。壓縮越多，信息損失越多，信號復(fù)原后的失真越大。不同的應(yīng)用程序需要選擇不同的壓縮編碼算法。音頻數(shù)據(jù)的壓縮率可以由下式表示：音頻的波形編碼、波形編碼是指經(jīng)過數(shù)字符號化和解碼過程重構(gòu)的天線計程儀信

13、號波形與原始天線計程儀信號波形盡可能相一致的編碼方法。一個波形編碼中的重要問題是如何以特定的編碼率獲得最高信噪比(SNR )。波形編碼有脈沖編碼調(diào)制(PCM )、自適應(yīng)增量調(diào)制(ADM )、自適應(yīng)差分ADPCM、子帶編碼等，其中對數(shù)PCM和ADPCM的應(yīng)用是最普遍的。脈沖查詢密碼調(diào)制脈沖查詢密碼調(diào)制PCM(Pulse Code Modulation )是模擬計程儀數(shù)字轉(zhuǎn)換的最基本的編碼方法，CD-DA采用這樣的編碼方式。這是最常見的非壓縮編碼。忠實度高，解碼速度快，但具有編碼后的數(shù)據(jù)量多的特征。在數(shù)字音效表示中，采用二進制編碼是有用的，并且所有數(shù)據(jù)都以二進制編碼的定徑套表示。上述

14、通過對語音的模擬-計程儀/數(shù)字轉(zhuǎn)換而獲得的數(shù)字顯示方法表示瞬時均勻量化器。這采用被稱為脈沖編碼調(diào)制PCM的編碼方式)。 MPC存儲未用這種方法壓縮的音頻數(shù)據(jù)。在量化中，量化被表示為自適應(yīng)差分脈沖調(diào)制編碼(ADPCM )，其為有損壓縮，其丟失了信息的一部分。由于人耳對聲音不敏感，因此適當(dāng)?shù)挠袚p壓縮不太影響觀看回放效果。 ADPCM報告查詢密碼的量化值不是每個采樣點位的大小，而是該點的大小和先前采樣點位的大小之間的差。因此，每個采樣點位的量化二進制位不需要16個二進制位。這可以減少信號的容量。可選幅度差的量化二進制位二進制位是8二進制位、4二進制位和2二進制位。 SB16的ADPCM編

15、碼采用4比特量化二進制位，壓縮CD音質(zhì)信號，其壓縮比為14，壓縮后幾乎辨別不到失真。對數(shù)PCM的對數(shù)符號率的壓縮作用不大，為了得到大的壓縮效果首先提出了差分編碼的概念。由于諸如聲音信號之類的相鄰樣本值之間的差較小，相鄰樣本值被減去，從而獲得較小差。值越小，編碼的二進制位越少，數(shù)字速率越低。為了這種編碼，需要與上述保持相同值的電路進行差分的減法電路，如果在上述相同值保持期間進行寬度預(yù)測則會變得更小。在ADPCM中，除了自適應(yīng)預(yù)測以外，還根據(jù)輸入信號尺寸自動調(diào)整量化器的量化。另外，子帶編碼的語音壓縮、子帶編碼是將輸入信號分割為多個子樂隊，并對各子樂隊信號分別獨立進行量化編碼的方式。其主

16、要優(yōu)點在于，通過分配給各子樂隊的不同量化位數(shù)來控制各自的信噪比，以防止能量小的頻帶內(nèi)的輸入信號被其它段的量化噪聲掩蔽，其中，本樂隊包含錄音帶樂隊信號的所有量化噪聲另外，變換編碼化的語音壓縮、變換編碼化是將輸入信號用時間窗分成短區(qū)間數(shù)據(jù)標簽搖滾樂，進行正交變換，并將變換系數(shù)一個個量化后傳送的方法。 AC-2和AC-3系統(tǒng)采用正交變換，該變換的輸出可以直接傳送給心理聲學(xué)模型進行補正。因為變換帶寬能夠良好地接近臨界頻帶，所以即使是100Kb/s左右的速率也能夠?qū)崿F(xiàn)透明質(zhì)量。但是，所有的塊變換都具有塊搖滾樂定效應(yīng)，具有在音頻編碼器上產(chǎn)生周期性的低頻噪聲的缺點。為避免阻塞效應(yīng)，出現(xiàn)了一種過說唱樂正

17、交變換(LOT-Lapped Orthogonal Transform )方法。輸入信號經(jīng)由兩個信道的高低通濾鏡進行頻帶的粗分割，使其中的射頻波部分細分并LOT，低通部分重復(fù)前面的過程。以這種方式實現(xiàn)的優(yōu)點在于一個子搖滾樂之間存在重疊，另一個可以更加接近臨界帶寬以獲得更好的音頻質(zhì)量。對合成(混合)編碼進行分析，波形編碼本質(zhì)上根據(jù)采樣定理，是基于采樣值的。 32Kb/s秒的ADPCM等于各樣本值4二進制位，可實現(xiàn)各樣本值2二進制位、總編碼率16Kb/s，音質(zhì)差，應(yīng)用價值小。因此，必須另外求出低編碼率(16Kb/s以下編碼率)的語音編碼方法。該方法的出發(fā)點，能夠基于聲音生成的反應(yīng)歷程，對

18、與人的發(fā)音模型有關(guān)的殘奧儀表進行分析編碼，在編碼側(cè)對聲音的特征殘奧儀表進行分析編碼，基于在解碼側(cè)接收到的殘奧儀表查詢密碼進行聲音合成，從而能夠降低數(shù)字效率。分析合成編碼是近10年來語音壓縮編碼研究的熱點，有幾十種不同的方案。最有代表性的線性預(yù)測編碼和符號激勵線性預(yù)測編碼。音頻編碼技術(shù)的新發(fā)展，1 .信號分解和濾波器面包車諧無論是改進現(xiàn)有方案，還是探索新路徑，其關(guān)鍵問題都需要如何利用掩蔽效應(yīng)，最有效地分解輸入信號。信號的分解通?？梢酝ㄟ^多速率濾波器面包車或等效的過說唱樂變換來得到。近年來，濾波面包車的研究形成了構(gòu)成濾波面包車的兩個標準。也就是說，1 .關(guān)鍵伊卡斯采樣意味著子樂隊信道的總速率等于輸入樣本值的速率。 2 .完全重建意味著分解信號能夠在無量化失真的情況下精確地復(fù)原原始信號。臨界樣本保持語

人人文庫> 全部分類> 專業(yè)文獻 > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多媒體通信原理第2章.ppt

文檔簡介

溫馨提示

最新文檔

評論

多媒體通信原理第2章.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔