多媒體通信原理第2章.ppt_第1頁
多媒體通信原理第2章.ppt_第2頁
多媒體通信原理第2章.ppt_第3頁
多媒體通信原理第2章.ppt_第4頁
多媒體通信原理第2章.ppt_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多媒體技術(shù)第二章,多媒體音頻技術(shù),本章的主要內(nèi)容, 音頻信號相關(guān)概念音頻信號的基本概念數(shù)字化方法壓縮編碼的可行性、分類語音類別和數(shù)據(jù)速率語音信息壓縮編碼技術(shù)標準系統(tǒng)G.7XX系列和MPEG-X系列G.7XX語音壓縮編碼技術(shù)各標準編碼方法編譯碼器等MPEG-X語音壓縮編碼電子樂器數(shù)字化接口樂器數(shù)字接口、2.1語音信號、語音的產(chǎn)生來源于物體的振動,該振動引起物體周圍氣壓的變化進行傳播,最后形成語音。 聲音是波浪,用頻率:聲音的銳度這兩個殘奧表來描述。 振幅:聲音的大小。 也叫響度。 音頻信號是在20Hz20kHz頻率范圍內(nèi)的聲音。音頻信號、聲波圖,其中包括兩個重要的殘奧儀表:根據(jù)頻率和振幅、音頻信

2、號、音頻信號的占有頻譜,可以將音頻信號分為三種:1.音頻信號:又稱音頻信號,是人正常發(fā)出的聲音,頻率范圍約為30 3 .噪音信號:人們不感興趣的一種聲音,通常研究如何去除它。 每個這些個的聲音都可以稱為波形音。 正常聲音的強度、正常聲音的分類、音頻信號的數(shù)字化以及音頻信號是正常連續(xù)信號,并且要被計算機處理,必須首先將其數(shù)字化。 另外,一般使用音頻范圍的ADC (模數(shù)變換器)進行音頻信號的數(shù)字化、聲音信號的采樣。 不同ADC主要涉及(1)采樣頻率:采樣頻率,即每秒收集的聲音樣本的數(shù)量。 可能的值應(yīng)當(dāng)滿足Nyquist Theory,即,采樣頻率fs應(yīng)當(dāng)大于或等于語音信號中的最大射頻波數(shù)量fm的兩

3、倍。 采樣頻率的單位為Hz或samples/s。 例如,數(shù)碼電話的采樣速率是8KHz。 音頻信號的數(shù)字化,(2)采樣精度:采樣精度用采樣注音字位數(shù)表示。 樣本的二進制位越多,音質(zhì)越高,因為每個樣本的量化值越接近原始樣本值。 采樣精度的單位為bits/sample。 音頻信號的數(shù)字化、采樣頻率越高,采樣精度越大,數(shù)字化的音響效果越高,但需要的存儲器容量越大。 因此,在實用上,有必要折中考慮音質(zhì)和存儲量的問題。 然后表示另一個精度的方法是信噪比(SNR ),表示為。 其中,Vsignal為信號電壓,Vnoise為噪聲電壓,SNR的單位為分貝(dB )。 信噪比越高,音質(zhì)越好。 音頻信號的數(shù)字化、語

4、音硬件:音頻信號的壓縮編碼的可能性和分類、對于高質(zhì)量和長時間的音頻數(shù)據(jù),由于數(shù)據(jù)量特別大,所以為了有效的存儲和傳送,需要進行壓縮編碼。 (1)音頻信號中包含諸如樣本相關(guān)、時間周期相關(guān)、基本聲音相關(guān)等多種冗馀信息。 (2)利用人類的知覺特性進行壓縮。 (3)根據(jù)聲音的發(fā)生反應(yīng)歷程進行壓縮。 語音信號壓縮編碼的可能性和分類根據(jù)壓縮編碼思想,分為(1)波形編碼(2)源編碼(3)混合編碼(hybbin )這3種進行分類編碼率算法的復(fù)雜度。語音信號壓縮編碼的可能性和分類、波形編碼:不利用語音信號自身的特征。 例如,1.CD質(zhì)量音頻數(shù)據(jù)量:2x44100 x16 b/s 2.電話質(zhì)量音頻數(shù)據(jù)量:8Kx8

5、b/s(DPCM 56Kb/s; ADPCM 32Kb/s )原代碼:進行殘奧儀表化,利用聲音信號的特征進行數(shù)據(jù)壓縮。 例如,信道聲音編碼器的操作原理:基于聲音分析原理將聲音信號分解為一系列頻率分量,并且在各個信道上發(fā)送該這些個分量。語音信號的壓縮編碼的可能性和分類,接收方根據(jù)接收到的數(shù)據(jù)進行語音重構(gòu):將接收到的數(shù)據(jù)中的頻率成分作為語音的基頻,產(chǎn)生一系列脈沖作為濁音,將噪聲發(fā)生器的輸出作為清音。 這種方法可以將語音傳輸速率降低到3Kb/s。 混合編碼:例如,使用語音識別和語音合成系統(tǒng)建構(gòu)的語音壓縮。聲音種類和數(shù)據(jù)速率、聲音根據(jù)頻帶分類為5種: (1)電話(電話)聲音(2)振幅調(diào)變(Amplit

6、ude Modulation )廣播聲音(3)調(diào)頻(frequencymoddion )、聲音類別和數(shù)據(jù)速率、聲音類別和數(shù)據(jù)速率, 我們所熟知的數(shù)字音效文件格式可分為語音質(zhì)量測量、語音質(zhì)量測量兩種。 聲音的客觀質(zhì)量測量以信噪比展開:信噪比越大,聲音的質(zhì)量越好,相反,信噪比越小,音質(zhì)越差的聲音的主觀質(zhì)量測量利用人的感覺(聽覺)進行,通常5分: 1分:差(極有反感)。 2分:差(討厭但不反感) 3分:中(討厭) 4分:良(基本接受) 5分:優(yōu)(效果好),音質(zhì)的測定,2.5數(shù)字音樂的文件形式, WAV文件微軟公司定義的音頻文件形式表示基于PCM編碼直接表現(xiàn)聲波的數(shù)字形式,將以. WAV為擴展名的文件

7、形式稱為波形文件形式(wave file format )。 Wav文件由采樣數(shù)據(jù)組成,所以需要的存儲容量很大。 例如,以44.1kHz的采樣頻率對聲波進行采樣,如果每個采樣點位的量化位數(shù)為16二進制位,則記錄1秒鐘的立體聲節(jié)目,該波形文件所需的存儲容量為44 100162/8176 400 (字節(jié))、 VOC文件是Creative公司的波形聲音文件格式,并且也是聲音的每個VOC文件由文件報頭塊(header block )和音頻數(shù)據(jù)塊(data block )構(gòu)成。 文件頭包含id、版本號和指向數(shù)據(jù)標簽搖滾樂開頭的指針。 數(shù)據(jù)標簽搖滾樂可以分為各種類型的子搖滾樂,例如語音數(shù)據(jù)、靜音、標簽、A

8、SCII查詢密碼文件、重復(fù)結(jié)束、重復(fù)和結(jié)束標志、擴展子搖滾樂等。 的雙曲馀弦值。 VOC格式的音頻文件的文件頭是00H13H字節(jié):文件類型的說明。 前19個字節(jié)包含以下內(nèi)容:創(chuàng)建語音文件。 最后是EOF字節(jié)(1AH) 14H15H字節(jié):其值為001AH 16H17H字節(jié):文件的版本號。 小數(shù)點以下的部分在前面。 如果此編號為1.10,則兩個這些個字節(jié)內(nèi)的值為010AH。 18H19H字節(jié):驗證碼。 從這個查詢密碼可以驗證那個文件是否是真正的VOC文件。 該值是在16H和17H的用戶針織面料中存儲的文件版本號的反轉(zhuǎn)上加上1234H后的值。 例如,如果版本號為1.10,010 ah的反轉(zhuǎn)查詢密碼為

9、FEF5H,則此查詢密碼為FEF5H1234H1129H。 利用電腦聲卡提供的軟件,可以實現(xiàn)VOC和WAV文件的轉(zhuǎn)換。 plum VOC2WAV將創(chuàng)建的VOC文件轉(zhuǎn)換為Microsoft的wav文件。 plum wav2VOC將Microsoft wav文件轉(zhuǎn)換為creative VOC文件。 此外,樂器數(shù)字接口文件不是音樂波形信號而是命令或消息描述音樂上通告,并且可以包括2.5數(shù)字音樂文件格式、RMI、SND RMI是微軟公司的樂器數(shù)字接口文件格式的圖像、標記、文本等。 音頻是PCM(pulse code modulation :脈沖編碼調(diào)制)格式,是通過對模擬計程儀的音頻信號進行模擬計程儀

10、數(shù)字轉(zhuǎn)換(A/D轉(zhuǎn)換)而直接形成的二進制序列,在各文件中沒有附加文件頭部和文件結(jié)束標志SND是另一臺計算機的波形音頻文件格式。 AIF AIF是蘋果電腦的音頻文件格式。 Windows轉(zhuǎn)換工具將AIF格式的文件轉(zhuǎn)換為Microsoft wav格式的文件。 表2-4中根據(jù)一部分聲音文件的擴展名、2.5聲音信號的特征、2.5.1概要(1)聲音數(shù)據(jù)的統(tǒng)一修正特性進行編碼,其典型的技術(shù)是波形編碼。其目標是使重構(gòu)聲音波形保持原來的波形形狀。 PCM (脈沖編碼調(diào)制)是最簡單最基本的編碼方法。 由于查詢密碼直接附加到采樣點,且未壓縮,因此需要更多的存儲空間。 為了減少存儲空間,需要壓縮編碼技術(shù)。 利用音頻

11、采樣寬度分布規(guī)律和相鄰樣本值相關(guān)的特點,提出了DPCM、APCM和自ADPCM等算法,實現(xiàn)了數(shù)據(jù)壓縮。 由于波形編碼適應(yīng)性強,聲音品質(zhì)好,但壓縮比不大,所以數(shù)據(jù)率高。 (2)通過根據(jù)語音的音響殘奧儀表進行殘奧儀表編碼,可進一步降低數(shù)據(jù)速率。 其目標是使重構(gòu)音頻保持原因產(chǎn)品的特性。 常見的音頻殘奧表包括共振峰值、線性預(yù)測系數(shù)和濾波面包車。 該編碼技術(shù)的優(yōu)點是數(shù)據(jù)率低,但是恢復(fù)信號的質(zhì)量差和銳度低。 將這些個的兩個編碼算法很好地組合起來,采用了混合編碼的方法。 因此,可以以低編碼率獲得高音質(zhì)。 例如碼本激勵線性預(yù)測(CELP )、多脈沖激勵線性預(yù)測編碼化(MPLPC )等。 (3)根據(jù)人的聽覺特性

12、進行編碼。 從人類的聽覺系統(tǒng),利用掩蔽效應(yīng)來設(shè)定心理聲學(xué)模型,實現(xiàn)更有效率的數(shù)字音效壓縮。 其中,MPEG標準中的射頻波編碼和Dollby AC-3最有影響。 (4)編碼算法:編碼的作用是以一定的格式記錄數(shù)字數(shù)據(jù),以及以一定的算法壓縮數(shù)字數(shù)據(jù),減少存儲空間,提高傳輸效率。 有損壓縮包括有損壓縮和無損壓縮,這意味著解壓縮后的數(shù)據(jù)無法完全恢復(fù),某些信息將丟失。 壓縮編碼的基本指標之一是壓縮率,通常小于1。 壓縮越多,信息損失越多,信號復(fù)原后的失真越大。 不同的應(yīng)用程序需要選擇不同的壓縮編碼算法。 音頻數(shù)據(jù)的壓縮率可以由下式表示:音頻的波形編碼、波形編碼是指經(jīng)過數(shù)字符號化和解碼過程重構(gòu)的天線計程儀信

13、號波形與原始天線計程儀信號波形盡可能相一致的編碼方法。 一個波形編碼中的重要問題是如何以特定的編碼率獲得最高信噪比(SNR )。 波形編碼有脈沖編碼調(diào)制(PCM )、自適應(yīng)增量調(diào)制(ADM )、自適應(yīng)差分ADPCM、子帶編碼等,其中對數(shù)PCM和ADPCM的應(yīng)用是最普遍的。 脈沖查詢密碼調(diào)制脈沖查詢密碼調(diào)制PCM(Pulse Code Modulation )是模擬計程儀數(shù)字轉(zhuǎn)換的最基本的編碼方法,CD-DA采用這樣的編碼方式。 這是最常見的非壓縮編碼。 忠實度高,解碼速度快,但具有編碼后的數(shù)據(jù)量多的特征。 在數(shù)字音效表示中,采用二進制編碼是有用的,并且所有數(shù)據(jù)都以二進制編碼的定徑套表示。 上述

14、通過對語音的模擬-計程儀/數(shù)字轉(zhuǎn)換而獲得的數(shù)字顯示方法表示瞬時均勻量化器。 這采用被稱為脈沖編碼調(diào)制PCM的編碼方式)。 MPC存儲未用這種方法壓縮的音頻數(shù)據(jù)。 在量化中,量化被表示為自適應(yīng)差分脈沖調(diào)制編碼(ADPCM ),其為有損壓縮,其丟失了信息的一部分。 由于人耳對聲音不敏感,因此適當(dāng)?shù)挠袚p壓縮不太影響觀看回放效果。 ADPCM報告查詢密碼的量化值不是每個采樣點位的大小,而是該點的大小和先前采樣點位的大小之間的差。 因此,每個采樣點位的量化二進制位不需要16個二進制位。 這可以減少信號的容量。 可選幅度差的量化二進制位二進制位是8二進制位、4二進制位和2二進制位。 SB16的ADPCM編

15、碼采用4比特量化二進制位,壓縮CD音質(zhì)信號,其壓縮比為14,壓縮后幾乎辨別不到失真。 對數(shù)PCM的對數(shù)符號率的壓縮作用不大,為了得到大的壓縮效果首先提出了差分編碼的概念。 由于諸如聲音信號之類的相鄰樣本值之間的差較小,相鄰樣本值被減去,從而獲得較小差。 值越小,編碼的二進制位越少,數(shù)字速率越低。為了這種編碼,需要與上述保持相同值的電路進行差分的減法電路,如果在上述相同值保持期間進行寬度預(yù)測則會變得更小。 在ADPCM中,除了自適應(yīng)預(yù)測以外,還根據(jù)輸入信號尺寸自動調(diào)整量化器的量化。 另外,子帶編碼的語音壓縮、子帶編碼是將輸入信號分割為多個子樂隊,并對各子樂隊信號分別獨立進行量化編碼的方式。 其主

16、要優(yōu)點在于,通過分配給各子樂隊的不同量化位數(shù)來控制各自的信噪比,以防止能量小的頻帶內(nèi)的輸入信號被其它段的量化噪聲掩蔽,其中,本樂隊包含錄音帶樂隊信號的所有量化噪聲另外,變換編碼化的語音壓縮、變換編碼化是將輸入信號用時間窗分成短區(qū)間數(shù)據(jù)標簽搖滾樂,進行正交變換,并將變換系數(shù)一個個量化后傳送的方法。 AC-2和AC-3系統(tǒng)采用正交變換,該變換的輸出可以直接傳送給心理聲學(xué)模型進行補正。 因為變換帶寬能夠良好地接近臨界頻帶,所以即使是100Kb/s左右的速率也能夠?qū)崿F(xiàn)透明質(zhì)量。 但是,所有的塊變換都具有塊搖滾樂定效應(yīng),具有在音頻編碼器上產(chǎn)生周期性的低頻噪聲的缺點。 為避免阻塞效應(yīng),出現(xiàn)了一種過說唱樂正

17、交變換(LOT-Lapped Orthogonal Transform )方法。 輸入信號經(jīng)由兩個信道的高低通濾鏡進行頻帶的粗分割,使其中的射頻波部分細分并LOT,低通部分重復(fù)前面的過程。 以這種方式實現(xiàn)的優(yōu)點在于一個子搖滾樂之間存在重疊,另一個可以更加接近臨界帶寬以獲得更好的音頻質(zhì)量。 對合成(混合)編碼進行分析,波形編碼本質(zhì)上根據(jù)采樣定理,是基于采樣值的。 32Kb/s秒的ADPCM等于各樣本值4二進制位,可實現(xiàn)各樣本值2二進制位、總編碼率16Kb/s,音質(zhì)差,應(yīng)用價值小。 因此,必須另外求出低編碼率(16Kb/s以下編碼率)的語音編碼方法。 該方法的出發(fā)點,能夠基于聲音生成的反應(yīng)歷程,對

18、與人的發(fā)音模型有關(guān)的殘奧儀表進行分析編碼,在編碼側(cè)對聲音的特征殘奧儀表進行分析編碼,基于在解碼側(cè)接收到的殘奧儀表查詢密碼進行聲音合成,從而能夠降低數(shù)字效率。 分析合成編碼是近10年來語音壓縮編碼研究的熱點,有幾十種不同的方案。 最有代表性的線性預(yù)測編碼和符號激勵線性預(yù)測編碼。 音頻編碼技術(shù)的新發(fā)展,1 .信號分解和濾波器面包車諧無論是改進現(xiàn)有方案,還是探索新路徑,其關(guān)鍵問題都需要如何利用掩蔽效應(yīng),最有效地分解輸入信號。 信號的分解通??梢酝ㄟ^多速率濾波器面包車或等效的過說唱樂變換來得到。 近年來,濾波面包車的研究形成了構(gòu)成濾波面包車的兩個標準。 也就是說,1 .關(guān)鍵伊卡斯采樣意味著子樂隊信道的總速率等于輸入樣本值的速率。 2 .完全重建意味著分解信號能夠在無量化失真的情況下精確地復(fù)原原始信號。 臨界樣本保持語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論