第三章-多媒體音頻信息處理

上傳人：a*** IP屬地：北京上傳時間：2020-09-16 格式：PPT 頁數(shù)：74 大?。?35.50KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩69頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第三章,多媒體音頻信息處理,聲音是攜帶信息的極其重要的媒體，是多媒體技術(shù)研究中的一個重要內(nèi)容。聲音的種類繁多，如人的話音、樂器聲、動物發(fā)出的聲音、機器產(chǎn)生的聲音以及自然界的聲音等。這些聲音有許多共同的特性，也有它們各自的特性。在用計算機處理這些聲音時，既要考慮它們的共性，又要利用它們的各自的特性。,一、音頻信號的分類,音頻信號可分為兩類：,語音信號：語音是語言的物質(zhì)載體，它包含了豐富的語言內(nèi)涵，是人類進行信息交流所特有的形式。非語音信號：主要包括音樂和自然界存在的其他聲音形式。非語音信號的特點是不含復(fù)雜的語義和語法信息，其信息量低，識別簡單。,二、音頻信號的形式,聲音可用一條連續(xù)的

2、曲線來表示。這條連續(xù)的曲線無論多么復(fù)雜，都可分解成一系列正炫波的線性疊加，稱為聲波。因聲波是在時間上和幅度上都連續(xù)變化的量，因此稱之為模擬量。模擬信號有兩個重要參數(shù)：頻率和幅度。,一個聲源每秒鐘可產(chǎn)生成百上千個波峰，把每秒鐘波峰所發(fā)生的數(shù)目稱之為信號的頻率。信號周期是指兩個峰點或谷底之間的相對時間。信號的基線提供了一個測量聲音的起點。信號的幅度是從信號的基線到當(dāng)前波峰的距離。幅度決定了信號音量的強弱程度。信號帶寬是聲音信號的一個重要參數(shù)，它用來描述組成復(fù)合信號的頻率范圍。,振幅,周期,基線,1GHz10GHz,超高聲波,20kHz1GHz,超聲波,20Hz20kHz,人類

3、聽力所能接受,020Hz,亞聲波,頻率范圍,聲音分類,三、聲音質(zhì)量的評價,客觀質(zhì)量度量：用信噪比來衡量。主觀質(zhì)量度量,現(xiàn)在公認的聲音質(zhì)量分為4級,數(shù)字激光唱盤質(zhì)量調(diào)頻無線電廣播調(diào)幅無線電廣播電話質(zhì)量,CD-DA,FM廣播,AM廣播,電話,10 20 50 200 3.4K 7K 15K 22K,四、模擬音頻的數(shù)字化過程,話音信號是典型的連續(xù)信號，不僅在時間上是連續(xù)的，而且在幅度上也是連續(xù)的。在時間上“連續(xù)”是指在一個指定的時間范圍里聲音信號的幅值有無窮多個，在幅度上“連續(xù)”是指幅度的數(shù)值有無窮多個。我們把在時間和幅度上都是連續(xù)的信號稱為模擬信號。,如果要用計算機對音頻信息進行處理,則首

4、先將模擬音頻信號(如語音、音樂等)轉(zhuǎn)換成數(shù)字信號. 對模擬音頻數(shù)字化的過程涉及到音頻的采樣、量化和編碼.,模擬音頻信號,采樣,量化,編碼,數(shù)字音頻信號,計算機對聲音的表示主要是通過規(guī)則的時間間隔測出音波振動的幅度從而產(chǎn)生的一系列聲音數(shù)據(jù)。這種測出數(shù)據(jù)的方法就稱為采樣，一秒內(nèi)采樣的次數(shù)稱為采樣率（sampling rate），單位為Hz。例如：采樣頻率通常采用種:11.025KHz(語音效果)、22.05KHz(音樂效果)44.1KHz(高保真效果)。常見的CD唱盤的采樣頻率即為44.1KHz。,采樣,奈奎斯特理論:采樣頻率與聲音頻率之間有一定的關(guān)系,只有采樣頻率高于聲音信號最高頻率的

5、兩倍時,才能把數(shù)字信號表示的聲音還原成為原來的聲音. 例如:CD唱片,要想獲得CD音質(zhì)的效果,則要保證采樣頻率為44.1KHz.,采樣的離散音頻數(shù)據(jù)要轉(zhuǎn)換成計算機能夠表示的數(shù)據(jù)范圍的過程,我們把對聲波波形幅度的數(shù)字化表示稱之為“量化” 量化的過程首先將采樣后的信號按整個聲波的幅度劃分成有限個區(qū)段的集合,把落入某個區(qū)段內(nèi) 的樣值歸為一類,并賦予相同的量化值.,量化,(c) 采樣信號的量化,(a) 模擬音頻信號,(b) 音頻信號的采樣,數(shù)字化音頻的過程如下圖所示。,量化位數(shù) 量化位數(shù)也稱“量化精度”，是描述每個采樣點樣值的二進制位數(shù)。例如，8位量化位數(shù)表示每個采樣值可以用28即256

6、個不同的量化值之一來表示，而16位量化位數(shù)表示每個采樣值可以用216即 65536個不同的量化值之一來表示。這個參數(shù)就是通常所說的聲卡的位數(shù).常用的量化位數(shù)為8位、16 位、32位,專業(yè)級的高檔聲卡有64位的。,編碼,為什么要對音頻編碼？,A、獲取更好的數(shù)學(xué)描述方法？ B、讓聲音不失真？ C、不編碼就不是比特流？ D、為了使比特流更加簡練？ E、為了便于計算機存儲？ F、為了便于在網(wǎng)絡(luò)上傳輸音頻？,以上哪個是最根本的出發(fā)點？,所謂編碼,就是按照一定的格式把離散的數(shù)字記錄下來,并在有用的數(shù)據(jù)中加入一些用于糾錯、同步和控制的數(shù)據(jù).在數(shù)據(jù)回放時,可以根據(jù)所記錄的糾錯數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是

7、否有錯,如在一定范圍內(nèi)有錯,可加以糾正.,五、音頻信號的壓縮編碼與標(biāo)準,數(shù)字波形文件數(shù)據(jù)量大，數(shù)字音頻的編碼必須采用高效的數(shù)據(jù)壓縮編碼技術(shù)。對數(shù)字化后的聲音信號進行壓縮編碼,使其成為具有一定字長的二進制數(shù)字序列,并以這種形式在計算機內(nèi)傳輸和存儲.在播放時經(jīng)解碼器恢復(fù)成原來的聲音信號.,輸入信號,編碼器,傳輸/存儲,解碼器,輸出信號,音頻信號能夠被壓縮編碼的依據(jù)有兩個，一是聲音信號存在著數(shù)據(jù)冗余；二是利用人的聽覺特性來降低編碼率，人的聽覺具有一個強音能抑制一個同時存在的弱音現(xiàn)象，這樣就可以抑制與信號同時存在的量化噪聲；另外人耳對低頻端比較敏感，而對高頻端不太敏感，由此引出了

8、“子帶編碼技術(shù)”。音頻信號的編碼方式可分為波形編碼參數(shù)編碼和混合編碼三種。,波形編碼的算法簡單，易于實現(xiàn)，可獲得高質(zhì)量的語音。常見的三種波形編碼方法為：脈沖編碼調(diào)制(PCM)，實際為直接對聲音信號作 AD轉(zhuǎn)換。只要采樣頻率足夠高，量化位數(shù)足夠多，就能使解碼后恢復(fù)的聲音信號有很高的質(zhì)量。差分脈沖編碼調(diào)制(DPCM)，即只傳輸聲音預(yù)測值和樣本值的差值以此降低音頻數(shù)據(jù)的編碼率。自適應(yīng)差分編碼調(diào)制(ADPCM)，是DPCM方法的進一步改進，通過調(diào)整量化步長，對不同頻段設(shè) 置不同的量化字長，使數(shù)據(jù)得到進一步的壓縮。,2). 參數(shù)編碼參數(shù)編碼方法通過建立起聲音信號的產(chǎn)生模型，將聲音

9、信號用模型參數(shù)來表示，再對參數(shù)進行編碼，在聲音播放時根據(jù)參數(shù)重建聲音信號。參數(shù)編碼法算法復(fù)雜，計算量大，壓縮率高，但還原聲音的質(zhì)量不高。 3). 混合編碼混合編碼是把波形編碼的高質(zhì)量和參數(shù)編碼的低數(shù)據(jù)率結(jié)合在一起，取得了較好效果。,脈沖編碼調(diào)制(PCM),PCM編碼是對連續(xù)語音信號進行空間采樣, 幅度值量化及用適當(dāng)碼字將其編碼的總稱.PCM 方法可以按量化方式的不同,分為均勻量化PCM, 非均勻量化PCM和自適應(yīng)量化PCM等三種.,均勻量化,非均勻量化,差分脈沖編碼調(diào)制(DPCM),他編碼的不是聲音采樣樣本值,而是樣本值及其預(yù)測值的差分。根據(jù)過去的樣本去估算(estimate) 下

10、一個樣本信號的幅度大小，這個值稱為預(yù)測值，然后對實際信號值與預(yù)測值之差進行量化編碼，從而就減少了表示每個樣本信號的位數(shù)。,自適應(yīng)差分脈沖編碼 (ADPCM),自適應(yīng)就是使量化間隔大小的變化自動的去適應(yīng)輸入信號大小的變化.他根據(jù)信號分布不均勻的特點,是系統(tǒng)具有隨輸入信號的變化而改變量化區(qū)間的大小,以保證輸入量化器的信號基本均勻的能力.,標(biāo)準比特速度編碼技術(shù) 應(yīng)用制定日期,G.723 5.3kb/s或6.3kb/s MP-MLQ 視頻電話及IP電話等 1996.3,G.722 64kb/s SBC+ADPCM 視聽多媒體和會議電話 1988.11,G.711 64kb/s PCM

11、公共電話網(wǎng) 1972,G.728 16kb/s LD-CELP 公共電話網(wǎng) 1992.9,G.729 8kb/s CS-ACELP 無線移動網(wǎng)、 1996.3 計算機通信系統(tǒng)等,ITU-T G系列音頻壓縮編碼標(biāo)準,音頻編碼標(biāo)準和算法,六、數(shù)字音頻的文件格式,WAV文件,WAV文件又稱為波形文件,是Micorsoft公司的文件格式.WAV文件來源于對聲音模擬波形的采樣,并以不同的量化位數(shù)把這些采樣點的值轉(zhuǎn)換成二進制數(shù).,WAVE聲音文件是使用RIFF(資源交換文件)的格式描述的,對于PCM采樣得到的波形文件,其聲音文件的大小與采樣頻率、量化位數(shù)和聲道數(shù)有關(guān). 文件大小=采樣頻率*(量化

12、位數(shù)/8)*聲道數(shù)* 錄音時間,如：對于立體聲，如果采樣頻率為44.1Kz，分辨率為 16bit，聲道數(shù)為2，語音時間為10秒，求錄音文件的大??？,VOC文件,VOC文件是Creative公司所使用的標(biāo)準音頻文件格式。與WAVE格式類似，VOC文件有文件頭塊和音頻數(shù)據(jù) 塊組成。文件頭包含一個標(biāo)識、版本號和一個指向數(shù) 據(jù)塊起始地址的指針。數(shù)據(jù)塊分成各種類型的子塊，如聲音數(shù)據(jù)、靜音、標(biāo)記、重復(fù)、重復(fù)的結(jié)束及終止標(biāo)記等。,mp3文件,是用一種屬于按MPEG標(biāo)準的聲音壓縮技術(shù)制作的數(shù)字音頻文件。,存儲空間小,同樣長度的音樂文件，用MP3 存儲相當(dāng)于WAV的1/10。比較好的播放器：wina

13、mp、超級解霸、 realplayer等，一般都支持。,Real Player公司推出的適合于網(wǎng)絡(luò)播放的媒體格式。,高壓縮比，存儲空間小。適合網(wǎng)絡(luò)播放。音質(zhì)不是很好。專用播放器Realplayer、超級解霸2001以上的版本等,RA格式文件,AIF是音頻交換文件格式（Audio Interchange File Format）的英文縮寫，是蘋果計算機公司開發(fā)的一種聲音文件格式。,AIFF格式文件,七、聲卡,雖然PC聲卡是在20世紀90年代才得以普及，但它的問世卻是在1984年。英國的ADLIB公司是目前公認的“聲卡之父”，雖然他們最初開發(fā)的產(chǎn)品只能提供簡單的聲音效果，并且無法

14、處理音頻信號，但在當(dāng)時無疑已經(jīng)是一個很大的突破。由于技術(shù)不夠成熟，成本又非常昂貴，因此這類帶有試驗品性質(zhì)的早期ADLIB 音樂卡，因在當(dāng)時計算機的運算速度還不足以應(yīng)付大規(guī)模的多媒體處理，所以未能普及。,七、聲卡,（一）功能,錄制、編輯和回放數(shù)字聲音文件控制各聲源的音量并混合在一起對聲波文件進行壓縮和解壓縮語音合成技術(shù) MIDI接口（樂器數(shù)字接口）,（二）聲卡的技能指標(biāo),音頻技術(shù)指標(biāo),聲卡的錄音、放音效果應(yīng)該具有CD唱片的音質(zhì)。所謂CD音質(zhì)是指錄音采樣速度達到44.1kHz，用16 位量化指標(biāo)來記錄聲音。Sound Blaster 16（即16位聲霸卡）系列的聲卡都是CD音質(zhì)的聲

15、卡。,（二）聲卡的技能指標(biāo),MIDI聲頻,MIDI是計算機產(chǎn)生聲音的另一種方法，它是一種電子音樂。計算機播放MIDI文件時，有兩種方法合成聲音：FM合成和波表合成。我們在考慮聲卡的技能指標(biāo)時要考慮采用的哪種合成方法。,（二）聲卡的技能指標(biāo),聲道數(shù),聲卡所支持的聲道數(shù)也是重要指標(biāo)。單聲道是比較原始的聲音復(fù)制形式，缺乏對聲音的位置定位。立體聲聲音在錄制過程中被分配到兩個獨立的聲道，從而達到了很好的聲音定位效果。,（二）聲卡的技能指標(biāo),隨著波表合成技術(shù)的出現(xiàn)，由雙聲道立體聲向多聲道環(huán)繞聲的發(fā)展顯得格外迫切。四聲道環(huán)繞規(guī)定了4個發(fā)音點：前左、前右、后左、后右，聽眾則被包圍在這中間，同時還

16、建議增加一個低音音箱，以加強對低頻信號的回放處理（這也是如今4.1聲道音箱系統(tǒng)廣泛流行的原因）。,（二）聲卡的技能指標(biāo),5.1聲道已廣泛運用于各類傳統(tǒng)影院和家庭影院中，該聲音系統(tǒng)來源于4.1環(huán)繞，不同之處在于它增加了一個中置單元，這個中置單元負責(zé)傳送低于80 Hz的聲音信號，在欣賞影片時有利于加強人聲，把對話集中在整個聲場的中部，以增強整體效果。,（二）聲卡的技能指標(biāo),多音頻流輸出,多音頻流輸出是指聲卡可以在同一時間內(nèi)支持多個wav、mp3、midi類音頻文件的播放。目前大部分中高檔的PCI聲卡是普遍支持多音頻流輸出的，,（二）聲卡的技能指標(biāo),I/O設(shè)備接口,一般的聲卡都設(shè)有線性

17、輸入、線性輸出、音箱輸出、MIDI和游戲桿接口等。,（二）聲卡的技能指標(biāo),系統(tǒng)參數(shù)的可調(diào)性,為避免I/O地址、DMA、IRQ對系統(tǒng)的沖突，聲卡參數(shù)必須是能過設(shè)置的。當(dāng)前是利用軟件進行設(shè)置才最為方便，早期的聲卡有可能需要調(diào)整跳線。,（二）聲卡的技能指標(biāo),聲卡軟件,聲卡軟件很重要，一塊聲卡的技術(shù)指標(biāo)再高，但缺乏應(yīng)用軟件的支持，都很難發(fā)揮其特長。聲卡一般都帶有應(yīng)用程序，這些應(yīng)用程序包括錄音軟件、WAV、CD及MIDI播放軟件、混音器、WAV 文件編輯器等。高檔的聲卡還提供特殊效果播放器、文字閱讀軟件及語音識別軟件等。,（二）聲卡的技能指標(biāo),總線結(jié)構(gòu),由于計算機技術(shù)突飛猛進的發(fā)展，IS

18、A總線已經(jīng) 不能滿足音頻信號的高吞吐量的需要，于是產(chǎn)生了 PCI聲卡。,（三）聲卡的插孔與連接,（四）聲卡的安裝,(1). 硬件安裝步驟1 關(guān)閉計算機電源，拔下供電電源和所有外接線插頭。步驟2 打開機箱外殼，選擇一個空閑的16位擴展槽并將聲卡插入擴展槽。步驟3 連接來自CD-ROM驅(qū)動器的音頻輸出線到聲卡的CD IN針形輸入線上；步驟4 蓋上機箱外殼，并將電源插頭插回。步驟5 聲卡與其它外設(shè)的連接，按下頁圖進行。,LINE IN,LINE OUT,SPK OUT,MIDI,錄音機、CD唱機等線性輸入,話筒,揚聲器,線性輸出立體聲放大器,MIC IN,(2). 軟件安裝對不

19、同的聲卡，軟件的安裝方法不完全相同，需要按照說明書安裝。 1). 安裝驅(qū)動程序聲卡的驅(qū)動程序是控制聲卡工作的必要程序，不同的聲卡驅(qū)動程序是不同的。 2). 安裝應(yīng)用程序安裝聲卡的應(yīng)用程序，例如混音器、錄音師和MIDI編輯軟件等。,八、電子樂器數(shù)字接口MIDI,使用計算機利用聲音合成技術(shù)生成音樂的技術(shù)稱為電子音樂合成。 MIDI是Musical Instrument Digital Interface的首寫字母組合詞，可譯成“電子樂器數(shù)字接口”。用于在音樂合成器(music synthesizers)、樂器(musical instruments)和計算機之間交換音樂信息的一種標(biāo)準協(xié)議

20、。,（一）有關(guān)的MIDI術(shù)語,MIDI合成器：能產(chǎn)生特定聲音的電子裝置，其數(shù)據(jù) 傳輸符合MIDI通信約定。 MIDI信息或指令：樂譜的一種記錄格式，相當(dāng)于樂譜語言。 MIDI接口：MIDI硬件通信協(xié)議。 MIDI通道：提供了16個通道，每種通道對應(yīng)一種邏輯的合成器。 MIDI文件：是存放MIDI信息的標(biāo)準文件格式。音序器：用來記錄、編輯和播放MIDI文件的軟件。,（二）MIDI工作過程,MIDI電子樂器通過MIDI接口與計算機相連， MIDI靠這個接口來傳遞信息而進行彼此間的通信。,MIDI樂器,MIDI接口,合成器,音序器,MIDI文件,揚聲器,PC機,音頻卡,MIDI指令,模擬音頻信

21、號,MIDI鍵盤,MIDI鍵盤是用于MIDI樂曲演奏的，MIDI鍵盤本身并不發(fā)出聲音，當(dāng)作曲人員觸動鍵盤上的按鍵時，就發(fā)出按鍵信息，所產(chǎn)生的僅僅是MIDI 音樂消息，從而由音序器錄制生成MIDI文件。,音序器(Sequencer),用于記錄、編輯、播放MIDI的聲音文件，音序器有以硬件形式提供的，目前大多為軟件音序器。音序器可捕捉MIDI消息，將其存入MIDI文件，MIDI文件擴展名為 .MID。音序器還可編輯 MIDI文件。,合成器,MIDI文件的播放是通過MIDI合成器，合成器解釋MIDI文件中的指令符號，生成所需要的聲音波形，經(jīng)放大后由揚聲器輸出，聲音的效果比較豐富。,M

22、IDI信息實際上是對一段音樂的描述或理解成是樂譜的數(shù)字描述。它包括音符、節(jié)拍、樂器種類等。MIDI信息包含兩個大的部分：狀態(tài)信息和數(shù)據(jù)信息。狀態(tài)信息用于描述音符被演奏還是被加強聲音這類信息，而數(shù)據(jù)信息則側(cè)重描述哪個音符被演奏或被加強的聲音的強度如何等可以用量來表示的信息。,理解MIDI工作方式的最直接的方法就是看 MIDI信息是什么？,（三）MIDI合成器,合成器是利用數(shù)字信號處理器DSP或其他芯片來產(chǎn)生音樂或聲音的電子裝置。利用合成器產(chǎn)生 MIDI樂音的主要方法是FM合成法和波表合成法。,FM合成法,是20世紀80年代初由美國斯坦福大學(xué)的研究生發(fā)明的，稱為“數(shù)字式頻率調(diào)制合成

23、法”，其基本原理是：用數(shù)字信號來表示不同樂音的波形，然后把它們組合起來，在通過數(shù)模轉(zhuǎn)換器生成樂音播放。,FM合成器工作原理,波表合成法,即樂音樣本合成法。與FM合成不同，波表合成是采用真實的聲音樣本進行回放，聲音樣本記錄了各種真實樂器的采樣波形，并保存在ROM或RAM中。硬波表：音色庫存放在聲卡的ROM或RAM中。軟波表：音色庫以文件的形式存放在硬盤里，需要時再通過CPU進行調(diào)用。,波表合成器工作原理,（四）GMMIDI樂器排序表,以前各生產(chǎn)商在設(shè)計MIDI發(fā)聲工具時并沒有一個統(tǒng)一的樂器排序標(biāo)準。基于這種情況，各生產(chǎn)商達成了共識，共同編制了一份“標(biāo)準MIDI樂器排序表”，他共收錄了 16種不同的樂器，每類各選8件，全部總共有128 件樂器。,(1). 由于MIDI文件只是一系列指令的集合，因此它比數(shù) 字波形文件小得多，大大節(jié)省了存儲空間。 (2). 使用MIDI文件，其聲音卡上必需含有硬件音序器或者配置有軟件音序器。 (3). MIDI聲音適于重現(xiàn)打擊樂或一些電子樂器的聲音

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第三章-多媒體音頻信息處理

文檔簡介

溫馨提示

最新文檔

評論

第三章-多媒體音頻信息處理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔