第三章-多媒體音頻信息處理_第1頁
第三章-多媒體音頻信息處理_第2頁
第三章-多媒體音頻信息處理_第3頁
第三章-多媒體音頻信息處理_第4頁
第三章-多媒體音頻信息處理_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第三章,多媒體音頻信息處理,聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研究中的一個重要內(nèi)容。聲音的種類繁多,如人的話音、樂器聲、動物發(fā)出的聲音、機器產(chǎn)生的聲音以及自然界的聲音等。 這些聲音有許多共同的特性,也有它們各自的特性。在用計算機處理這些聲音時,既要考慮它們的共性,又要利用它們的各自的特性。,一、音頻信號的分類,音頻信號可分為兩類:,語音信號:語音是語言的物質(zhì)載體,它包含了 豐富的語言內(nèi)涵,是人類進行信息交流所特有 的形式。 非語音信號:主要包括音樂和自然界存在的其他 聲音形式。非語音信號的特點是不含復(fù)雜的語義 和語法信息,其信息量低,識別簡單。,二、音頻信號的形式,聲音可用一條連續(xù)的

2、曲線來表示。這條連 續(xù)的曲線無論多么復(fù)雜,都可分解成一系列正 炫波的線性疊加,稱為聲波。因聲波是在時間 上和幅度上都連續(xù)變化的量,因此稱之為模擬 量。模擬信號有兩個重要參數(shù):頻率和幅度。,一個聲源每秒鐘可產(chǎn)生成百上千個波峰,把每 秒鐘波峰所發(fā)生的數(shù)目稱之為信號的頻率。 信號周期是指兩個峰點或谷底之間的相對時間。 信號的基線提供了一個測量聲音的起點。信號 的幅度是從信號的基線到當(dāng)前波峰的距離。幅 度決定了信號音量的強弱程度。 信號帶寬是聲音信號的一個重要參數(shù),它用來描 述組成復(fù)合信號的頻率范圍。,振幅,周期,基線,1GHz10GHz,超高聲波,20kHz1GHz,超聲波,20Hz20kHz,人類

3、聽力所能接受,020Hz,亞聲波,頻率范圍,聲音分類,三、聲音質(zhì)量的評價,客觀質(zhì)量度量:用信噪比來衡量。 主觀質(zhì)量度量,現(xiàn)在公認的聲音質(zhì)量分為4級,數(shù)字激光唱盤質(zhì)量 調(diào)頻無線電廣播 調(diào)幅無線電廣播 電話質(zhì)量,CD-DA,FM廣播,AM廣播,電話,10 20 50 200 3.4K 7K 15K 22K,四、模擬音頻的數(shù)字化過程,話音信號是典型的連續(xù)信號,不僅在時間上是連續(xù)的,而且在幅度上也是連續(xù)的。在時間上“連續(xù)”是指在一個指定的時間范圍里聲音信號的幅值有無窮多個,在幅度上“連續(xù)”是指幅度的數(shù)值有無窮多個。我們把在時間和幅度上都是連續(xù)的信號稱為模擬信號。,如果要用計算機對音頻信息進行處理,則首

4、先將 模擬音頻信號(如語音、音樂等)轉(zhuǎn)換成數(shù)字信號. 對模擬音頻數(shù)字化的過程涉及到音頻的采樣、 量化和編碼.,模擬音頻信號,采樣,量化,編碼,數(shù)字音頻信號,計算機對聲音的表示主要是通過規(guī)則的時間間隔測出音波振動的幅度從而產(chǎn)生的一系列聲音數(shù)據(jù)。這種測出數(shù)據(jù)的方法就稱為采樣,一秒內(nèi)采樣的次數(shù)稱為采樣率(sampling rate),單位為Hz。 例如:采樣頻率通常采用種:11.025KHz(語音效果)、22.05KHz(音樂效果)44.1KHz(高保真效果)。常見的CD唱盤的采樣頻率即為44.1KHz。,采樣,奈奎斯特理論:采樣頻率與聲音頻率之間有 一定的關(guān)系,只有采樣頻率高于聲音信號最 高頻率的

5、兩倍時,才能把數(shù)字信號表示的聲 音還原成為原來的聲音. 例如:CD唱片,要想獲得CD音質(zhì)的效果,則要 保證采樣頻率為44.1KHz.,采樣的離散音頻數(shù)據(jù)要轉(zhuǎn)換成計算機能夠表示的 數(shù)據(jù)范圍的過程,我們把對聲波波形幅度的數(shù)字化 表示稱之為“量化” 量化的過程首先將采樣后的信號按整個聲波的幅 度劃分成有限個區(qū)段的集合,把落入某個區(qū)段內(nèi) 的樣值歸為一類,并賦予相同的量化值.,量化,(c) 采樣信號的量化,(a) 模擬音頻信號,(b) 音頻信號的采樣,數(shù)字化音頻的過程如下圖所示。,量化位數(shù) 量化位數(shù)也稱“量化精度”,是描述每個采樣 點樣值的二進制位數(shù)。例如,8位量化位數(shù)表示每 個采樣值可以用28即256

6、個不同的量化值之一來表 示,而16位量化位數(shù)表示每個采樣值可以用216即 65536個不同的量化值之一來表示。這個參數(shù)就是 通常所說的聲卡的位數(shù).常用的量化位數(shù)為8位、16 位、32位,專業(yè)級的高檔聲卡有64位的。,編碼,為什么要對音頻編碼?,A、獲取更好的數(shù)學(xué)描述方法? B、讓聲音不失真? C、不編碼就不是比特流? D、為了使比特流更加簡練? E、為了便于計算機存儲? F、為了便于在網(wǎng)絡(luò)上傳輸音頻?,以上哪個是最根本的出發(fā)點?,所謂編碼,就是按照一定的格式把離散的數(shù)字 記錄下來,并在有用的數(shù)據(jù)中加入一些用于糾錯、 同步和控制的數(shù)據(jù).在數(shù)據(jù)回放時,可以根據(jù)所記 錄的糾錯數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是

7、否有錯,如 在一定范圍內(nèi)有錯,可加以糾正.,五、音頻信號的壓縮編碼與標(biāo)準,數(shù)字波形文件數(shù)據(jù)量大,數(shù)字音頻的編碼 必須采用高效的數(shù)據(jù)壓縮編碼技術(shù)。對數(shù)字化后 的聲音信號進行壓縮編碼,使其成為具有一定字長 的二進制數(shù)字序列,并以這種形式在計算機內(nèi)傳輸 和存儲.在播放時經(jīng)解碼器恢復(fù)成原來的聲音信號.,輸入信號,編碼器,傳輸/存儲,解碼器,輸出信號,音頻信號能夠被壓縮編碼的依據(jù)有兩個, 一是聲音信號存在著數(shù)據(jù)冗余;二是利用人 的聽覺特性來降低編碼率,人的聽覺具有一 個強音能抑制一個同時存在的弱音現(xiàn)象,這 樣就可以抑制與信號同時存在的量化噪聲; 另外人耳對低頻端比較敏感,而對高頻端不 太敏感,由此引出了

8、“子帶編碼技術(shù)”。 音頻信號的編碼方式可分為波形編碼 參數(shù)編碼和混合編碼三種。,波形編碼的算法簡單,易于實現(xiàn),可獲得 高質(zhì)量的語音。常見的三種波形編碼方法為: 脈沖編碼調(diào)制(PCM),實際為直接對聲音信號作 AD轉(zhuǎn)換。只要采樣頻率足夠高,量化位數(shù)足 夠多,就能使解碼后恢復(fù)的聲音信號有很高的 質(zhì)量。 差分脈沖編碼調(diào)制(DPCM),即只傳輸聲音預(yù)測 值和樣本值的差值以此降低音頻數(shù)據(jù)的編碼率。 自適應(yīng)差分編碼調(diào)制(ADPCM),是DPCM方法的進 一步改進,通過調(diào)整量化步長,對不同頻段設(shè) 置不同的量化字長,使數(shù)據(jù)得到進一步的壓縮。,2). 參數(shù)編碼 參數(shù)編碼方法通過建立起聲音信號的產(chǎn)生 模型,將聲音

9、信號用模型參數(shù)來表示,再對參 數(shù)進行編碼,在聲音播放時根據(jù)參數(shù)重建聲音 信號。參數(shù)編碼法算法復(fù)雜,計算量大,壓縮 率高,但還原聲音的質(zhì)量不高。 3). 混合編碼 混合編碼是把波形編碼的高質(zhì)量和參數(shù)編 碼的低數(shù)據(jù)率結(jié)合在一起,取得了較好效果。,脈沖編碼調(diào)制(PCM),PCM編碼是對連續(xù)語音信號進行空間采樣, 幅度值量化及用適當(dāng)碼字將其編碼的總稱.PCM 方法可以按量化方式的不同,分為均勻量化PCM, 非均勻量化PCM和自適應(yīng)量化PCM等三種.,均勻量化,非均勻量化,差分脈沖編碼調(diào)制(DPCM),他編碼的不是聲音采樣樣本值,而是樣本值及 其預(yù)測值的差分。根據(jù)過去的樣本去估算(estimate) 下

10、一個樣本信號的幅度大小,這個值稱為預(yù)測值, 然后對實際信號值與預(yù)測值之差進行量化編碼, 從而就減少了表示每個樣本信號的位數(shù)。,自適應(yīng)差分脈沖編碼 (ADPCM),自適應(yīng)就是使量化間隔大小的變化自動的去 適應(yīng)輸入信號大小的變化.他根據(jù)信號分布不均勻 的特點,是系統(tǒng)具有隨輸入信號的變化而改變量化 區(qū)間的大小,以保證輸入量化器的信號基本均勻的 能力.,標(biāo)準 比特速度 編碼技術(shù) 應(yīng)用 制定日期,G.723 5.3kb/s或6.3kb/s MP-MLQ 視頻電話及IP電話等 1996.3,G.722 64kb/s SBC+ADPCM 視聽多媒體和會議電話 1988.11,G.711 64kb/s PCM

11、 公共電話網(wǎng) 1972,G.728 16kb/s LD-CELP 公共電話網(wǎng) 1992.9,G.729 8kb/s CS-ACELP 無線移動網(wǎng)、 1996.3 計算機通信系統(tǒng)等,ITU-T G系列音頻壓縮編碼標(biāo)準,音頻編碼標(biāo)準和算法,六、數(shù)字音頻的文件格式,WAV文件,WAV文件又稱為波形文件,是Micorsoft公司的文件 格式.WAV文件來源于對聲音模擬波形的采樣,并以 不同的量化位數(shù)把這些采樣點的值轉(zhuǎn)換成二進制數(shù).,WAVE聲音文件是使用RIFF(資源交換文件)的格式 描述的,對于PCM采樣得到的波形文件,其聲音文件 的大小與采樣頻率、量化位數(shù)和聲道數(shù)有關(guān). 文件大小=采樣頻率*(量化

12、位數(shù)/8)*聲道數(shù)* 錄音時間,如:對于立體聲,如果采樣頻率為44.1Kz,分辨率為 16bit,聲道數(shù)為2,語音時間為10秒,求錄音文件 的大???,VOC文件,VOC文件是Creative公司所使用的標(biāo)準音頻文件格式。 與WAVE格式類似,VOC文件有文件頭塊和音頻數(shù)據(jù) 塊組成。文件頭包含一個標(biāo)識、版本號和一個指向數(shù) 據(jù)塊起始地址的指針。數(shù)據(jù)塊分成各種類型的子塊, 如聲音數(shù)據(jù)、靜音、標(biāo)記、重復(fù)、重復(fù)的結(jié)束及終止 標(biāo)記等。,mp3文件,是用一種屬于按MPEG標(biāo)準的聲音壓縮技術(shù)制作的 數(shù)字音頻文件。,存儲空間小,同樣長度的音樂文件,用MP3 存儲相當(dāng)于WAV的1/10。 比較好的播放器:wina

13、mp、超級解霸、 realplayer等,一般都支持。,Real Player公司推出的適合于網(wǎng)絡(luò)播放的 媒體格式。,高壓縮比,存儲空間小。 適合網(wǎng)絡(luò)播放。 音質(zhì)不是很好。 專用播放器Realplayer、 超級解霸2001以上的版本等,RA格式文件,AIF是音頻交換文件格式(Audio Interchange File Format)的英文縮寫,是蘋果計算機公司開發(fā)的一 種聲音文件格式。,AIFF格式文件,七、聲卡,雖然PC聲卡是在20世紀90年代才得以普及,但 它的問世卻是在1984年。英國的ADLIB公司是目前公 認的“聲卡之父”,雖然他們最初開發(fā)的產(chǎn)品只能提供 簡單的聲音效果,并且無法

14、處理音頻信號,但在當(dāng)時 無疑已經(jīng)是一個很大的突破。由于技術(shù)不夠成熟,成 本又非常昂貴,因此這類帶有試驗品性質(zhì)的早期ADLIB 音樂卡,因在當(dāng)時計算機的運算速度還不足以應(yīng)付大 規(guī)模的多媒體處理,所以未能普及。,七、聲卡,(一)功能,錄制、編輯和回放數(shù)字聲音文件 控制各聲源的音量并混合在一起 對聲波文件進行壓縮和解壓縮 語音合成技術(shù) MIDI接口(樂器數(shù)字接口),(二)聲卡的技能指標(biāo),音頻技術(shù)指標(biāo),聲卡的錄音、放音效果應(yīng)該具有CD唱片的音質(zhì)。 所謂CD音質(zhì)是指錄音采樣速度達到44.1kHz,用16 位量化指標(biāo)來記錄聲音。Sound Blaster 16(即16位 聲霸卡)系列的聲卡都是CD音質(zhì)的聲

15、卡。,(二)聲卡的技能指標(biāo),MIDI聲頻,MIDI是計算機產(chǎn)生聲音的另一種方法,它是一種 電子音樂。計算機播放MIDI文件時,有兩種方法合成 聲音:FM合成和波表合成。我們在考慮聲卡的技能指標(biāo)時要考慮采用的哪種合成方法。,(二)聲卡的技能指標(biāo),聲道數(shù),聲卡所支持的聲道數(shù)也是重要指標(biāo)。 單聲道是比較原始的聲音復(fù)制形式,缺乏對聲音的位置定位。 立體聲聲音在錄制過程中被分配到兩個獨立的聲道,從而達到了很好的聲音定位效果。,(二)聲卡的技能指標(biāo),隨著波表合成技術(shù)的出現(xiàn),由雙聲道立體聲向 多聲道環(huán)繞聲的發(fā)展顯得格外迫切。 四聲道環(huán)繞規(guī)定了4個發(fā)音點:前左、前右、 后左、后右,聽眾則被包圍在這中間,同時還

16、建議 增加一個低音音箱,以加強對低頻信號的回放處理 (這也是如今4.1聲道音箱系統(tǒng)廣泛流行的原因)。,(二)聲卡的技能指標(biāo),5.1聲道已廣泛運用于各類傳統(tǒng)影院和家庭影院 中,該聲音系統(tǒng)來源于4.1環(huán)繞,不同之處在于它增 加了一個中置單元,這個中置單元負責(zé)傳送低于80 Hz的聲音信號,在欣賞影片時有利于加強人聲,把 對話集中在整個聲場的中部,以增強整體效果。,(二)聲卡的技能指標(biāo),多音頻流輸出,多音頻流輸出是指聲卡可以在同一時間內(nèi)支持 多個wav、mp3、midi類音頻文件的播放。目前大 部分中高檔的PCI聲卡是普遍支持多音頻流輸出的,,(二)聲卡的技能指標(biāo),I/O設(shè)備接口,一般的聲卡都設(shè)有線性

17、輸入、線性輸出、音箱 輸出、MIDI和游戲桿接口等。,(二)聲卡的技能指標(biāo),系統(tǒng)參數(shù)的可調(diào)性,為避免I/O地址、DMA、IRQ對系統(tǒng)的沖突, 聲卡參數(shù)必須是能過設(shè)置的。當(dāng)前是利用軟件進 行設(shè)置才最為方便,早期的聲卡有可能需要調(diào)整 跳線。,(二)聲卡的技能指標(biāo),聲卡軟件,聲卡軟件很重要,一塊聲卡的技術(shù)指標(biāo)再高, 但缺乏應(yīng)用軟件的支持,都很難發(fā)揮其特長。聲 卡一般都帶有應(yīng)用程序,這些應(yīng)用程序包括錄音 軟件、WAV、CD及MIDI播放軟件、混音器、WAV 文件編輯器等。高檔的聲卡還提供特殊效果播放器、 文字閱讀軟件及語音識別軟件等。,(二)聲卡的技能指標(biāo),總線結(jié)構(gòu),由于計算機技術(shù)突飛猛進的發(fā)展,IS

18、A總線已經(jīng) 不能滿足音頻信號的高吞吐量的需要,于是產(chǎn)生了 PCI聲卡。,(三)聲卡的插孔與連接,(四)聲卡的安裝,(1). 硬件安裝 步驟1 關(guān)閉計算機電源,拔下供電電源和所有 外接線插頭。 步驟2 打開機箱外殼,選擇一個空閑的16位擴 展槽并將聲卡插入擴展槽。 步驟3 連接來自CD-ROM驅(qū)動器的音頻輸出線到 聲卡的CD IN針形輸入線上; 步驟4 蓋上機箱外殼,并將電源插頭插回。 步驟5 聲卡與其它外設(shè)的連接,按下頁圖進行。,LINE IN,LINE OUT,SPK OUT,MIDI,錄音機、CD唱機等 線性輸入,話筒,揚聲器,線性輸出 立體聲放大器,MIC IN,(2). 軟件安裝 對不

19、同的聲卡,軟件的安裝方法不完全相 同,需要按照說明書安裝。 1). 安裝驅(qū)動程序 聲卡的驅(qū)動程序是控制聲卡工作的必要程 序,不同的聲卡驅(qū)動程序是不同的。 2). 安裝應(yīng)用程序 安裝聲卡的應(yīng)用程序,例如混音器、錄音 師和MIDI編輯軟件等。,八、電子樂器數(shù)字接口MIDI,使用計算機利用聲音合成技術(shù)生成音樂的技術(shù)稱為電子音樂合成。 MIDI是Musical Instrument Digital Interface的首寫字母組合詞,可譯成“電子樂器數(shù)字接口”。用于在音樂合成器(music synthesizers)、樂器(musical instruments)和計算機之間交換音樂信息的一種標(biāo)準協(xié)議

20、。,(一)有關(guān)的MIDI術(shù)語,MIDI合成器:能產(chǎn)生特定聲音的電子裝置,其數(shù)據(jù) 傳輸符合MIDI通信約定。 MIDI信息或指令:樂譜的一種記錄格式,相當(dāng)于樂 譜語言。 MIDI接口:MIDI硬件通信協(xié)議。 MIDI通道:提供了16個通道,每種通道對應(yīng)一種邏 輯的合成器。 MIDI文件:是存放MIDI信息的標(biāo)準文件格式。 音序器:用來記錄、編輯和播放MIDI文件的軟件。,(二)MIDI工作過程,MIDI電子樂器通過MIDI接口與計算機相連, MIDI靠這個接口來傳遞信息而進行彼此間的通信。,MIDI樂器,MIDI接口,合成器,音序器,MIDI文件,揚聲器,PC機,音頻卡,MIDI指令,模擬音頻信

21、號,MIDI鍵盤,MIDI鍵盤是用于MIDI樂曲演奏的,MIDI鍵 盤本身并不發(fā)出聲音,當(dāng)作曲人員觸動鍵盤上的 按鍵時,就發(fā)出按鍵信息,所產(chǎn)生的僅僅是MIDI 音樂消息,從而由音序器錄制生成MIDI文件。,音序器(Sequencer),用于記錄、編輯、播放MIDI的聲音文件, 音序器有以硬件形式提供的,目前大多為軟件音 序器。音序器可捕捉MIDI消息,將其存入MIDI文 件,MIDI文件擴展名為 .MID。音序器還可編輯 MIDI文件。,合成器,MIDI文件的播放是通過MIDI合成器,合 成器解釋MIDI文件中的指令符號,生成所需要 的聲音波形,經(jīng)放大后由揚聲器輸出,聲音的 效果比較豐富。,M

22、IDI信息實際上是對一段音樂的描述或理解 成是樂譜的數(shù)字描述。它包括音符、節(jié)拍、樂器 種類等。MIDI信息包含兩個大的部分:狀態(tài)信息 和數(shù)據(jù)信息。狀態(tài)信息用于描述音符被演奏還是 被加強聲音這類信息,而數(shù)據(jù)信息則側(cè)重描述哪 個音符被演奏或被加強的聲音的強度如何等可以 用量來表示的信息。,理解MIDI工作方式的最直接的方法就是看 MIDI信息是什么?,(三)MIDI合成器,合成器是利用數(shù)字信號處理器DSP或其他芯片 來產(chǎn)生音樂或聲音的電子裝置。利用合成器產(chǎn)生 MIDI樂音的主要方法是FM合成法和波表合成法。,FM合成法,是20世紀80年代初由美國斯坦福大學(xué)的研究生發(fā)明的, 稱為“數(shù)字式頻率調(diào)制合成

23、法”,其基本原理是:用數(shù)字信 號來表示不同樂音的波形,然后把它們組合起來,在通過 數(shù)模轉(zhuǎn)換器生成樂音播放。,FM合成器工作原理,波表合成法,即樂音樣本合成法。與FM合成不同,波表合成是 采用真實的聲音樣本進行回放,聲音樣本記錄了各種 真實樂器的采樣波形,并保存在ROM或RAM中。 硬波表:音色庫存放在聲卡的ROM或RAM中。 軟波表:音色庫以文件的形式存放在硬盤里,需要 時再通過CPU進行調(diào)用。,波表合成器工作原理,(四)GMMIDI樂器排序表,以前各生產(chǎn)商在設(shè)計MIDI發(fā)聲工具時并沒有 一個統(tǒng)一的樂器排序標(biāo)準。 基于這種情況,各生產(chǎn)商達成了共識,共同 編制了一份“標(biāo)準MIDI樂器排序表”,他共收錄了 16種不同的樂器,每類各選8件,全部總共有128 件樂器。,(1). 由于MIDI文件只是一系列指令的集合,因此它比數(shù) 字波形文件小得多,大大節(jié)省了存儲空間。 (2). 使用MIDI文件,其聲音卡上必需含有硬件音序器或者配置有軟件音序器。 (3). MIDI聲音適于重現(xiàn)打擊樂或一些電子樂器的聲音

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論