L06-數(shù)字音頻技術基礎(new)_第1頁
L06-數(shù)字音頻技術基礎(new)_第2頁
L06-數(shù)字音頻技術基礎(new)_第3頁
L06-數(shù)字音頻技術基礎(new)_第4頁
L06-數(shù)字音頻技術基礎(new)_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)字音頻技術基礎陳科文主講研究生《多媒體技術》公共課程中南大學信息科學與工程學院一、聽覺媒體—聲音1.1聲音分類聲音分類語音人的說話聲雖是一種特殊的媒體,但也是一種波形,所以和波形聲音的文件格式相同。音樂符號化了的聲音,樂譜可轉變?yōu)榉柮襟w形式。1.1聲音分類波形聲音包含了所有的聲音形式,它可以把任何聲音都進行采樣量化,并恰當?shù)鼗謴统鰜?。二、聲音心理學2.1聲音的量綱一、聲音的量綱聲音的振動是一種正弦波,聲音的變化涉及到三個物理參數(shù):頻率(變化的速度)、幅度(產生的壓力)、相位(何時開始)。另外一方面,人們可以感覺到聲音的強弱,可以感覺到歌唱家音調的高低;聽到不同的聲音,人們會在心理上產生不同的主觀感覺。因此,聲音的量綱分為:

物理量綱和心理量綱。2.1聲音的量綱

物理量綱可以用精確的值來描述,但對某一具體聲音得來的心理印象(心理量綱)卻不容易說明白,因為心理印象要由被測者的經驗而定。聲音的心理屬性和物理屬性不可等同。首先,這些關系不是線性的;其次,這些關系不是孤立的;第三,這些關系不是不變的。2.1聲音的量綱

響度:對聲音強弱的主觀感覺響度級度量單位:phon(方)或sone(宋)相關物理量:聲強(W/cm2,瓦特/平方厘米);聲壓(dyn/cm2,達因/平方厘米)。頻率(Hz)

聲音的響度取決于“強度”和“頻率”兩個因素。顯然,強聲顯得比弱聲要響一些。但如果強度相同,過高頻率的聲音和過低頻率的聲音似乎比中頻的聲音聽起來都要弱一些。由此可見,響度也依賴于頻率,原因是人耳對不同頻率的聲音的敏感度不同,且能反應的頻率范圍也是有上、下限的。2.1聲音的量綱測量響度時,以1kHz純音為基準,由主觀感覺來確定。音調:又稱音高主觀音高單位:Mel

(美)客觀音高單位:Hz(赫茲)

1Mel=1000·log2(1+f)

測量音高時,以40dB聲強為基準,由主觀感覺來確定。音高與頻率之間也不是線性關系。2.1聲音的量綱2.1聲音的量綱

心理變量首要的物理變量次要的物理變量響度聲強聲波頻率音調聲波頻率聲強音色聲波復合-音量頻率和強度-密度頻率和強度-諧和(流暢或粗糙)諧波結構音樂技巧噪聲強度頻率組合,各種時間參量騷擾聲強度頻率組合,無意義2.2聽覺特性(1):等響曲線二、聽覺特性等響曲線

由于響度與頻率和強度有關,所以主觀感覺響度相同的不同頻率的聲音,其實際強度是不同的。

先設一個音為標準音,給予固定的頻率、強度和持續(xù)時間,如1000Hz、40分貝、持續(xù)0.5秒;再給一個音也持續(xù)0.5秒,但頻率不同,通過調整使其響度聽起來一樣,得到的這樣一組曲線稱之為等響曲線。

等響曲線描述的是響度與頻率和強度的關系。從聲音心理學考慮,對同一響度的聲音在頻率上和強度上可以有很大的差別,這對聲音表現(xiàn)有重要意義。2.2聽覺特性(1)2.2聽覺特性(2):掩蔽效應掩蔽(masking)效應各種聲音可以互相掩蔽,也就是說一種聲音的出現(xiàn)可能使得另一種聲音難于聽清。聲音的掩蔽效果可以欺騙人的聽覺。例如,本來是多種頻率的聲音的復合,但聽眾以為只是一種聲音。由于被掩蔽的聲音數(shù)據(jù)對聽覺的影響不大,所以可以盡量消除或壓縮。聲音掩蔽效應可分為頻域掩蔽和時域掩蔽。2.2聽覺特性(2)2.2聽覺特性(2)2.2聽覺特性(2)2.2聽覺特性(2)聲音高頻成分的清晰度較高,但聽閾較低;低頻成分容易掩蓋高頻成分;響度高的聲音會掩蓋響度低的聲音;噪音會對純音產生掩蓋效應。2.2聽覺特性(3):臨界頻帶臨界頻帶(CriticalBand)它可用來描述噪音對純音的掩蔽效果。一個純音處于以它為中心頻率、并且具有一定頻帶寬度的連續(xù)噪聲中,如果在這個頻帶內噪聲功率等于該純音的功率,則此純音可能剛好被掩蓋,即處于剛能被聽到的臨界狀態(tài),那么稱這一頻帶為臨界頻帶。

在一個臨界頻帶內,很多心理聲學特性都是一樣的。在頻率的這一臨界區(qū)里,各種聲音是相互作用的,合成聲音的響度由這些頻率成分共同決定。如果超出臨界區(qū),聲音的響度不再相互作用,而是隨頻率的改變而改變。對于臨界頻帶的確定,使得對聲音響度的處理能夠有的放矢。離散的臨界頻帶臨界頻帶頻率(Hz)臨界頻帶頻率(Hz)低高寬度低高寬度

0

0

100

100

13

20002320

320

1

100

200

100

14

23202700

380

2

200

300

100

15

27003150

450

3

300

400

100

16

3150

700

550

4

400

510

110

17

37004400

700

5

510

630

120

18

44005300

900

6

630

770

140

19

5300

6400

1100

7

770

920

150

20

6400

7700

1300

8

920

1080

160

21

7700

9500

1800

9

1080

1270

190

22

9500

12000

2500

10

1270

1480

210

23

12000

15500

3500

11

1480

1720

240

24

15500

22050

6550

12

1720

2000

280

2.2聽覺特性(4):頻譜特性聽覺的頻譜特性

聲音是時間函數(shù),通過傅里葉變換可做出其頻譜圖。人耳對頻譜成分的波峰和波谷是非常敏感的。在語言中,元音很少有頻譜快速變化的區(qū)域?;l改變,人耳是很敏感的(例如:快進的錄像,音調會發(fā)生變化)。音色非常復雜,目前尚在研究中。一般認為音色與聲音頻譜分布有關。音色的處理將使我們能識別音源,音色也代表和聲音有關的主觀質量。2.2聽覺特性(5):時變現(xiàn)象自然聲音的時變現(xiàn)象聲音的音調分成三個區(qū)域:起始區(qū)、穩(wěn)定狀態(tài)區(qū)、延遲區(qū)。研究表明,音調的頻譜分量隨時間改變。在穩(wěn)定狀態(tài)區(qū),頻譜保持固定。在起始區(qū),振幅頻譜隨時間變化。因此自然聲音的起始部分是非常難識別的。例如剛聽了一小節(jié)音調后要識別樂器,專家也會覺得較難。時變現(xiàn)象用于數(shù)字系統(tǒng)中,說明聲音中的某些錯誤是不太容易發(fā)現(xiàn)的,但如果出現(xiàn)停頓,就很容易引起人的注意。2.2聽覺特性(6):相位相位

從聲音的波形來看,聲音的起點和方向也要反映聲音的特性,這就是聲音的相位。當兩個聲音頻率相同、相位完全相反時,它們將相互抵消;當兩個聲音頻率相同、相位也相同時,聲音就會得到加強。相位的確定對于多聲道聲音系統(tǒng)的設計非常重要,其可以應用在回聲的消除、會議系統(tǒng)的聲音設計上。2.2聽覺特性(7):方位性聽覺空間(聲音的方位性)人耳可聽到來自各個方向的聲音,并用不同的因素來判定聲源的位置。判斷聲音方位的線索是各種聲音到達兩耳的精確時間和強度。聲源的位置不論對于增進人們的感受,還是增進對聲音的理解,都是非常重要的。通過聲音的精確再現(xiàn),就可以構造出較真實的聽覺空間。2.3真實感聲音的模擬聲音的心理模擬通過人工的方法,可以對視覺空間的景物進行再造或虛構,同樣也可以對聽覺空間的真實聲音進行心理上的模擬,這就是所謂的“可聽化”(audiolization)。通過模擬,可以表達出一些聲音的效果。

三維真實感聲音模擬的研究還處于初級階段,與三維真實感圖形的研究相比,它還顯得很不成熟。

(后面將作簡要介紹)三、數(shù)字音頻技術3.1概述音頻的數(shù)字化和符號化從人與計算機交互的角度看,音頻信號的處理包括:人與計算機通信,也就是計算機接收音頻信號。包括:

音頻獲取、語音的識別和理解。計算機與人通信,也就是計算機輸出音頻。包括:音樂合成、語音合成、聲音的定位,以及音頻視頻的同步。人-計算機-人通信,即人與人借助網絡來通話.相關的音頻處理有:語音采集、音頻的編碼和解碼、音頻的存儲、音頻的傳輸、基于內容的檢索等。3.2音頻的數(shù)字化

1.音頻的數(shù)字化與再現(xiàn)

在計算機中,所有的信息都以數(shù)字來表示。聲音信號也是由一系列的數(shù)字來表示的,稱為數(shù)字音頻。數(shù)字音頻的特點就是保真度好,動態(tài)范圍大。數(shù)字聲音是一個數(shù)據(jù)序列。它是由外界聲音經過采樣、量化和編碼后得到的。3.2音頻的數(shù)字化對聲音進行采樣用奈奎斯特采樣定理來決定采樣的頻率。根據(jù)該定理,只要采樣頻率高于信號中最高頻率的兩倍,就可以從采樣中完全恢復原始信號的波形。因為人耳所能聽到的頻率范圍為20Hz到20KHz,所以實際的采樣過程中,為了達到好的效果,就采用44.1KHz作為高質量聲音的采樣頻率。如果達不到這么高的頻率,聲音恢復的效果就會差一些,例如電話聲音的質量等。一般來說,聲音恢復和采樣頻率、信道帶寬都有關。

聲音的采樣以及量化圖3.2音頻的數(shù)字化3.2音頻的數(shù)字化與數(shù)字音頻相關的重要特性:采樣頻率采樣頻率與聲音的質量關系最為緊密。采樣頻率越高,聲音質量越接近原始聲音,所需的存儲量便越多。標準的采樣頻率有三個:44.1KHz,22.05kHz,和11.025kHz。采樣精度(量化位數(shù))存放一個采樣點所需的比特數(shù)。一般的采樣位數(shù)為8位或16位,即把聲音采集為256等份或65536等份。3.2音頻的數(shù)字化聲道數(shù)有單聲道、雙聲道和多聲道。如多種語言音頻混存時,需要多聲道聲音數(shù)據(jù)量計算:

(采樣頻率×每點采樣位數(shù)×聲道數(shù))數(shù)據(jù)量=

8(字節(jié)/秒)3.2數(shù)字音頻技術參數(shù)數(shù)字聲音波形質量的主要技術參數(shù)采樣頻率等于波形被等分的份數(shù),份數(shù)越多,質量越好11.025KHZ、22.05KHZ、44.1KHZ采樣精度每次采樣信息量

8位、16位通道數(shù)聲音產生的波形數(shù)單聲道、雙聲道(立體聲)、5.1聲道(環(huán)繞立體聲)數(shù)據(jù)量計算:(采樣頻率×采樣精度×通道數(shù)×時間)/8=字節(jié)數(shù)多聲道環(huán)繞立體聲3.3音頻的符號化

2.音頻的符號化波形聲音可以把音樂、語音都進行數(shù)據(jù)化并且表示出來,但是并沒有把它看成音樂和語音。對于聲音的符號化(也可以稱為抽象化)表示包括兩種類型:一種是音樂,一種是語音。3.3音頻的符號化(1)(1)音樂的符號化-MIDIMIDI是指“樂器數(shù)字接口”(MusicInstrumentDigitalInterface)

的國際標準。

MIDI消息,是指樂譜的數(shù)字描述。任何電子樂器,只要有處理MIDI消息的微處理器和合適的硬件接口,就構成了一個MIDI設備。當一組MIDI消息通過音樂合成芯片處理時,合成器能解釋這些符號并且產生音樂。MIDI的關鍵是作為媒體能夠記錄這些音樂的符號,相應的設備能夠產生和解釋這些符號。它給出了一種得到音樂聲音的方法。3.3音頻的符號化

MIDI的特點:與波形聲音相比,MIDI不是聲音數(shù)據(jù)而是指令,所以數(shù)據(jù)量要少得多。30分鐘的音樂,用MIDI文件記錄只需200KB,用16位CD品質的未壓縮WAV文件記錄需317MBMIDI可以與其他波形聲音配合使用,形成伴樂的效果。而兩個波形聲音一般是不能同時使用的對MIDI的編輯也很靈活,用戶可以自由地改變音調、音色等屬性,直到自己想要的效果MIDI在音質上還不能與真正的樂器完全相似。無法模擬自然界中其它非樂曲類聲音3.3音頻的符號化(2)(2)語音的符號化語音與文字是對應的。波形聲音可以記錄表示語音,它是不是語音取決于聽者對聲音的理解。對語音的符號化實際上就是對語音的識別,將語音轉變?yōu)樽址?,反之也可以將文字合成語音。語音指構成人類語音信號的各種聲音。在采集和存儲上可以與波形聲音一樣,但由于語音是由一連串的音素組成?!耙痪湓挕敝邪S多音節(jié)以及上下文過渡過程的連接體等特殊的信息,并且語音本身與語言有關,所以要把它作為一個獨立的媒體來看待。四、MIDI音樂合成4.1MIDI簡介MIDIMIDI(MusicalInstrumentDigitalInterface)是指樂器數(shù)字接口,是數(shù)字音樂的國際標準。

MIDI的音樂符號化過程實際上就是產生MIDI協(xié)議信息的過程。音樂合成器是電腦音樂系統(tǒng)中最重要的設備之一。

4.2MIDI術語MIDI術語MIDI文件通道Channels音序器Sequencer合成器Synthesizer

樂器Instrument

通道映象ChannelMapping復音Polyphony音色Timbre音軌Track合成音色映射程序PatchMapper4.3MIDI音樂合成器合成器波形表(WaveTable)合成頻率調制FM合成4.4MIDI接口規(guī)范MIDI接口MIDIIn(輸入口)接收從其他MIDI裝置傳來的消息。MIDIOut(輸出口)發(fā)送某裝置生成的原始MIDI消息。向其他設備發(fā)送MIDI消息。MIDIThru(轉發(fā)口)傳送從輸人口接收的消息到其他MIDI裝置。向其他設備發(fā)送MIDI消息。4.4MIDI接口規(guī)范MIDI接口五、語音識別5.1語音識別概述概述語音識別是將人發(fā)出的聲音、字或短語轉換成文字、符號,或給出響應,如執(zhí)行控制、作出回答。語音識別系統(tǒng)的分類按可識別的詞匯量多少劃分按照語音的輸入方式劃分按發(fā)音人劃分說話人識別5.1語音識別概述語音識別系統(tǒng)的最終目標不存在對說話人的限制,即非特定人的。不存在對詞匯量的限制,即基于大詞匯表的。不存在對發(fā)音方式的限制,即可識別連續(xù)自然發(fā)音的。系統(tǒng)的整體識別率應該相當高,接近于人類對自然語音的識別能力。這也正是聽寫機系統(tǒng)最終要達到的目標。5.2典型語音識別方法目前,語音的自動識別基本上采用孤立詞的模式匹配識別和有限詞匯的連續(xù)識別。(1)

孤立詞的模式是一種認人的識別方式,就是因人而異進行語音識別。實驗結果表示,一般識別率都在95%以上。孤立詞的模式識別系統(tǒng)的原理如下圖所示:(1)孤立詞語音識別(2)有限詞匯的連續(xù)識別實際上,人們更需要計算機能不因人而變,且能識別由大量詞匯組成的連續(xù)語句。這就要求計算機語音識別系統(tǒng)以音素為識別單元,具有標準的語句切分規(guī)則、音調規(guī)則、拼音規(guī)則、單詞庫、語法及語義等規(guī)則。連續(xù)識別系統(tǒng)功能結構如下圖所示:連續(xù)語音識別原理切分規(guī)則拼音規(guī)則單詞庫語法及語義規(guī)則音素庫音變規(guī)則音段切分音素識別音節(jié)識別單詞識別語句識別連續(xù)語音流輸入識別結果輸出5.3語音識別研究難點語音識別研究的難點很難適應各種年齡、性別、口音、發(fā)音速度、語音強度、發(fā)音習慣與方式等的差異。系統(tǒng)隨著能夠識別的詞匯量增大,所需要的空間和時間的花銷就越多,最終將導致系統(tǒng)的識別性能急劇下降而喪失可用性。盡管連續(xù)發(fā)音是人們最為自然的發(fā)音方式,但是識別系統(tǒng)很難也不可能把連續(xù)語音作為一個整體來進行識別。實用的識別系統(tǒng)要求提高語音特征參數(shù)的魯棒性、對不同非高斯噪聲的非敏感性,以及對不同用戶的適應能力等,這些復雜性的需求的實現(xiàn)是非常困難的。六、語音合成6.1語音合成概述概述實現(xiàn)計算機語音輸出有兩種方法:錄音/重放文–語轉換計算機話語輸出按其實現(xiàn)的功能來分,可以分為以下兩個檔次:有限詞匯的計算機語音輸出基于語音合成技術的文字-語音轉換(TTS)6.2TTS系統(tǒng)TTS(文-語轉換,Text–To–Speech)TTS系統(tǒng)的最根本問題在于它的語音自然度。為了提高合成語音的自然度,文語轉換技術的研究將涉及到語言學、語音學、信號處理、人工智能等許多學科,因此,TTS是一個十分復雜的系統(tǒng)。

一個比較完整的TTS系統(tǒng)模型如下:6.2TTS系統(tǒng)模型語法抽取音素和韻律等信息詞典韻律規(guī)則韻律控制:(基頻、時長、幅度)聲譜生成(音色控制)聲音合成器聲音合成單元語音文本文本分析部分語音合成部分TTS系統(tǒng)方框圖6.3語音合成方法合成方法發(fā)音器官參數(shù)語音合成對人的發(fā)音過程進行直接模擬聲道模型參數(shù)語音合成基于聲道截面積函數(shù)或聲道諧振特性合成語音波形編輯語音合成技術直接把語音波形數(shù)據(jù)庫中的波形相互拼接在一起,輸出連續(xù)語流。PSOLA(PitchSynchronousOverlapAdd)方法6.4語音基元數(shù)據(jù)庫語音基元數(shù)據(jù)庫的構建基元的選擇選擇音節(jié)選擇雙音素和三音素語音數(shù)據(jù)的存儲形式波形存儲方式存儲數(shù)字化的語音波形數(shù)據(jù)參數(shù)存儲方式存儲從語音信號中提取的參數(shù),常用的有LPC參數(shù)、LSP(LSF)、共振峰參數(shù)等6.5語音韻律模擬韻律模擬自然語言中的韻律特征語調、節(jié)奏和重音等能表達說話者的語義和感情,是自然語流的重要組成部分韻律合成及方法超音段特征(音高、音長、音強及頻率分布的變化)的修改構成了韻律合成的基礎方法:修改基頻模式、共振峰模式、PSOLA算法等韻律模擬的問題需解決韻律規(guī)則、韻律描述、計算模型和修改算法等問題七、數(shù)字立體聲

(音頻媒體的三維化處理)7.1三維虛擬聲空間

1.三維虛擬聲空間所謂三維虛擬聲空間(ThreeDimensionalVirtualAcoustic,3DVA),是指用一定的聲音設備人為地產生出來的具有空間位置信息的聲音空間。三維聽覺的使用明顯地依賴于用戶對聽覺空間中各種信息源的定位能力。一般說來,三維虛擬聲空間要達到以下的一些目標:①在可聽的范圍內重現(xiàn)頻率分辨度和動態(tài)范圍;②在三維空間中精確地呈現(xiàn)聲音的位置信息;③能表達多個靜止和移動的聲源;④能和頭部的動作具有一定的關聯(lián);⑤能夠支持一定程度的交互。7.13DVA的基本理論

2.3DVA的基本理論人類感知聲源位置的最基本的理論是雙工理論,該理論基于兩種因素:兩耳間聲音的到達時間差ITD(InterauralTimeDifferences)和兩耳間聲音的強度差IID(InterauralIntensityDifferences)。

時間差是由于距離的原因造成的,當聲音從正面?zhèn)鱽頃r,距離相等,所以沒有時間差;但若偏右3o,則到達右耳的時間就要比左耳約早30ms,而正是這30ms,使得我們辨別出了聲源的位置。

強度差是由于信號衰減造成的,信號的衰減是因為距離產生的,在很多情況下是因為人的頭部遮擋,使聲音衰減,產生了強度的差別,使得靠近聲源一側的耳朵聽到的聲音強度要大于另一耳。7.13DVA的基本理論3DVA理論較形象地說明:人耳對聲音定位的特性,通過大腦的綜合作用后,對有差別的聲音信號進行了相對于空間位置的定位。人耳對聲源方位的判定起決定作用的是耳廓。當聲波從聲源傳到聽者的耳部時,聲波會在耳廓發(fā)生不斷的反射和折射,然后由內耳道傳到耳鼓,使人產生音感。這種反射、折射是依賴于頻率的,通過不同頻率的變化,使得人耳能夠辨別聲源的方位。另外,當聲音從聲源傳到人的內耳并形成聽覺時,聲音信號已經攜帶了兩個很重要的信息,從而形成了空間真實感和環(huán)境真實感。聲源的本身信號特征、聲源的空間三維位置、聲源所處的環(huán)境這三個因素描述了聲源的全部信息。7.2HRTF方法

3.HRTF方法實現(xiàn)空間真實感的關鍵是建立起耳廓模型,這種方法被稱為“雙耳相關函數(shù)法”,也即HRTF(Head-RelatedTransferFunction,與頭部有關的轉移函數(shù))。

從理論上利用HRTF產生真實空間聲音的算法如下圖所示。7.2音頻媒體的三維化處理

八、補充資料

聲音文件格式8.1典型聲音文件類型文件

擴展名說明wav波形(waveform)聲音文件存儲格式mid標準MIDI音樂文件存儲格式rmiWindowsMIDI音樂文件存儲格式mp3MPEGLayerIII聲音文件存儲格式voc聲霸卡(SB)的聲音文件格式(CreativeVoice)rm./ra流放式聲音文件格式(RealMedia/RealAudio)aiff/sndApple機上的聲音文件格式(AudioInterchange)常見的聲音文件類型8.2WAV文件格式WAVE聲音文件格式

波形(Waveform)聲音文件(*.wav)是一種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論