版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
多媒體課程講學第一頁,共四十一頁,2022年,8月28日音源編譯碼器——話音產(chǎn)生的數(shù)字模型周期脈沖序列發(fā)生器偽隨機噪聲產(chǎn)生器周期時變數(shù)字濾波器音量控制聲道參數(shù)語音輸出濁/清選擇第二頁,共四十一頁,2022年,8月28日
一般來說,波形編譯碼器的話音質(zhì)量高,但數(shù)據(jù)率也很高;音源編譯碼器的數(shù)據(jù)率很低,產(chǎn)生的合成話音的音質(zhì)有待提高;混合編譯碼器使用音源編譯碼技術(shù)和波形編譯碼技術(shù),數(shù)據(jù)率和音質(zhì)介于它們之間。語音編碼技術(shù)比較第三頁,共四十一頁,2022年,8月28日行程編碼語音編碼技術(shù)分類第四頁,共四十一頁,2022年,8月28日●概念它僅僅是對輸入信號進行采樣和量化。
在這個編碼框圖中,它的輸入是模擬聲音信號,它的輸出是PCM樣本。圖中的“防失真濾波器”是一個低通濾波器,用來濾除聲音頻帶以外的信號;“波形編碼器”可暫時理解為“采樣器”,“量化器”可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。脈沖編碼調(diào)制(PCM)第五頁,共四十一頁,2022年,8月28日●PCM編碼的兩個步驟:第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。●量化歸納成兩類:均勻量化非均勻量化●采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說量化也是一種壓縮數(shù)據(jù)的方法。PCM編碼步驟第六頁,共四十一頁,2022年,8月28日如果采用相等的量化間隔對采樣得到的信號作量化,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化,如圖所示。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。均勻量化第七頁,共四十一頁,2022年,8月28日無論對大的輸入信號還是小的輸入信號一律都采用相同的量化間隔。但是,對話音信號來說,大信號出現(xiàn)的機會并不多,增加的樣本位數(shù)就沒有充分利用。為了克服這個不足,就出現(xiàn)了非均勻量化的方法,這種方法也叫做非線性量化。非線性量化的基本想法是,對輸入信號進行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應關(guān)系:μ律壓擴(companding)算法,A律壓擴算法。非均勻量化第八頁,共四十一頁,2022年,8月28日式中:x為輸入信號幅度,規(guī)格化成;-1≤x≤1sgn(x)為x的極性;μ律(μ-Law)壓擴(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中μ率壓擴第九頁,共四十一頁,2022年,8月28日μ率壓擴曲線第十頁,共四十一頁,2022年,8月28日式中:x為輸入信號幅度,規(guī)格化成-1≤x≤1;sgn(x)為x的極性;A為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比。A律壓擴的前一部分是線性的,其余部分與μ律壓擴相同。A律(A-Law)壓擴(G.711)主要用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中
0≤|x|≤1/A
1/A≤|x|≤1
A率壓擴第十一頁,共四十一頁,2022年,8月28日A率壓擴曲線第十二頁,共四十一頁,2022年,8月28日DPCM:利用樣本與樣本之間存在的信息冗余度來進行編碼的一種數(shù)據(jù)壓縮技術(shù)。主要思想:根據(jù)過去的樣本去估算(estimate)下一個樣本信號的幅度大小,這個值稱為預測值,然后對實際信號值與預測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數(shù)。與脈沖編碼調(diào)制(PCM)不同:PCM是直接對采樣信號進行量化編碼,而DPCM是對實際信號值與預測值之差進行量化編碼,存儲或者傳送的是差值而不是幅度絕對值,這就降低了傳送或存儲的數(shù)據(jù)量。此外,它還能適應大范圍變化的輸入信號。差分脈沖編碼調(diào)制第十三頁,共四十一頁,2022年,8月28日①利用自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。
核心思想:ADPCM:采用自適應技術(shù)和差分編碼技術(shù)相結(jié)合。將64kb/s的PCM信號壓縮為32kb/s的脈沖編碼信號,廣泛應用于電話通信網(wǎng)。自適應差分脈沖編碼調(diào)制第十四頁,共四十一頁,2022年,8月28日LPC是通過分析話音波形來產(chǎn)生聲道激勵和轉(zhuǎn)移函數(shù)的參數(shù),對聲音波形的編碼實際就轉(zhuǎn)化為對這些參數(shù)的編碼,這就使聲音的數(shù)據(jù)量大大減少。在接收端使用LPC分析得到的參數(shù),通過話音合成器重構(gòu)話音。合成器實際上是一個離散的隨時間變化的時變線性濾波器,它代表人的話音生成系統(tǒng)模型。周期脈沖序列發(fā)生器偽隨機噪聲產(chǎn)生器周期時變數(shù)字濾波器音量控制聲道參數(shù)語音輸出濁/清選擇線性預測編碼(LPC)第十五頁,共四十一頁,2022年,8月28日=線性預測器是使用過去的P個樣本值來預測現(xiàn)時刻的采樣值x(n),預測值可以用過去P個樣本值的線性組合來表示:
殘差誤差(residualerror)即線性預測誤差為
=線性預測器第十六頁,共四十一頁,2022年,8月28日在給定的時間范圍里,如
,使
的平方和即
為最小
通過求解偏微分方程,可找到系數(shù)ai的值。如果把發(fā)音器官等效成濾波器,這些系數(shù)值就可以理解成濾波器的系數(shù)。這些參數(shù)不再是聲音波形本身的值,而是發(fā)音器官的激勵參數(shù)。
線性預測編碼(LPC)第十七頁,共四十一頁,2022年,8月28日
ITU-T音頻壓縮標準用于電話質(zhì)量的語音壓縮標準G.711,G.721,G.723,G.728用于調(diào)幅廣播質(zhì)量的音頻壓縮標準G.722音頻壓縮標準第十八頁,共四十一頁,2022年,8月28日電話質(zhì)量的語音信號頻率范圍為300hz~3.4khz。G.711:1972年CCITT制定,用標準的PCM,采樣頻率8khz,量化精度8b,對應的速率64kb/s)。主要用于公用電話網(wǎng)中。G.721:將64kb/s比特流轉(zhuǎn)換成32kb/s比特流,基于ADPCM。G.723:5.3kb/s或6.3kb/s數(shù)據(jù)流,可用于可視電話和IP電話等系統(tǒng)中。G.728:1992年,16kb/s比特流,采用短時延碼本激勵線性預測編碼(LD-CELP)算法。主要用于公用電話網(wǎng)中。ITU-TG電話質(zhì)量語音壓縮標準第十九頁,共四十一頁,2022年,8月28日用于調(diào)幅廣播的質(zhì)量的音頻信號頻率范圍為50hz~7khz。G.722:16kHz,14b量化1988年,子帶編碼及ADPCM編碼,能將224kb/s的此類信號壓縮為64kb/s,主要用于視聽多媒體和會議電視等。ITU-T調(diào)幅廣播質(zhì)量語音壓縮標準第二十頁,共四十一頁,2022年,8月28日ISO11172-3:MPEG-1音頻標準(MP1、MP2、MP3)(高保真音頻壓縮標準:音頻信號50hz~20khz)ISO13818-3:MPEG-2音頻標準(DolbyAC-3):5+1聲道、低比特率和后向兼容性ISO13818-7:MPEG-2AAC音頻標準支持采樣頻率從8kHz到96kHz,可支持48個主聲道、16個配聲道和16個數(shù)據(jù)流。ISO14496-3:MPEG-4音頻標準集成從話音到高質(zhì)量的多通道聲音,從自然聲音到合成聲音MPEG音頻壓縮標準第二十一頁,共四十一頁,2022年,8月28日提供3個獨立的壓縮層次,用戶可在復雜性和壓縮質(zhì)量之間權(quán)衡選擇。層1最簡單,使用比特率384kbps,主要用于數(shù)字盒式磁帶DCC;層2的復雜度中等,使用比特率192kbps左右,主要應用于數(shù)字廣播的音頻編碼、CD-ROM上的音頻信號以及CD-I和VCD。層3最為復雜,使用比特率64kbps,尤其適用于ISDN上的音頻傳輸,有損壓縮但音質(zhì)保持逼真效果。MP3音樂是利用MPEGAudioLayer3的技術(shù),聲音采用1:10甚至1:12的壓縮率MPEG-1音頻
第二十二頁,共四十一頁,2022年,8月28日MP3
層3使用比較好的臨界頻帶濾波器,把聲音頻帶分成非等帶寬的子帶,心理聲學模型除了使用頻域掩蔽特性和時間掩蔽特性之外,還考慮了立體聲數(shù)據(jù)的冗余,并且使用了霍夫曼(Huffman)編碼器。第二十三頁,共四十一頁,2022年,8月28日聲音合成與MIDI系統(tǒng)MIDI(MusicalInstrumentDigitalInterface):可譯成“電子樂器數(shù)字接口”。用于在音樂合成器(musicsynthesizers)、樂器(musicalinstruments)和計算機之間交換音樂信息的一種標準協(xié)議從20世紀80年代初期開始,MIDI已經(jīng)逐步被音樂家和作曲家廣泛接受和使用。MIDI消息:樂譜的數(shù)字描述,即一套指令(即命令的約定),它指示樂器即MIDI設(shè)備要做什么,怎么做,如演奏音符、加大音量、生成音響效果等。MIDI不是聲音信號,在MIDI電纜上傳送的不是聲音,而是發(fā)給MIDI設(shè)備或其它裝置讓它產(chǎn)生聲音或執(zhí)行某個動作的指令。第二十四頁,共四十一頁,2022年,8月28日MIDI系統(tǒng)音樂合成器:解釋MIDI消息并產(chǎn)生音樂。含有鍵盤、音色和音序器。音樂合成方法:頻率調(diào)制合成法(frequencymodulation,F(xiàn)M)和樂音樣本合成法(波形表(Wavetable)合成法)音序器:用來記錄、編輯和播放MIDI文件的設(shè)備。軟件音序器Cakewalk音源:產(chǎn)生聲音的設(shè)備,提供很多不同音色的樣本波形采樣器:開放式音源,對聲音進行采樣,合成音色來供電腦音樂系統(tǒng)使用。其他設(shè)備:錄音設(shè)備、監(jiān)聽設(shè)備、音響功放第二十五頁,共四十一頁,2022年,8月28日一個簡單的MIDI系統(tǒng)上圖表示的是一個簡單的MIDI系統(tǒng),它由一個MIDI鍵盤控制器和一個MIDI聲音模塊組成。許多MIDI鍵盤樂器在其內(nèi)部既包含鍵盤控制器,又包含MIDI聲音模塊功能。在這些單元中,鍵盤控制器和聲音模塊之間已經(jīng)有內(nèi)部鏈接,這個鏈接可以通過該設(shè)備中的控制功能(localcontrol)對鏈接打開(ON)或者關(guān)閉(OFF)。第二十六頁,共四十一頁,2022年,8月28日它由5個基本模塊組成:數(shù)字載波器、調(diào)制器、聲音包絡發(fā)生器、數(shù)字運算器和模數(shù)轉(zhuǎn)換器。聲音包絡發(fā)生器用來調(diào)制聲音的電平,這個過程也稱為幅度調(diào)制(amplitudemodulation),并且作為數(shù)字式音量控制旋鈕,它的4個參數(shù)寫成ADSR,這條包絡線也稱為音量升降維持靜音包絡線(Attack,decay,sustain,release,ADSR)。頻率調(diào)制(FM)合成法的原理第二十七頁,共四十一頁,2022年,8月28日在樂音合成器中,數(shù)字載波波形和調(diào)制波形有很多種,不同型號的FM合成器所選用的波形也不同。下圖是YamahaOPL-III數(shù)字式FM合成器采用的波形。各種不同樂音的產(chǎn)生是通過組合各種波形和各種波形參數(shù)并采用各種不同的方法實現(xiàn)的。用什么樣的波形作為數(shù)字載波波形、用什么樣的波形作為調(diào)制波形、用什么樣的波形參數(shù)去組合才能產(chǎn)生所希望的樂音,這就是FM合成器的算法。頻率調(diào)制(FM)合成法的原理第二十八頁,共四十一頁,2022年,8月28日這種方法就是把真實樂器發(fā)出的聲音以數(shù)字的形式記錄下來,播放時改變播放速度,從而改變音調(diào)周期,生成各種音階的音符。樂音樣本的采集相對比較直觀。音樂家在真實樂器上演奏不同的音符,選擇44.1kHz的采樣頻率、16位的樂音樣本,這相當于CD-DA的質(zhì)量,把不同音符的真實聲音記錄下來,這就完成了樂音樣本的采集。樂音樣本通常放在ROM芯片上。樂音樣本合成器所需要的輸入控制參數(shù)比較少,可控的數(shù)字音效也不多,大多數(shù)采用這種合成方法的聲音設(shè)備都可以控制聲音包絡的ADSR參數(shù),產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。
樂音樣本合成聲音第二十九頁,共四十一頁,2022年,8月28日MIDI規(guī)范與接口MIDI規(guī)范:1988年MIDI制造商協(xié)會正式公布MIDI技術(shù)規(guī)范第一版(MIDI1.0),作為數(shù)字式音樂的國際標準。MIDI是由軟件和硬件兩部分共同組成的系統(tǒng)規(guī)范,它定義了電子合成器、定序器、節(jié)拍器、個人計算機和其他電子樂器的相互連接性和通信協(xié)議。相互連接性:定義了使這些不同的MIDI儀器能夠相互連接的接線方式、連接器類型,和輸入輸出線路。通信協(xié)議定義了能夠控制樂器聲音和消息(包括:發(fā)出反應,發(fā)出狀態(tài),及發(fā)出系統(tǒng)獨有)的標準多字節(jié)消息。補充規(guī)范:“MIDI1.0詳解”、“MIDI1.0規(guī)定的補充說明”、“通用MIDI(GM)規(guī)范”第三十頁,共四十一頁,2022年,8月28日MIDI接口MIDIIn:接受從其他MIDI裝置傳來的信息MIDIOut:發(fā)送某裝置生成的原始MIDI消息,向其他設(shè)備發(fā)送MIDI消息MIDIThru:傳送從輸入口接收的消息到其他MIDI裝置,向其他設(shè)備發(fā)送MIDI消息。第三十一頁,共四十一頁,2022年,8月28日MIDI工作過程第三十二頁,共四十一頁,2022年,8月28日.wav●WAVE(WaveformAudio)波形音頻文件
多媒體系統(tǒng)、音樂光盤制作,記錄物理波形,數(shù)據(jù)量大.cda●CDA(CDAudio)激光音頻文件
準確記錄聲波,數(shù)據(jù)量大,經(jīng)過采樣,生成wav和mp3音頻文件.mid●MIDI(MusicalInstrumentDigitalInterface)樂器接口文件
用于合成、游戲,記錄音符時值、頻率、音色特征,數(shù)據(jù)量小.mp3●mp3(MPEG音頻壓縮標準)壓縮音頻文件
必須經(jīng)過解壓縮,數(shù)據(jù)量小聲音文件的存儲格式及編輯轉(zhuǎn)換工具第三十三頁,共四十一頁,2022年,8月28日用.wav為擴展名的文件格式稱為波形文件格式(WAVEFileFormat),它在多媒體編程接口和數(shù)據(jù)規(guī)范1.0(MultimediaProgrammingInterfaceandDataSpecifications1.0)文檔中有詳細的描述。該文檔是由IBM和微軟公司于1991年8月聯(lián)合開發(fā)的,它是一種為交換多媒體資源而開發(fā)的資源交換文件格式(ResourceInterchangeFileFormat,RIFF)。波形文件格式支持存儲各種采樣頻率和樣本精度的聲音數(shù)據(jù),并支持聲音數(shù)據(jù)的壓縮。.WAV聲音文件第三十四頁,共四十一頁,2022年,8月28日主要音頻處理軟件錄音軟件:Windows錄音機編輯與轉(zhuǎn)換軟件Windows錄音機CoolEditGoldWaveCakeWalk第三十五頁,共四十一頁,2022年,8月28日●
設(shè)備間的信號連接SPEAKERMICLINEIN1mV500mV聲卡機箱后背插頭:φ3.5mm/stereo●
使用“錄音機”獲取聲音(1)選擇“程序/附件/娛樂/錄音機”菜單,啟動錄音機(2)單擊[錄音]按鈕,開始錄音
(錄音時間為60秒)教學進程錄音軟件第三十六頁,共四十一頁,2022年,8月28日(1)鼠標左鍵雙擊任務欄右側(cè)圖標(2)檢查“波形”是否被選擇—[√](4)選擇“錄音”選項(5)檢查:
錄音控制線路輸入麥克風應有[√](3)選擇“選項/屬性”(6)單擊[確定]按鈕錄音失敗的處理●[操作步驟]教學進程第三十七頁,共四十一頁,2022年,8月28日(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”(3)選擇需轉(zhuǎn)換的音頻文件(4)單擊[打開]按鈕(6)單擊[開始轉(zhuǎn)換]按鈕(7)選擇屬性(采樣頻率)(3)選擇“文件/另存為”菜單,保存文件(5)選擇“文件/屬性”(8)單擊[確定]按鈕1.Windows錄音機(9)如不滿意,可從步驟(2)重新開始編輯與轉(zhuǎn)換軟件(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(3)選擇需轉(zhuǎn)換的音頻文件(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(4)單擊[打開]按鈕(3)選擇需轉(zhuǎn)換的音頻文件(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(5)選擇“文件/屬性”(4)單擊[打開]按鈕(3)選擇需轉(zhuǎn)換的音頻文件(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(6)單擊[開始轉(zhuǎn)換]按鈕(5)選擇“文件/屬性”(4)單擊[打開]按鈕(3)選擇需轉(zhuǎn)換的音頻文件(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(7)選擇屬性(采樣頻率)(6)單擊[開始轉(zhuǎn)換]按鈕(5)選擇“文件/屬性”(4)單擊[打開]按鈕(3)選擇需轉(zhuǎn)換的音頻文件(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(8)單擊[確定]按鈕(7)選擇屬性(采樣頻率)(6)單擊[開始轉(zhuǎn)換]按鈕(5)選擇“文件/屬性”(4)單擊[打開]按鈕(3)選擇需轉(zhuǎn)換的音頻文件(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(9)如不滿意,可從步驟(2)重新開始(8)單擊[確定]按鈕(7)選擇屬性(采樣頻率)(5)選擇“文件/屬性”(4)單擊[打開]按鈕(3)選擇需轉(zhuǎn)換的音頻文件(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(3)選擇“文件/另存為”菜單,保存文件(9)如不滿意,可從步驟(2)重新開始(8)單擊[確定]按鈕(5)選擇“文件/屬性”(4)單擊[打開]按鈕(3)選擇需轉(zhuǎn)換的音頻文件(2)選擇“文件/打開”(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(5)選擇“文件/屬性”(3)選擇需轉(zhuǎn)換的音頻文件(1)選擇“程序/附件/娛樂/錄音機”1.Windows錄音機(1)選擇“程序/附件/娛樂/錄音機”(8)單擊[確定]按鈕1.Windows錄音機(1)選擇“程序/附件/娛樂/錄音機”(9)如不滿意,可從步驟(2)重新開始(8)單擊[確定]按鈕1.Windows錄音機(1)選擇“程序/附件/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年醫(yī)務室服務合同
- 2025年智能溫控家居設(shè)備項目可行性研究報告
- 2025年綠色建筑設(shè)計與實施可行性研究報告
- 2025年產(chǎn)業(yè)園區(qū)綜合服務平臺項目可行性研究報告
- 2025年電商供應鏈優(yōu)化系統(tǒng)可行性研究報告
- 消費券發(fā)放協(xié)議書
- 純電車保價協(xié)議書
- 交房結(jié)算協(xié)議書
- 中韓薩德協(xié)議書
- 醫(yī)療器械注冊專員面試題及答案解析
- 四川省醫(yī)療服務價格項目匯編(2022版)
- 2025年全面解析供銷社財務人員招聘考試要點及模擬題集錦
- 供應室無菌消毒課件
- 造船行業(yè)工期保證措施
- 2024部編版七年級道德與法治上冊背記知識清單
- 《中藥化學化學中藥學專業(yè)》課程教學大綱
- 人教版七年級上冊地理全冊重要知識點每日默寫小紙條(含答案)
- 2025年三力測試題庫及答案大全
- 線路交維管理辦法
- 2025年高速公路新能源汽車充電樁建設(shè)社會穩(wěn)定風險評估報告
- 模具質(zhì)量全流程管控體系
評論
0/150
提交評論