版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、誠信聲明本人聲明:我所呈交的本科畢業(yè)設計論文是本人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝中所羅列的內容以外,論文中不包含其他人已經發(fā)表或撰寫過的研究成果。與我一同工作的同志對本研究所做的任何奉獻均已在論文中作了明確的說明并表示了謝意。本人完全意識到本聲明的法律結果由本人承擔。 申請學位論文與資料假設有不實之處,本人承擔一切相關責任。本人簽名: 日期: 年 月 日摘 要就語音編碼技術而言,它的根本作用是使語音信號通信數字化。其中衡量語音編碼性能的主要指標包括語音質量,編碼速率等。本課題所研究的線性預測編碼參數編碼的一種可實現(xiàn)很低的編碼速率,到達2.4kb
2、ps甚至2.4kbps以下,盡管語音質量不理想,但合成語音能保持相當高的可懂度,并大大降低了傳輸帶寬和存儲容量的要求。本人根據線性預測編碼的原理和算法,利用MATLAB軟件對編碼過程進行了仿真,并得到了較為理想的合成語音。然后根據MATLAB仿真過程進行了C語言的編程,并在TMS320VC5510DSK上編程實現(xiàn),最終完成了線性預測聲碼器在DSP上的實現(xiàn)。本文全面總結了線性預測編碼的原理及算法,并系統(tǒng)闡述了利用MATLAB進行仿真和DSP編程實現(xiàn)的過程。關鍵詞:線性預測編碼;語音編碼;DSPAbstractFor speech coding technology, its fundamenta
3、l role is to transmit the speech by digital signal. There are some key indicators which measure the performance of speech coding, including speech quality,coding rate and so on. The subject that i study is linear predictive coding (one of the parametric coding technology). It can achieve a very low
4、coding rate, about 2.4kbps and even lower. Although the speech quality is not ideal, the synthesized speech can maintain a very high intelligibility. The linear predictive coding can greatly reduce the transmission bandwidth and the storage capacity requirements. According to the theory and algorith
5、m of linear predictive coding, i used matlab to simulate the coding process, and got ideal synthesized speech. Then according to the simulation i made the c language program, and by the use of TMS320VC5510DSK which is offered by the college i accomplished the implementation of lpc based on DSP.The p
6、aper comprehensively summarized the theory and algorithm of linear predictive coding, and systematically expounded the matlab simulating and dsp programming process.Key words:linear predictive coding,speech coding,DSP目 錄 TOC o 1-3 h z u HYPERLINK l _Toc264279959 前 言 PAGEREF _Toc264279959 h 1 HYPERLI
7、NK l _Toc264279960 第1章 緒論 PAGEREF _Toc264279960 h 2 HYPERLINK l _Toc264279961 第節(jié) 語音編碼的根本概念 PAGEREF _Toc264279961 h 2 HYPERLINK l _Toc264279962 第節(jié) 語音編碼的應用及其硬件和實用系統(tǒng) PAGEREF _Toc264279962 h 3 HYPERLINK l _Toc264279963 第節(jié) 參數編碼簡介 PAGEREF _Toc264279963 h 5 HYPERLINK l _Toc264279964 第節(jié) 畢設所完成的主要工作 PAGEREF _
8、Toc264279964 h 6 HYPERLINK l _Toc264279965 第2章 語音信號的線性預測分析 PAGEREF _Toc264279965 h 7 HYPERLINK l _Toc264279966 第節(jié) 線性預測的背景 PAGEREF _Toc264279966 h 7 HYPERLINK l _Toc264279967 第節(jié) 線性預測的根本原理 PAGEREF _Toc264279967 h 7 HYPERLINK l _Toc264279968 第節(jié) 線性預測分析的解法 PAGEREF _Toc264279968 h 11 HYPERLINK l _Toc26427
9、9969 2.3.1 自相關方程及其解法 PAGEREF _Toc264279969 h 11 HYPERLINK l _Toc264279970 2.3.2 協(xié)方差方程及其解法 PAGEREF _Toc264279970 h 14 HYPERLINK l _Toc264279971 第3章 線性預測聲碼器 PAGEREF _Toc264279971 h 16 HYPERLINK l _Toc264279972 第節(jié) 概述 PAGEREF _Toc264279972 h 16 HYPERLINK l _Toc264279973 第節(jié) LPC聲碼器 PAGEREF _Toc264279973 h
10、 17 HYPERLINK l _Toc264279974 LPC參數的變化和量化 PAGEREF _Toc264279974 h 17 HYPERLINK l _Toc264279975 變幀率LPC聲碼器 PAGEREF _Toc264279975 h 19 HYPERLINK l _Toc264279976 第節(jié) LPC-10聲碼器 PAGEREF _Toc264279976 h 20 HYPERLINK l _Toc264279977 3.3.1 LPC-10聲碼器簡介 PAGEREF _Toc264279977 h 20 HYPERLINK l _Toc264279978 3.3.2
11、 編碼器 PAGEREF _Toc264279978 h 20 HYPERLINK l _Toc264279979 3.3.3 解碼器 PAGEREF _Toc264279979 h 21 HYPERLINK l _Toc264279980 3.3.4 LPC-10聲碼器存在的問題 PAGEREF _Toc264279980 h 25 HYPERLINK l _Toc264279981 第4章 LPC分析合成的MATLAB仿真 PAGEREF _Toc264279981 h 26 HYPERLINK l _Toc264279982 第節(jié) MATLAB語言簡介 PAGEREF _Toc26427
12、9982 h 26 HYPERLINK l _Toc264279983 第節(jié) 仿真過程 PAGEREF _Toc264279983 h 27 HYPERLINK l _Toc264279984 第節(jié) 仿真結果及分析 PAGEREF _Toc264279984 h 28 HYPERLINK l _Toc264279985 第5章 LPC語音分析合成在DSP上的實現(xiàn) PAGEREF _Toc264279985 h 30 HYPERLINK l _Toc264279986 第節(jié) LPC分析合成的C語言編程 PAGEREF _Toc264279986 h 30 HYPERLINK l _Toc2642
13、79987 5.1.1 編碼流程 PAGEREF _Toc264279987 h 30 HYPERLINK l _Toc264279988 第節(jié) 硬件實現(xiàn)平臺 PAGEREF _Toc264279988 h 33 HYPERLINK l _Toc264279989 5.2.1 TMS320VC5510DSK簡介 PAGEREF _Toc264279989 h 33 HYPERLINK l _Toc264279990 5.2.2 AIC23編解碼器 PAGEREF _Toc264279990 h 34 HYPERLINK l _Toc264279991 第節(jié) 最終編譯調試 PAGEREF _To
14、c264279991 h 36 HYPERLINK l _Toc264279992 .1 TI CCS概述 PAGEREF _Toc264279992 h 36 HYPERLINK l _Toc264279993 5.3.2 5510 DSK上實現(xiàn)LPC編解碼 PAGEREF _Toc264279993 h 37 HYPERLINK l _Toc264279994 結 論 PAGEREF _Toc264279994 h 38 HYPERLINK l _Toc264279995 參考文獻 PAGEREF _Toc264279995 h 39 HYPERLINK l _Toc264279996 致
15、 謝 PAGEREF _Toc264279996 h 41前 言語音是人類互相交流和通信最方便快捷的手段。如何高效的實現(xiàn)語音傳輸、存儲或通過語音實現(xiàn)人機交互,是語音信號處理領域中的重要研究課題。近20多年來,語音處理技術取得了一系列重大進展,語音編碼、語音合成、語音識別和說話人識別等方向的研究成果不斷推出;同時,微電子技術的迅猛開展和數字信號處理DSP芯片性能的不斷提高,為實時實現(xiàn)更高復雜度的高性能語音處理算法提供了可能1。 語音信號的數字化傳輸一直是通信開展的主要方向之一,語音的數字通信和模擬通信相比,無疑具有更好的效率和性能,主要表達在:具有更好的話音質量;具有更強的抗干擾性,并易于進行加
16、密;可節(jié)省帶寬,能夠更有效地利用網絡資源;更加易于存儲和處理。最簡單的數字化的方法是直接對語音信號進行模/數轉換,只要滿足一定的采樣率和量化要求,就能得到高質量的數字語音。但這時數字語音的數據量仍舊非常大,因此在進行傳輸和存儲之前,往往要求對其進行壓縮處理,以減少其傳輸碼率或存儲量,即進行壓縮編碼。早在20世紀30年代末期,語音編碼技術的研究已經開始。語音編碼的研究有兩大分支:波形編碼和參數編碼。波形編碼以盡可能無失真重構語音波形為目標,編碼時以波形逼近為原那么,直接在時域上或變換域上進行編碼。這種編碼壓縮效率不高,在64-16Kb/s的速率上能夠合成出很高的語音質量,但速率進一步下降時,編碼
17、語音的質量將大幅度下降。參數編碼的出發(fā)點與波形編碼不同,它以盡可能保持語音的可懂度為原那么,通過為語音信號建立數學模型,根據給定的語音信號計算模型參數并量化編碼來實現(xiàn)。由于模型參數相對于語音波形而言數據量很小,因此壓縮效率很高,速率大都在16Kb/s以下,甚至可降到1Kb/s以下。參數編碼雖然可能導致重建語音與原始語音在時域波形上有很大區(qū)別,但可懂度仍然能夠保持在一個很高的程度上。目前還常采用混合編碼的方案,它結合了波形編碼和參數編碼的優(yōu)點,也可歸于參數編碼分支中2。本課題所研究的線性預測編碼,即LPC聲碼器是參數編碼的一種。它是應用最為成功的低速率語音編碼器,其比特率可以到達2.4Kbps以
18、下。本人根據自己的興趣愛好選取了線性預測編碼為自己的研究課題,通過MATLAB仿真對編碼的參數提取與合成過程進行了仿真,并利用學校自主研發(fā)的硬件試驗箱實現(xiàn)了基于DSP的LPC聲碼器。第1章 緒論第1.1節(jié) 語音編碼的根本概念語音壓縮編碼是語音數字處理最重要的一種應用。語音壓縮編碼的目的是用盡可能低的比特率來獲得盡可能高的合成語音質量。實現(xiàn)語音壓縮編碼特別是中低速率的設備通常稱為聲碼器。雖然光纖通信和微波通信等系統(tǒng)可以提供很寬的頻帶,但在很多情況下仍然需要壓縮語音編碼速率以節(jié)省頻帶。一方面壓縮編碼后可以在有限帶寬的信道上傳輸多路語音,提高信道的利用率;另一方面可以在窄帶的模擬信道如短波上傳輸數字
19、語音。特別是在軍事通信系統(tǒng)等需要復雜加密的應用場合,聲碼器具有不可替代的作用。此外,語音的數字存儲、語音應答等也是語音壓縮編碼的重要應用。在語音壓縮編碼技術中,線性預測、矢量量化、碼本鼓勵等是最重要的幾種實現(xiàn)技術。根據語音壓縮編碼的采樣率,可以分為窄帶 帶寬300-3400Hz語音壓縮編碼、寬帶7kHz語音壓縮編碼和20kHz的音樂帶寬壓縮編碼。窄帶語音壓縮編碼的采樣率通常為8kHz,一般應用于語音通信中。寬帶7kHz語音壓縮編碼的采樣率通常為16kHz,一般用于要求更高音質的應用中,如會議電視。而20kHz帶寬主要是適用于音樂數字化,采樣頻率高達44.1kHz。數字語音有許多模擬語音不可比擬
20、的優(yōu)點:它便于傳輸和存儲,能夠在噪聲信道中進行可靠傳輸,易于交換,能夠方便的加密傳輸。數字語音可以簡單的由模擬語音抽樣量化得到。由于未經任何處理的數字語音數據量很大,假設不經過處理,那么在傳輸和存儲時會占用大量的信道資源和傳輸空間,給系統(tǒng)提出很高的要求,因此數字語音一般都要進行壓縮編碼。在保證一定的編碼語音質量的前提下如何高效率地進行壓縮編碼,或者在給定信息速率的前提下如何提高編碼后的語音質量,是語音編碼研究的重點。通常語音編碼需要在保持語音的音質、降低編碼速率和降低算法的計算復雜度三方面進行綜合考慮和折中。近十幾年來,在數字通信領域實際需求的強力推動下,隨著計算機技術的高速開展,語音編碼技術
21、的研究獲得了突飛猛進的開展,并得到了廣泛的應用,由此形成了比擬完善的理論和技術體系。具體表現(xiàn)為,當今世界上存在著數量眾多的語音編碼的國際標準和地區(qū)性標準,并且該領域也成為國際標準化工作中最為活潑的研究領域。最早提出的語音編碼標準時數碼率為64Kbps的PCM波形編碼器,而在20世紀90年代中期出現(xiàn)了很多被廣泛使用的語音編碼國際標準,例如:數碼率為5.3/6.4Kbps的G.723.1、數碼率為8Kbps的G.729等。此外,也存在著各種未成形的國際標準,但數碼率更低的成熟的編碼算法,有的算法數碼率甚至可以到達1.2Kbps以下,但仍能提供可懂的語音3。語音編碼方式按照編碼方法可以分為3類:波形
22、編碼、參數編碼和混合編碼。波形編碼是根據語音信號的波形導出相應的數字編碼形式,其目的是盡量保持波形不變,使接收端能夠重視的再現(xiàn)原始語音;波形編碼具有抗噪性能強、語音質量好等優(yōu)點,但需要有較高的數碼率,一般為16Kbps64Kbps。參數編碼又稱為聲碼器,它通過對語音信號進行分析,提取參數來對參數進行編碼。在接收端能夠用解碼后的參數重構語音信號,參數編碼主要是從聽覺感知的角度注重語音的重現(xiàn),即讓解碼語音聽起來與輸入語音是相同的,而不是保證其波形相同。參數編碼一般對編碼率的要求比波形編碼低得多。混合編碼是上述兩種編碼的有機結合,同時從兩個方面構造語音編碼:一方面增加語音的自然度,提高語音質量;另一
23、方面相對于波形編碼實現(xiàn)較低的數碼率指標。衡量語音編碼性能的主要指標有:語音質量、算法的復雜度、編解碼延時和編碼速率。第1.2節(jié) 語音編碼的應用及其硬件和實用系統(tǒng)由于數字化的語音傳輸和存儲,無論在可靠性、抗干擾、速交易、易保密和廉價格等方面都遠勝于模擬語音。從50年代以來,在通信系統(tǒng)中數字化語音所占百分比不斷增加?,F(xiàn)在已非常清楚,在未來的ISDN(綜合業(yè)務數字通信網)、衛(wèi)星通信、移動通信、微波接力通信和信息高速公路等系統(tǒng)中將無一例外的采用數字化語音傳輸和存儲。在不到50年的時間里,語音編碼以有了驚人的開展。最早的標準化語音編碼系統(tǒng)是速率為64kb/s的PCM波形編碼器,到90年代中期,速率為48
24、kb/s的波形與參數混合編碼器,在語音質量上已逼近前者的水平,且已到達實用化階段。據預測,速率為2.4kb/s左右的語音編碼器,在未來幾年中將在性能和實用化兩方面都接近于64kb/s的標準PCM編碼器。語音識別的研究起步很晚,大規(guī)模的研究開始于70年代初期,近年來已取得了長足的進展。一些中、小詞表的孤立或連續(xù)語音識別系統(tǒng)已進入市場。目前,研究的重點是實現(xiàn)大詞表、非特定入的連續(xù)語音識別系統(tǒng),它可以用語人機對話、語音打字機以及兩種語言之間的直接通信等一系列重要場合。這是一個難度相當大的高科技課題。在當前,學術界的普遍看法是:在信號處理、計算機、語言學、語音學和人工神經網絡等各界學者的通力合作下,這
25、一難題很有可能在上世紀取得突破性的進展。語音合成是人機對話的另一個重要環(huán)節(jié),讓機器將文本語音轉換成具有人聲特點、抑揚頓挫自然流利的口頭語言決非易事,這一研究課題也正日益受到重視。其它一些重要的應用領域還包括語音增強(在強背景噪音或干擾中恢復“干凈的語音)和說話人識別及確定等4。絕大多數語音信號數字處理系統(tǒng)需要按照實時方式或稱為在線方式工作,這時對于系統(tǒng)的硬件環(huán)境要求很高(這里主要指系統(tǒng)的運算速度和內存容量的要求)。隨著語音處理算法的日益復雜,許多語音處理器的運算速度需要到達1020MIPS(Million Instructions per Second),在未來幾年中這個速度甚至到達50MIP
26、S,而在語音識別與合成等領域中對于處理系統(tǒng)的內存容量往往要求到達假設干MB。使用的實時語音信號數字處理系統(tǒng)通常以兩種方式實現(xiàn):第一種是用一臺計算機作為主機(微型機、小型機或工作站)插上一塊或假設干塊數字信號處理板來構成,后者由通用或專用的數字信號處理芯片(DSP芯片)及相應的存儲芯片、接口芯片和A/D、D/A芯片組成。第二種那么由專用或通用的DSP芯片及其他輔助芯片構成一個獨立工作的系統(tǒng)。前者通常稱為非脫機工作系統(tǒng),用于識別、合成、增強或模擬實驗中。后者稱為脫機工作系統(tǒng),用于編碼、小詞匯表識別與合成等場合。通過DSP芯片的出現(xiàn)及其性能價格比的迅速提高為各種使用化語音信號處理系統(tǒng)的實現(xiàn)鋪平道路。
27、美國TI公司在80年代中期研制出的第一代DSP芯片TMS32021和TMS32021完成一次乘/累加運算(16位、定點)運算只需要200ns,第二代DSP芯片TMS320C25完成一次乘/累加(16位、定點)運算只需要100ns,第一代DSP芯片TMS320C30完成一次乘/累加(32位、定點)運算只需要50ns且片內的ROM和RAM和片外可擴充的RAM容量都大大增加。此外,美國ATT公司研制出的DSP-16C和DSP-32C,美國AD公司研制出的ADSP21010和ADSP21020等芯片系列與上述TI公司的第二代和第三代DSP芯片大致處在相似的水平上。第三代DSP芯片及更高一代DSP芯片的
28、出現(xiàn)將使語音信號數字處理技術的開展和實用登上一個更高的新臺階。第1.3節(jié) 參數編碼簡介參數編碼器又稱為聲碼器(vocoder),其原理和設計思想與波形編碼完全不同。波形編碼的根本思路是忠實的再現(xiàn)語音的時域波形,它在32Kbps的編碼率下能夠得到非常好的話音質量。在話務過載的情況下,還可降質使用24Kbps或16Kbps編碼速率,但要進一步降低比特率就比擬困難。因此,使用波形編碼方式實現(xiàn)的語音編碼器大多屬于中高速率的編碼器。參數編碼根據聲音形成機理的分析,著眼于構造語音生成模型,改模型以一定的精度模擬說話人的發(fā)音聲道,接收端根據該模型復原生成合成語音。編碼器發(fā)送的主要信息是該模型的參數,相當于語
29、音的主要特征,而不是具體的語音波形幅值。參數編碼器是最早應用成功的語音編碼器,它將分析與合成結合起來,實際上是一種語音分析合成系統(tǒng)。因為僅傳輸模型參數所需要的數據量要小得多,所以參數編碼可以實現(xiàn)很低的編碼率。但參數編碼器也有語音質量差,自然度較低,對環(huán)境噪聲敏感等缺點。典型的參數編碼器有:通道聲碼器、共振峰聲碼器及線性預測聲碼器等。其中線性預測聲碼器目前得到了廣泛的應用。參數編碼的根底是語音的產生模型,如圖11所示。沖擊序列發(fā)生器聲門波模型 eq oac(,)隨機噪聲發(fā)生器 eq oac(,) eq oac(,)聲道模型輻射模型語音信號振幅基因周期圖11 語音信號產生模型根據該模型對語音信號進
30、行分析可以得到譜包絡、基因周期以及清濁音判別等信息,其中譜包絡信息是一組定義聲道共振特性的濾波器系數。如果將上述參數編碼后傳輸到接收端,就可以在同樣的語音模型根底上合成語音信號,合成器中采用的聲道濾波器的形式與編碼端的譜包絡分析器的形式相對應,它們的不同形式決定了聲碼器的不同類型,如通道聲碼器、共振峰聲碼器和LPC聲碼器等。 畢設所完成的主要工作基于LPC語音分析合成在DSP上的實現(xiàn),本人主要做了三方面的工作:一是詳細分析并闡述了線性預測的根本原理,求解線性預測方程組的各種算法及其比擬,以及各種參數的編解碼方法;二是根據LPC-10聲碼器原理以及相關算法對參數進行編碼,然后解碼合成語音,該過程
31、都是在MATLAB上完成,即利用MATLAB軟件仿真聲碼器編解碼過程;三是根據仿真程序編寫能夠在DSP上實現(xiàn)的C語言程序,并利用CCS集成環(huán)境調試程序最終在DSP上實現(xiàn)LPC的語音分析合成。第2章 語音信號的線性預測分析第2.1節(jié) 線性預測的背景參數模型法是現(xiàn)代譜估計的主要內容,經常采用的模型有三種:自回歸(auto-regressive,AR)模型是一個全極點的模型;移動平移(moving-average,MA)模型是一個全零點模型;自回歸移動平均(ARMA)模型是一個既有零點,又有極點的模型。從數字信號處理的知識可知,AR模型易反映頻譜中的峰值,MA模型易反映頻譜中的谷值,而ARMA模型可
32、以同時反映兩者??紤]到求解AR模型的正那么方程是一組線性方程,而求解MA和ARMA模型的方程是非線性的,因此在實際處理中應該用比擬廣泛的AR模型。又由于AR模型可以與基于級聯(lián)無損聲管的語音產生模型相聯(lián)系,因此在語音處理中它是被廣泛采用的模型;而與其相關的線性預測分析也是語音信號處理中普遍采用的核心技術之一5。根據數字信號處理中的知識,一個p階的AR模型總是等效于一個p階的線性預測器。因此,目前提出的有關AR模型系數的求算,以及AR模型性能的討論大都是建立在線性預測理論根底上的。對語音信號進行線性預測分心的根本思想是:一個語音的采樣能夠用過去假設干個語音采樣的線性組合來逼近。通過使線性預測到的采
33、樣在最小均方誤差意義上逼近實際語音采樣,可以求取一組唯一的預測系數。這里的預測系數就是線性組合中所用的加權系數。這種線性預測分析最早用于語音編碼中,因此也常被簡稱為LPC(linear prediction coding)。第2.2節(jié) 線性預測的根本原理根據參數模型功率譜估計的思想,可以將語音信號S(n)看作是由一個輸入序列U(n)鼓勵一個全極點的系統(tǒng)模型H(z)而產生的輸出,如圖21所示。U(n)S(n)H(z)圖21 語音信號模型化一個隨機過程用一個p階的全極點系統(tǒng)受白噪聲鼓勵產生的輸出來模擬,設這個系統(tǒng)的傳遞函數為: (21)其中G為常數,S(z)和U(z)分別為輸出信號S(n)和輸入信
34、號U(n)的Z變換,那么S(n)與u(n)的關系可以表示為差分方程: (22)我們可以把式(22)中與有關的局部理解為用信號的前p個樣本來預測當前樣本,即定義預測器: (23)由于預測系數()在預測過程中看作常數,所以它是一種線性預測器,這種線性預測最早是用于語音編碼,因此人們常稱LPC,即Linear Predictive Coding,這個線性預測器的系統(tǒng)函數為: (24)顯然,如果信號S(n)精確地符合式(21)和式(22)所描述的模型假定,那么用式(2-3)所示的線性預測器預測信號S(n)的預測誤差應為: (25)但是,實際信號未必精確地符合這個假定,因此實際的預測誤差應為: (26)
35、此式說明預測誤差序列是信號S(n)通過一個具有如下系統(tǒng)函數的系統(tǒng)產生的輸出: (27)比擬式(21)和式(27)可知,預測誤差濾波器A(z)是系統(tǒng)H(z)的逆濾波器,即: (28)由于給定的只有信號S(n)和一個參數未知的模型式(21),要想使這個模型盡可能精確地描述信號占(q),應該使式(26)所得的預測誤差在某一短時的總能量盡可能小,并在此準那么下求出最正確預測系數()。為此,定義短時平均預測誤差能量: (29) 其中是在抽樣點n附近選擇的一個語音段,即 (2.10) 式(29)的取和范圍與前幾章所介紹的短時分析技術是相似的,使式(29)中En到達最小值的()必定滿足2En/20(i1,2
36、,p),由此使得到以為變量的線性方程組: ()其中 (211b)這個線性方程組通常有唯一解,一旦解出其中的變量,最小預測誤差能量便可由式(29)求得。也可以改寫式(29),并利用式(211b)得到另外兩種形式的最小預測誤差能量計算公式: (212) (213)由式(26)計算出的最小預測誤差序列e(n)又稱為預測殘差序列。就是預測殘差能量。增益因子G的估算如下: G在所考慮那么短時內應該是一個常數。根據式(25)和式(29),有 (214)假假設所分析的信號S(n)確實符合式(21)的模型,那么假想的輸入信號u(n)可以認為是一個單位方差的白噪聲序列。如果只考慮S(n)被某一短時窗截得的局部,
37、那么輸入信號也可以是一個單位的脈沖(n)。在這兩種情況下,式(214)中的輸入信號總能量都為1,于是由式(214)得: (215)這樣直接把殘差能量當作增益的平方,雖然只是近似的,卻是很實用的,特別是當模型式(21)的假定是充分考慮了語音產生過程的各種因素時。預測殘差序列將接近于白噪聲序列(清音)或脈沖串(濁音)時,用式(215)估算出的及最正確線性預測系數來重構原信號S(n)可以獲得很好的效果。要使模型的假定較好地符合話音產生模型,主要有兩個因素要考慮:首先是模型的階數p要與共振峰個數相吻合,其次是聲門脈沖形狀和口唇輻射影響的補償。通常一對極點對應一個共振峰,10kHz采樣的語音信號通常有5
38、個共振峰,取p10,對于8kHz采樣的語音信號可取p8,此外為了彌補鼻音中存在的零點以及其他因素引起的偏差,通常在上述階數的根底上冉增加兩個極點,即分別取P12和P10。 關于聲門脈沖形狀和口唇輻射的影響,其總的趨勢是使語音信號的頻譜產生高頻衰落現(xiàn)象。大約相當于每倍程下降6dB。要抵消這種影響,通常在進行LPC分析之前采用一個非常簡單的一個一階FIR濾波器進行項加重,也就是進行高頻提升,對于10kHz采樣的語音,預加重系數取a0.95。 對于考慮了上述兩個因素的LPC分析,其預測殘差序列近似為白噪聲,并且殘差能量也相當小,這說明由某一短時信號所得到的線性預測系數能較好地描述產生這一語音段的聲道
39、特性?;贚PC的語音識別、語音合成、語音編碼和說話人識別的大量實踐證明:線性預測參數是語音信號特征表示的良好參數。由于線性預測技術也可理解為是一種基于全極點模型假定和均方預測誤差最小準那么下的波形逼近技術,因此,它也可以不依賴語音產生模型的假定,應用于語音波形編碼、圖像編碼等方面,預測階數可隨意選擇6。第2.3節(jié) 線性預測分析的解法 上節(jié)在介紹線性預測原理的同時建立了以線性預測系數為變量的線性方程組,即式(211),我們把它重新列出如下 (216a)其中的定義還沒有具體化,只給出了以下一般式: (216b)上式的還只給出了一個模糊的定義,m的求和范圍也沒有具體化??梢远x為自相關函數,也可以
40、定義為協(xié)方差函數,這兩種定義所確定的系數矩陣的性質不同,由此所決定的線性方程組(216a)也就有兩類不同的解法。實際上已經創(chuàng)造許多種解法。下面我們主要介紹三種解法,其中兩種是針對自相關方程的,即Durbin遞推算法和Schur遞推算法;一種是針對協(xié)方差方程的,就是喬里斯基分解法。 自相關方程及其解法自相關方程就是當方程組(216a)中的系數按前面所述的短時自相關定義而導出的。先用一個長為N的短時窗(如漢明窗)截取信號: (217)然后求自相關,那么式(216b)為: (218a)也可寫成: (218b)比照此式與式(211)可知,此時的就是短時自相關函數取(i-k)點的值,即: (219)其中
41、: (220)考慮到是偶函數,有: (221)于是式(216a)可表示為: (222)這就是自相關方程,這種線性方程組寫成矩陣形式,有: (223)其中階的自相關值矩陣是一個托布利茲(Toeplitz)矩陣,其特點是它的元素關于主對角線和副對角線都是對稱的,而且平行于主對角線的各條線上的元素都各自相等。這種特殊的線性方程組存在多種高效率的解法。下面主要介紹Durbin遞推算法和Schur遞推算法,這是兩種非常簡單實用的算法。遞推算法:為表達方便,我們將方程組(222)或(223)中的下標n略去。遞推程序如下: (224) (225) (226) (227) (228)式(225)到式(228)
42、分別對i1,2,3,p進行遞推,得到最終的解為: (229)上面的是f階預測器的第i個預測系數。因此,對于一個p階預測器,在遞推過程中將低于p的各階預測系數也都求解出來了,而且其最小預測誤差能量也順便求出來。當然,最小預那么誤差能量也可以將代人式(2-13)求得: (230)遞推式中的ki是反射系數,也稱PARCOR系數,其取值范圍是: (231)反射系數的這個條件是保證系統(tǒng)H(z)穩(wěn)定的充分必要條件,即多項式A(z)的根在單位圓內的充分必要條件。遞推過程中始終保持滿足這個條件十分重要。遞推算法:先設一輔助序列,其性質為:(1) 當i0時,;(2) 當i0時,0 j1,2,p;(3) 為p階預
43、測誤差的能量;(4) |,其中等號僅當ij0時成立。于是得到Schur遞推算法如下:(1)將自相關系數標準化: (232) (233)(2)令 ,1(3)今 -pjp (234)(4)令 i1,k1r(1)(5)對于i-pjp計算: (235) (236) (237) (238)(6)如果ip,返回第5步;(7)程序結束。最終得到的就是最小誤差預測系數,就是相應的反射系數。這種遞推算法與Durbin算法的不同之處在于:如果只需計算反射系數,式(237)和式(238)可以略去,它可以用來專門求反射系數。這時遞推中所有變量都小于1(除r(0)1之外),因此特別適于定點運算,這對于硬件實現(xiàn)是很有利的
44、。 協(xié)方差方程及其解法如果式(211)中的系數仿照前面節(jié)中的矩形窗變形自相關那樣定義,即定義: (239a)或 (239b)其中表示附近一短時信號,N為短形窗窗長。那么線性方程組(211a)的系數矩陣就是一個協(xié)方差矩陣,為表示方便,我們去掉下標n,有: (240)這個系數矩陣是對稱的正定矩陣,但不是托布利茲的。這種線性方程組也有多種解法,其中常用的解法是喬里斯基(Choleskey)分解法,其根本思想是將系數矩陣采用消元法化成為主對角線元素為l的上三角矩陣,然后逐個變量遞推求解7。第3章 線性預測聲碼器第3.1節(jié) 概述.4kbit/s以下。實現(xiàn)參數編碼的器件又稱為聲碼器(Vocoder:Voi
45、ce coder的簡稱),即聲音編碼器的簡稱。它將分析與合成結合起來,實際上是一種語音分析合成系統(tǒng),主要用于窄帶信道的語音通信中,它將輸入的語音信號分析為頻譜分量或其他決定信號的參量,編為電碼,經遠地傳傳送后再合成為語音信號、其優(yōu)點是因為所傳送的是參數、比擬簡單、節(jié)省信道,此外還可將參數碼改變?yōu)楸C芟到y(tǒng),大大提高信道的使用價值,在國防和工商業(yè)中都很重要。為了到達很低的傳輸碼率,聲碼器只能提取和傳送那些攜帶聽覺上最重要局部的信息的參數。同時必須進行高效的編碼。聲碼器的主要問題是合成的語音質量差,特別是自然度較低(不一定能聽出講話人是誰)。為了充分發(fā)揮聲碼器的性能,以下三個因素是重要的:去掉語音波
46、形中的冗余局部,提取對于聽覺所需的重要參數;對參數進行有效的編碼;根據編碼的參數,盡可能忠實地將語音(包括自然度和可懂度)復原出來8。通道聲碼器、共振峰聲碼器以及目前廣泛使用的線性預測(LPC)聲碼器都是典型的聲碼器。在現(xiàn)代通信系統(tǒng)中,LPC聲碼器和通道聲碼器并列為研究最深入,使用最廣泛的聲碼器。各種聲碼器中,比擬有實用價值的是LPC聲碼器,因為它較好地解決了傳輸數碼率與所得到的語音質量間的矛盾 。早期曾使用過的相位聲碼器,由于其語音質量不如LPC聲碼器而逐漸被淘汰,而同態(tài)聲碼器,雖然其語音質量比LPC聲碼器好,但始終無法降低其數碼率(需傳送32個左右的倒譜參數,才能有高的音質)。上世紀70年
47、代中期,特別是80年代以來,語音編碼技術有了突破性進展,提出了一些非常有效的處理方法,產生了新一代的參數編碼算法,也就是混合編碼,構成了新一代的聲碼器這種算法克服了原有波形編碼和聲碼器的弱點,結臺了其各自的長處,在416kbit/s的速率上能夠得到高質量的合成語音,本質上也具有波形編碼的優(yōu)點。多脈沖碼鼓勵線性預測編碼(MPC),以鼓勵線性預測編碼(CELPC)及規(guī)那么脈沖鼓勵線性預測編碼(RPELPC)等都屬于這類聲碼器。第3.2節(jié) LPC聲碼器迄今為止,線性預測聲碼器仍然是最為成功的,也是應用最為廣泛的聲碼器。圖31給出了典型的LPC聲碼器的框圖。與線性預測波形編碼不同的是收端不再利用殘差。
48、接收端直接合成傳輸語音,而不具體恢復輸人語音的波形。這樣得到的語音有明顯的人工語言的特點。在線性預測時曾指出,LPC有作為預測器和作為模型的雙重作用。波形編碼器的主要作用是用作預測器,而聲碼器的主要作用是建立模型。圖31 LPC聲碼器框圖雖然LPC聲碼器與ADPCM一樣,都是基于線性預測分析來實現(xiàn)對語音信號的編碼壓縮,但是它們之間有著本質的區(qū)別,LPC聲碼器不考慮重建新號波形是否與原來信號波形相同,而努力使重建新號在主觀感覺上與輸入語音一致,所以不必量化和傳輸量化殘差,只需傳輸LPC參數和重構鼓勵信號的基因周期和清濁信息。 LPC參數的變化和量化LPC分析存在多種推演參數,選取哪種參數進行編碼
49、,需要考慮如下兩個因素:(1) 參數的量化特性。參數的量化特性與參數的普靈敏度是密切相關的,所謂普靈敏度是指參數的微小變化所引起的譜變化的程度。譜靈敏度比擬均勻的參數,其量化特性就好,對于一定的譜失真允許范圍,參數編碼所需要的總比特數就比擬小,合成濾波器的穩(wěn)定性也比擬好。(2) 參數的內插特性。在編碼系統(tǒng)中,常需要將兩組LPC參數進行線性內插,得到另一組LPC參數作為兩者之間的過渡,以便使合成語音的頻譜特性過渡更加自然平滑。如果參數的編碼特性很好,但它內插所得到的參數不代表頻譜的平滑過渡,甚至導致合成不穩(wěn)定的濾波器,這樣的參數顯然也不適宜用于編碼傳輸?,F(xiàn)在來比擬幾種LPC參數的編碼性能。1.
50、線性預測系數。線性預測系數顯然不適合作為編碼參數,它的譜靈敏度極不均勻,有些系數很小的變化,就可能會引起頻譜很大的變化。而且線性預測系數的內插特性也很差,內插得到的新參數,不一定能夠構成穩(wěn)定的合成濾波器。2. 反時系數。在LPC算法中可以直接遞推得到,它廣泛應用于線性預測編碼中。對反射系數的研究說明,各反射系數幅度值的分布是不相同的:和的分布是非對稱的,對于多數濁音信號,接近于-1,那么接近于+1;而較高階次的反射系數、等趨向于均值為零的高斯分布。此外,反射系數的譜靈敏度也是非均勻的,其值越接近于1時,譜的靈敏度越高。即此時反射系數很小的變化將導致信號頻譜的較大偏移。上面的分析說明,對反射系數
51、的值在-1,+1區(qū)間作線性量化是低效的,般都是進行非線性量化、比特數也不應均勻分配,、量化的比特數應多些,通常用5至6bit;而、等量化的bit數逐漸減小。3. 對數面積比。根據系數的特點,在大量研究的根底上發(fā)現(xiàn),最有效的編碼是針對對數面積比 (31)式中,是用無損聲管表示聲道時的面積函數。上式將-1+1映射到-+這一變換的結果使呈現(xiàn)相當均勻的幅度分布,可以采用均勻量化。此外,參數之間的相關性很低,經過內插產生的濾波器必定是穩(wěn)定的。所以對數面積比也很適合于數字編碼和傳輸。每個對數面積比參數平均只需要5至6bit量化,就可使參數量化的影響完全忽略。4. 預測多項式的根。對預測多項式進行分解,有
52、(32)這里,參數(i=1,2,p)是A(z)的一種等效表示,對預測多項式的根進行量化,很容易保證合成濾波器的穩(wěn)定性,因為只要確信根在單價圓內即可。平均來說,每個根用5bit量化就能精確表示A(z)中包含的頻譜信息。然而,求根將使運算量增加,所以采用這種參數不如采用第2、3種參數效率高9。通常,一幀典型的LPC數據包括1bit清濁音信息、大約5bit增益常數、6bit基音用期、平均56bit量化每個反射系數或對數面積比(共有812個),所以每幀約需60 bit。如果一幀25ms。那么聲碼器的數碼率為2.4kbit/s左右。 變幀率LPC聲碼器雖然進一步降低LPC聲碼器的數碼率是可能的,但必須以
53、再降低語音質量為低價。盡管如此,在這方面還是進行了一些嘗試。變幀率LPC聲碼器就是一種。它充分利用了語音信號在時間域上的冗余度,尤其是元音和擦音在發(fā)音過程中都有緩變的區(qū)間,描述這局部區(qū)間的語音不必像一些快變語音那樣用很多bit的信息量。語音信號是非平穩(wěn)的時變信號,波形變化隨時間而不同。例如,清音至濁音的過渡段,語音特性的變化劇烈,理論上應用較短的分析幀,要求LPC聲碼器至少每隔10ms就發(fā)送一幀新的LPC參數;而對于濁音局部,在發(fā)音過程中有緩變的區(qū)間,語音信號的譜特性變化很小,分析幀就可取長些;在語音活動停頓情況下更是如此。因而,可以采用變幀速率的編碼技術來降低聲碼器的平均傳輸碼率。實際上,幀
54、長可保持恒定,只是勿須將每一幀LPC參數部去編碼和傳送,這時合成局部所需的參數可以通過重復使用當前幀參數或內插方法獲得,這樣每秒傳輸的幀數是在變化的,平均的傳輸碼率將大大降低。如果采用LPC方式存儲信號,變幀速率編碼將起到減少存儲存量的作用。在這種聲碼器中,關鍵問題是如何確定其中一幀LPC參數是否需要傳送,因而需要一種度量方法以確定當前幀參數和上一次發(fā)出的那幀參數間的差異(即距離)。如果距離超過了某一門限,說明發(fā)生了足夠大的變化,此時必須傳送新的一幀LPC參數。如果分別用用、表示第n幀和第l幀LPC參數構成的列矢量,那么度量這兩幀參數變化的最簡單的方法是求歐氏距離,或求更一般的歐氏距離。其中是
55、一個正定加權矩陣W的逆,W的引入使得起主要作用的參數給予較重的權。矩陣W應由語音信號的統(tǒng)計特性決定,而且對于不同的語音段和講話人都應該有不同的選擇。變幀速率編碼技術(Variable Frame Rate)簡稱VFR,它在某些語音通信系統(tǒng),如信道復用、話音插空、數據和話音復用等場合都有定的應用價值。變幀速率LPC聲碼器的傳輸數碼率一般能降低50%而不產生明顯的音質變壞,其代價是編碼和解碼變得復雜以及出現(xiàn)某些時延。第3.3節(jié) LPC-10聲碼器 LPC-10聲碼器簡介LPC-10是一個10階線性預測聲碼器。它所采用的算法簡單明了,為了得到質量好的語音,它對每個參數的提取和編碼都是很考究的。所以,
56、在本節(jié)除了介紹它的語音分析合成方案外,也簡單介紹它的參數編碼和解碼方法。 編碼器圖32是LPC-10的發(fā)端框圖。在這里,原始語音經過一銳截止的低通濾波器之后,輸入A/D變換器,以8kHz速率采樣得到數字化語音。然后每180個采樣分為一幀(22.5ms),以幀為處理單元,提取語音特征參數并加以編碼發(fā)送。A/D變換后輸出的數字化語音,經過低通濾波、2階逆濾波后,再用平均幅度差函數(AMDF)計算基音周期。經過平滑、校正得到該幀的基音周期Pitch。與此同時,對低通濾波后輸出的數字語音進行清/濁音檢測,經過平滑、校正的得到該幀的清/濁音標志V/UV。在提取聲道參數之前要先進行預加重處理。預加重濾波器
57、的傳遞函數HPW(Z)為: (33)在實施LPC分析前進行預加重的目的是加強語音譜中的高頻共振峰,使語音短時譜以及線性預測分析中的余數譜變得更為平坦,從而提高了譜參數估值的精確性。 (34)低通濾波100-3600HzA/D轉換8kHz,12bit預加重計算分析相位基音分析存儲器低通濾波器清濁檢測2階逆濾波基音提取基音及清濁音校正預測器分析存儲器計算RMS就算預測系統(tǒng)2幀參數存儲器2幀參數存儲器參數編碼誤差校正并變串及同步產生原始語音輸入數字語音輸出圖32 LPC-10編碼器框圖 解碼器解碼時,首先利用直接查表法對數碼流進行檢錯和糾錯。經過糾錯解碼后得到基音周期、清濁音標志、增益及反射系數的數
58、值。解碼結果延時1幀輸出。這樣輸出的數據可以在過去1幀、現(xiàn)在1幀、將來1幀共3幀內進行平滑。由于每幀語音只傳輸一組參數,考慮一幀之內可能有不止一個基音周期,因此要對接收數值進行由幀塊到基音塊的轉換和插值,使基音周期、清濁音標志、增益及反射系數等參數值每個基音周期更新一次。在解碼器中,根據Durbin算法將反射系數變換為線性預測系數,然后用直接型遞歸濾波器來合成語音。鼓勵采用簡單的二元鼓勵,即用隨機數來作為清音幀鼓勵源,用周期性沖擊序列通過一個全極點濾波器來生成濁音鼓勵源。LPC-10的解碼器框圖如圖33所示。幀塊到基音塊的轉換和插值參數解碼反射系數轉換成預測系數 基音產生噪聲產生誤差檢測校正解
59、碼串并轉換及同步檢測數字語音輸入RMSV/UV低通濾波3600HzA/D變換去加重清濁音開關綜合器計算增益輸出存儲器合成語音輸出圖33 LPC-10解碼器框圖1.計算聲道濾波器參數RC。用10階線性預測分析濾波器,利用協(xié)方差法對式(33)中的LPC逆濾波器(式32)計算聲道濾波器短時譜參數,i=1,.,P。預測系數不適于直接量化,因為它的微小變化會造成極點位置很大的變化。為了保證綜合濾波器的穩(wěn)定性,就要求有相當高的量化精度(每個系數需要8-10bits)。所以采用在數學上與之完全等價的P個反射系數RC(Reflection Coefficient)(i=1,.,P)代替預測系數進行量化編碼。k
60、參數的穩(wěn)定條件是|1,這在量化時是容易保證的。這里用Choleski UV分解的方法對LPC正那么方程的系數矩陣求逆,求出P個反射系數。這種算法能夠比擬準確地計算出共振峰的寬度,并且分析幀的長度可以減少為幀長的66%,也不會引起語音質量的惡化。 (P=10) (35)以點為中心的130個樣點形成分析幀來計算RC和RMS。2.計算增益RMS。用式(36)計算增益RMS: (36)式中Si為經過預加重的數字語音,M是分析幀的長度。3.提取基音周期和檢測清/濁音。輸入數字語音經過一個四階Butterworth低通濾波器濾波,此濾波器的3db截止頻率為800Hz。濾波后的信號再經過二階逆濾波,并把采樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職早期教育(嬰幼兒護理)試題及答案
- 2025年大學化工(化工研究方法)試題及答案
- 2025年大學大一(食品化學)物質轉化階段測試題及答案
- 2026年創(chuàng)新管理手冊(創(chuàng)新管理指南編寫)試題及答案
- 2025年注冊會計師(CPA)考試 會計科目難點解析與押題試卷及答案
- SCIE:標準助力智慧城市數字平臺建設
- 上海師范大學就業(yè)前景
- 招聘亮點話術
- 藝人職業(yè)規(guī)劃指南
- 祁東介紹教學課件
- 2025及未來5-10年高壓管匯項目投資價值市場數據分析報告
- 《國家十五五規(guī)劃綱要》全文
- 腹部手術圍手術期疼痛管理指南(2025版)課件
- 2025年衛(wèi)生人才評價考試(臨床醫(yī)學工程技術中級)歷年參考題庫含答案
- 呼吸康復科普脫口秀
- 2025年《思想道德與法治》期末考試題庫及答案
- 2025初一英語閱讀理解100篇
- 2026屆四川省成都市青羊區(qū)樹德實驗中學物理九年級第一學期期末考試試題含解析
- 高溫熔融金屬冶煉安全知識培訓課
- 林業(yè)種苗培育與管理技術規(guī)范
- 遼寧中考數學三年(2023-2025)真題分類匯編:專題06 幾何與二次函數壓軸題 解析版
評論
0/150
提交評論