已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀
(信號與信息處理專業(yè)論文)特定對象漢語語音轉(zhuǎn)換系統(tǒng)的研究.pdf.pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
, _j_j 士:n明明 本人鄭重聲明:此處所提交的碩士學(xué)位論文 ,是本人在華北電 力大學(xué)攻讀碩士學(xué)位期問,在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作和取得的研究成果。據(jù)本人所 知,除了文中特別加以標(biāo)注和致謝之處外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研 究成果,也不包含為獲得華北電力大學(xué)或其他教育機構(gòu)的學(xué)位或證書而使用過的材料。 與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了 謝意。 學(xué)位論文作者簽名:童i ! 童 日 關(guān)于學(xué)位論文使用授權(quán)的說明 本人完全了解華北電力大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保管、 并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件;學(xué)??梢圆捎糜坝?、縮印或其它復(fù)制手 段復(fù)制并保存學(xué)位論文;學(xué)校可允許學(xué)位論文被查閱或借閱;學(xué)校可以學(xué)術(shù)交流為 目的,復(fù)制贈送和交換學(xué)位論文;同意學(xué)校可以用不同方式在不同媒體上發(fā)表、傳播學(xué) 位論文的全部或部分內(nèi)容。 ( 涉密的學(xué)位論文在解密后遵守此規(guī)定) 作者簽名:旁n導(dǎo)師簽名: 、 盧北i u 力人學(xué)碩l :學(xué)位論文 摘要 特定對象的語音轉(zhuǎn)換系統(tǒng)目的在于在不改變語義的前提下,改變源說話人的語 音特征,使其聲音聽起來更像目標(biāo)說話人的聲音。近年來,對語音轉(zhuǎn)換系統(tǒng)的研究 已經(jīng)成為了語音信號處理中一個非常關(guān)鍵的領(lǐng)域,由于它涉及到很多其他的信號處 理技術(shù),如語音識別,語音合成等等,所以對它的研究勢必會推動這些領(lǐng)域的發(fā)展。 本文從漢語語音的音頻特征入手,在預(yù)處理階段,對于聲道頻譜包絡(luò)特性和基音頻 率特性提出了兩種不同的混合分幀策略,消除了傳統(tǒng)定長分幀對漢語語音特點的掩 蔽;在訓(xùn)練階段,采用了以音素為單位對高斯混合模型( g m m ) 的進(jìn)行訓(xùn)練的方法, 提高了語音信號建模的精度;在轉(zhuǎn)換階段,采用基于g m m 和碼本映射的混合算法, 有效解決了g m m 轉(zhuǎn)換頻譜包絡(luò)時,過于平滑的問題,提高了轉(zhuǎn)換后語音的質(zhì)量。 關(guān)鍵詞:漢語,語音轉(zhuǎn)換,高斯混合模型,碼本映射 a b s t r a c t av o i c ec o n v e r s i o ns y s t e mc a nc h a n g et h es p e e c ho fs o u r c es p e a k e ri n t ot h e t a r g e ts p e a k e r sw i t h o u tc h a n g i n gt h em e a n i n g s r e c e n ty e a r s ,t h er e s e a r c ho fv o i c e c o n v e r s i o ns y s t e mb e c o m e sak e ya r e ao ft h es p e e c hs i g n a lp r o c e s s ,b e c a u s ei tw i l l i m p r o v ea n dp u s ht h ed e v e l o p m e n to fo t h e ra r e ao fs s el i k es p e e c hr e c o g n i t i o n , s p e e c hs y n t h e s i s ,e t c b a s e do nt h es p e c i a lf e a t h e r so fm a n d a r i n ,t h i sp a p e rw i l l g i v e an e wc o m b i n e de n f r a m i n ga l g o r i t h md u r i n gp r e p r o c e s s i n gp e r i o d ,an e w g m mt r a i n i n gs t r a t e g yb a s e do np h o n e m ed u r i n gt r a i n i n gp e r i o d ,a n di nt r a n s f o r m p e r i o d ,ac o m b i n e dm e t h o do fg m ma n dc o d e b o o km a p p i n ga l g o r i t h mw i l lb eu s e d , w h i c hw i l lh i g h l yi m p r o v et h eq u a l i t yo ft h et r a n s f o r m e dv o i c e 宰木宰木木( s i g n a la n di n f o r m a t i o np r o c e s s ) d i r e c t e db yp r o f 木木+ 木宰奉宰 k e y w o r d s :m a n d a r i n ,v o i c ec o n v e r s i o n ,g mm ,c o d em a p p i n g 、 華北i u j 人學(xué)顧i :學(xué)位論義 摘要 a b s t r a c t 目錄 第1 章緒論1 1 1語音轉(zhuǎn)換系統(tǒng)的基本概念1 1 1 1語音轉(zhuǎn)換系統(tǒng)的定義l 1 1 2 語音轉(zhuǎn)換系統(tǒng)的分類l 1 1 3 實現(xiàn)語音轉(zhuǎn)換的步驟2 1 2語音轉(zhuǎn)換系統(tǒng)的研究意義2 1 3語音轉(zhuǎn)換系統(tǒng)的研究背景及國內(nèi)外動態(tài)。3 1 3 1語音轉(zhuǎn)換系統(tǒng)的研究背景3 1 3 2 語音轉(zhuǎn)換系統(tǒng)研究的國內(nèi)外動態(tài)3 1 4目前語音轉(zhuǎn)換系統(tǒng)的研究中存在的問題4 1 5本文的研究目標(biāo)和主要工作5 1 6本章小結(jié)5 第2 章語音轉(zhuǎn)換系統(tǒng)的基礎(chǔ)理論6 2 1語音信號處理基礎(chǔ)6 2 1 1語音信號的定義及其發(fā)聲機理6 2 1 2 語音信號分析的常用方法1 1 2 2漢語語音的特點1 4 2 2 1 漢語語音的基本特征1 4 2 2 2 漢語語音的拼音分類1 5 2 2 3 漢語的音節(jié)結(jié)構(gòu)1 5 2 2 4 漢語語音的音調(diào)1 6 2 3語音轉(zhuǎn)換系統(tǒng)的建模1 6 2 3 1語音轉(zhuǎn)換系統(tǒng)的基本模型1 6 2 3 2 語音轉(zhuǎn)換系統(tǒng)工作流程1 7 2 4本章小結(jié)1 8 第3 章語音轉(zhuǎn)換系統(tǒng)的實現(xiàn)原理19 3 1語音信號預(yù)處理1 9 3 1 1 語爵信號動態(tài)分幀算法1 9 。:j 1 2 窗函數(shù)的選取2 :j 3 2語爵信號特征提取2 4 3 2 1 【。p c 參數(shù)的提取過程2 4 3 2 2 i 。s f 特征參數(shù)捉收過程2 5 3 3 語卉轉(zhuǎn)換的洲練階段2 6 : :3 1 語爵信號i 、fi n j 塒齊2 6 3 3 2 皋于音素的語音信號建模2 7 3 4語爵信 _ 的轉(zhuǎn)換階段一3 0 。蘆北i u 力人學(xué)f ! j i j 學(xué)位論義 3 4 1 基于碼本混合映射的譜包絡(luò)轉(zhuǎn)換函數(shù)的建立3 0 3 4 2 基音頻率轉(zhuǎn)換函數(shù)的建立3 1 3 5語音信號的合成階段3 l 3 5 1 基音同步分析3 2 3 5 2 基音同步修改3 2 3 5 3 基音同步合成3 2 3 6本章小結(jié)3 2 第4 章試驗結(jié)果及相關(guān)討論3 3 4 1系統(tǒng)實現(xiàn)及界面設(shè)計3 3 4 2實驗具體步驟3 3 4 3實驗結(jié)果分析3 9 4 3 1 語音轉(zhuǎn)換系統(tǒng)的主觀評價系統(tǒng)3 9 4 3 2 不同性別問的轉(zhuǎn)換評級3 9 4 3 3g m m 不同訓(xùn)練語料對實驗結(jié)果的影響4 0 第5 章結(jié)果與展望4 2 參考文獻(xiàn)4 3 致謝。4 5 在學(xué)期間發(fā)表的學(xué)術(shù)論文和參加科研情況4 6 l f 仁北i g j l 人學(xué)煩i :學(xué)位論義 1 1 語音轉(zhuǎn)換系統(tǒng)的基本概念 第1 章緒論 語音轉(zhuǎn)換技術(shù)是語音信號處理領(lǐng)域中的一個重要分支。對語音轉(zhuǎn)換系統(tǒng)的研究幾 乎延伸到了語音信號處理的各個領(lǐng)域。在本節(jié)中,我們首先介紹有關(guān)語音轉(zhuǎn)換系統(tǒng) 的基本概念,包括語音轉(zhuǎn)換系統(tǒng)的定義和分類,以及語音轉(zhuǎn)換的基本步驟。 1 1 1 語音轉(zhuǎn)換系統(tǒng)的定義 語音轉(zhuǎn)換( v o i c ec o n v e r s i o n ) 系統(tǒng)是指,在不改變語義的d i 提下,改變源說話 人( s o u r c es p e a k e r ) 的語音個性特征,使其聽起來更像目標(biāo)說話人( t a r g e ts p e a k e r ) 的人的聲音【。語音信號除語義以外,還包括很多聲學(xué)個性化信息,例如說話的語 音,語調(diào),情緒,韻律等等。語音轉(zhuǎn)換系統(tǒng)主要集中于如何把這些信息模型化,并 且實現(xiàn)它們之問的相互轉(zhuǎn)化。研究表明反映語音信號個人特性的因素一般分為兩個 方面,一個是聲學(xué)參數(shù),如共振峰位置及其帶寬,基音頻率等等,這主要是由不同 說話人的發(fā)聲器官差異所決定的。另一方面是韻律學(xué)參數(shù),如不同說話人說話的快 慢、節(jié)奏、口音等等。這和人們所處的社會壞境和心理環(huán)境有關(guān)。 1 1 2 語音轉(zhuǎn)換系統(tǒng)的分類 語音轉(zhuǎn)換系統(tǒng)大致可以分為以下三類: l ,特定對象的語音轉(zhuǎn)換系統(tǒng),就如語音轉(zhuǎn)換的定義一樣,實現(xiàn)語義內(nèi)容不變而只 改變語音的說話人個性特征,使源說話人的語音經(jīng)語音轉(zhuǎn)換以后聽起來像是目標(biāo) 況話人的語音,本文主要討淪這一類語音轉(zhuǎn)換系統(tǒng)。 2 ,群體刈。象的語音轉(zhuǎn)換系統(tǒng),如男盧與女聲之問的轉(zhuǎn)換,兒章、成年人、老年人 語音之問的十f | ! f :轉(zhuǎn)換等,這種轉(zhuǎn)換是研究語音個性特征的群體特 ,仁,并加以轉(zhuǎn)換。 3 ,廣義語爵轉(zhuǎn)換系統(tǒng)定義為改變源說話人語音個性特征,使之聽起來像是另外一 個人的 舀音。此處只足使語音的說話人個性特征發(fā)生改,變,并沒有確定轉(zhuǎn)換的目 標(biāo)語音,例如像變盧器,聲音偽裝器等。應(yīng)該說較 j ,j 兩種語爵轉(zhuǎn)換,這種語音轉(zhuǎn) 換系統(tǒng)彳r 著寬松的語卉轉(zhuǎn)換要求。實現(xiàn)難度上也比f j ,j 兩種簡t 訌。 i l f # 北i 【l 力人學(xué)順l j 學(xué)位論義 1 1 3 實現(xiàn)語音轉(zhuǎn)換的步驟 語音轉(zhuǎn)換系統(tǒng)一般包括以下幾個階段: 1 ,信號預(yù)處理階段語音信號是非平穩(wěn)性信號,及其分布特性隨時間的變化和變 化,所以對語音信號的處理都是建立在短時的基礎(chǔ)上的,使用一定長度的窗函數(shù), 可以認(rèn)為在窗函數(shù)內(nèi)的語音信號是平穩(wěn)的,所以對語音信號的分幀加窗處理是必 厶 不可少的。 2 ,參數(shù)提取階段收集源說話人和目的說話人的語音特征,組成特征參數(shù)向量,一 般情況,特征參數(shù)包括兩方而信息:聲門信息和聲道信息。例如,基音周期,共 振峰等等。 3 ,訓(xùn)練階段對源說話人和目標(biāo)說話人的語音特征進(jìn)行對齊,調(diào)整,建立g m m 模 型,計算相關(guān)參數(shù)和轉(zhuǎn)換艦則。 4 ,轉(zhuǎn)換階段根據(jù)轉(zhuǎn)換規(guī)則和源說話人的語音特征參數(shù),得到新的轉(zhuǎn)換后語音信號 的特征參數(shù) 5 ,合成階段根據(jù)轉(zhuǎn)換后得到的特征參數(shù),合成出新的語音信號。 1 2 語音轉(zhuǎn)換系統(tǒng)的研究意義 語音轉(zhuǎn)換系統(tǒng)有著重要的理論價值和實用價值。對語音轉(zhuǎn)換系統(tǒng)的研究涉及到 說話人識別,文語轉(zhuǎn)換,語音編碼,語音諺 別,等各個領(lǐng)域,對語音轉(zhuǎn)換系統(tǒng)的研 究勢必會影響對這些領(lǐng)域的研究。 l ,在說話人識別中的應(yīng)用:語音轉(zhuǎn)換系統(tǒng)的研究必然要對說話人的語音特性進(jìn)行 建模,分析其語音特征,這些特征也j f 是構(gòu)成每個人說話差異的原因。所以語音 轉(zhuǎn)換系統(tǒng)中對說話人語音特性的研究和建模勢必為說話人識別領(lǐng)域的研究,提供 了重要的理論和實驗依據(jù)。 2 ,在文語轉(zhuǎn)換( t t s ) 系統(tǒng)中的應(yīng)用:在文語轉(zhuǎn)換系統(tǒng)中,根據(jù)文本合成的語音特 性往f 足單一的,缺乏自然度??梢园裻 t s 合成的語音通過一個語音轉(zhuǎn)換系統(tǒng), 將其轉(zhuǎn)換成特定人的語音,這樣就減少了文語轉(zhuǎn)換系統(tǒng)中的大量繁重的音頻錄制 工作。 。 3 ,在語音編碼中的應(yīng)用,通過語音轉(zhuǎn)換系統(tǒng),可以實現(xiàn)極低速率的語音編碼。前 提是文本的內(nèi)容已知,把說話人的語音特性和文本內(nèi)容,先通過一個t t s 系統(tǒng) 進(jìn)行語音合成,然后再通過一個語音轉(zhuǎn)換系統(tǒng),傳換成原來說話人的語音。 4 ,在語音識別中的應(yīng)用:在語音轉(zhuǎn)換系統(tǒng)中,對于譜包絡(luò)的參數(shù)的提取和轉(zhuǎn)換是 非常重要的一項r t 作,而在語音轉(zhuǎn)換系統(tǒng)中,也需要把一個類似的自適應(yīng)過程。 2 。乎北i 【 力人學(xué)碩i ? 學(xué)位論義 在語音識別的過程中,可以先通過一個語音轉(zhuǎn)換系統(tǒng),達(dá)到語音信號自適應(yīng)的要 求,在通過語音識別的系統(tǒng),可以達(dá)到良好的識別效果。 5 ,在其他領(lǐng)域的應(yīng)用:語音轉(zhuǎn)換系統(tǒng)不僅在上述領(lǐng)域,在軍事,醫(yī)學(xué),通信,航 海,外語學(xué)習(xí)等領(lǐng)域中都有應(yīng)用。 1 3 語音轉(zhuǎn)換系統(tǒng)的研究背景及國內(nèi)外動態(tài) 一 i 1 3 1 語音轉(zhuǎn)換系統(tǒng)的研究背景 隨著國內(nèi)外科學(xué)技術(shù)的發(fā)展,人們在于計算機交互的過程中,發(fā)現(xiàn)需要一種更 快能直觀的方式來獲取信息。而語音和圖像是人類獲取信息最自然,也是最有效的 工具。因此對于音信信號的研究越來越引起人們的重視。語音轉(zhuǎn)換系統(tǒng)正是其中之 一。 對于語音轉(zhuǎn)換系統(tǒng),一些國內(nèi)外學(xué)者部做了大量的工作,但是總體來說,由于 國外對語言轉(zhuǎn)換系統(tǒng)研究的實際較長,而國內(nèi)時間較短,所以國內(nèi)的研究狀況還是 落后于國外。 1 3 2 語音轉(zhuǎn)換系統(tǒng)研究的國內(nèi)外動態(tài) 1 9 8 8 年a b e 等人采用矢量量化的方法進(jìn)行語音轉(zhuǎn)換,但是不可避免的出現(xiàn)了轉(zhuǎn) 換語音不連續(xù)、細(xì)節(jié)丟失嚴(yán)重等問題。【1 】1 9 9 1 年h k u w a b a r a 采用分析合成方法來 進(jìn)行語音轉(zhuǎn)換,研究影響語音個人特征和話音質(zhì)量的聲學(xué)參數(shù),他通過線性預(yù)測解 卷積算法將語音信號分解為嗓音源信號和聲道傳輸函數(shù),通過求解聲道傳輸函數(shù)的 零點得到共振峰的位置信息,改變共振峰的位置和寬度,采用線性預(yù)測的殘差信號 作為激勵來合成語音【2 】。同年c h i l d e r s 等人采用基于固定長度幀的非基音同步的 方法和與信號相關(guān)的方法來進(jìn)行分析,通過線性頻譜搬移和分析合成的方法,進(jìn)行 了男女音之l 日j 的語音轉(zhuǎn)換,取得了較好的效果1 3 】。1 9 9 7 年a r s l a n 等人采用對線 譜頻率和激勵頻譜的碼本映射的方法,對語音信號進(jìn)行轉(zhuǎn)換【4 】。1 9 9 8 年,c h a p e l l 等人提出了種對肇于說話人特點對其基音j 割期軌跡進(jìn)行建模的算法1 5 j 。l9 9 8 年, k a i n 等人采用g m m 法來對譜包絡(luò)參數(shù)進(jìn)行建模轉(zhuǎn)換方法1 6j 。s t y l i a n o u 等人在研 究語音轉(zhuǎn)換系統(tǒng)時使用了一種連續(xù)概率模型對語音信號進(jìn)行建模1 7j 。s h i k a n o 在 2 0 0 1 年提出了基于具有動念頻率艦性的g m m 算法進(jìn)行語音轉(zhuǎn)換,還提i 了基于 g m m 的轉(zhuǎn)換頻潛與頻率規(guī)格頻i 譬之m 的差片,這i 叮以避免說話人個性上轉(zhuǎn)換準(zhǔn)確 性的下降【8 】。2 0 0 6 年y a m a g i s h i 等人在對語音合成的研究中提比了自適應(yīng)參數(shù)的 f 仁北i 也力人學(xué)碩i :學(xué)位論文 h m m 模型,提高了合成語音的準(zhǔn)確度和真實感【9 】。國內(nèi)有關(guān)語音轉(zhuǎn)換的研究起步 比較晚一些,主要的研究也都集中在時域。1 9 9 6 年初敏等人采用t d p s o l a 方法 進(jìn)行男女語音轉(zhuǎn)換,頻譜包絡(luò)特性的轉(zhuǎn)換是通過重采樣的方法來實現(xiàn)的【l 。2 0 0 0 年劉立采用矢量量化的方法,進(jìn)行了男女語音轉(zhuǎn)換的研究,其基音頻率的變換通過 把一個基音周期內(nèi)部的語音信號幅度最小的一部分截去或添加來實現(xiàn),頻譜包絡(luò)特 性的變換是通過d t w 技術(shù)從矢量庫罩尋找一定寬度的半波波形替換原語音信號中 的半波波形來實現(xiàn)】。2 0 0 6 年,康永國等人提出一種高斯混合模型和碼本映射相 結(jié)合的語音轉(zhuǎn)換算法。很好的解決了g m m 轉(zhuǎn)換后,頻譜過平滑的問題1 1 2 1 。 1 4 目前語音轉(zhuǎn)換系統(tǒng)的研究中存在的問題 盡管在過去的2 0 年中,國內(nèi)外很多學(xué)者在語音轉(zhuǎn)換方面做了大量的工作,但 是語音轉(zhuǎn)換質(zhì)量和效果依然不能令人滿意,主要有幾方面原因: l ,現(xiàn)今對于語音轉(zhuǎn)換系統(tǒng)的研究,主要集中于語音的音段特征,因為很難對超 音段特征建立數(shù)學(xué)模型,所以一般的轉(zhuǎn)換系統(tǒng)對于超音段特征,都采取平均 值轉(zhuǎn)換,而超音段特征對于語音來說往往又是非常重要的語音特征。所以轉(zhuǎn) 換出來的盧音往往缺乏真實感。 2 ,在語音轉(zhuǎn)換階段,對語音進(jìn)行韻律調(diào)整,也會導(dǎo)致語音質(zhì)量的f 降,引起失 真。例如對基音周期的凋整,當(dāng)基音周期改動較大時,會使語音信號的其他 特征也跟著改變,這就導(dǎo)致轉(zhuǎn)換后的語音缺乏真實感。 3 ,在聲道相應(yīng)的轉(zhuǎn)換算法中,矢量量化法會引起不連續(xù)現(xiàn)緣,g m m 法能較好 的克服這種不連續(xù)現(xiàn)象但卻又引起共振峰的平滑現(xiàn)象。這也導(dǎo)致了語音質(zhì)量 的下降。 在以后進(jìn)一步的研究中,需要解決的一些關(guān)鍵性的問題如f : ( 1 ) 對于超音段特征模型的研究。所謂超音段特征是語音信號的動念特征,這些 特征在說話人每次說時郜有不同的表現(xiàn),無法通過訓(xùn)練進(jìn)行量化或比較。例 如時長的變化、能量的變化,基音周期的變化、以及譜包絡(luò)的變化等等。而 這些超音段特征也從很大程度上反映了說話人人的個件特 1 f 。 ( 2 ) 對于中文語音特征的研究,中文語音和英語不同,由于中文發(fā)占有字i f 腔圓 的特點,所以在語音轉(zhuǎn)換系統(tǒng)中,可以通過對中文語音特點的學(xué)習(xí),在特定 情況下,對中文語音指定高效的,準(zhǔn)確的轉(zhuǎn)換和合成方案。 ( 3 ) 對于提高合成語音的質(zhì)量的研究,目前的語音轉(zhuǎn)換系統(tǒng)合成的語音都有不自 然的缺點,如果提高合成語音的質(zhì)量是語音轉(zhuǎn)換系統(tǒng)中,需要解決的一個重 要問題。 4 j j f 仁北i u 力人學(xué)煩l :學(xué)位論文 1 5 本文的主要工作 本文的主要工作是實現(xiàn)一個特定對象的語音轉(zhuǎn)換系統(tǒng),并對于傳統(tǒng)語音轉(zhuǎn)換系 統(tǒng)中的算法都做了相應(yīng)的研究和改進(jìn)。主要內(nèi)容如下: l ,在語音信號的預(yù)處理階段,對語音信號的傳統(tǒng)分幀算法做了比較和討論,針對 漢語語音的特點,提出根據(jù)音節(jié)、音素及基音周期的變化,采用不同的非定長動態(tài) 分幀策略,提高了基音周期的檢出概率。在音節(jié)內(nèi)部采用基于m f c c 短時相關(guān)性分 析的方法,識別并記錄音節(jié)類型,實現(xiàn)了漢字和其音頻特征的對應(yīng)動態(tài)識別和存儲。 2 ,在模型訓(xùn)練階段,提出基于漢語音素的訓(xùn)練模式,減少了d t w 對齊的誤差和噪 聲對g m m 協(xié)方差矩陣的干擾,在對基音頻率進(jìn)行建模時,只用元音進(jìn)行訓(xùn)練。提 高了模型訓(xùn)練的正確度和充分度。 3 ,在語音的轉(zhuǎn)換階段,使用了g m m 和碼本映射的混合轉(zhuǎn)換算法,由于g m m 模 型對聲道頻譜包絡(luò)的描述不夠細(xì)膩,所以在其基礎(chǔ)上加入了可調(diào)整的碼本映射的算 法,提高了轉(zhuǎn)換的精度。 e 1 6 本章小結(jié) 在本章中,我們簡要地介紹了語音轉(zhuǎn)換系統(tǒng)的分類、定義、相關(guān)國內(nèi)外研究背 景及其研究意義。初步的對語音轉(zhuǎn)換系統(tǒng)有了大致的了解。并且確定了本文的研究 目標(biāo)和主要工作。下一步我們要了解實現(xiàn)語音轉(zhuǎn)換系統(tǒng)所需要的理論知識,包括語 音信號發(fā)聲的機理和它的數(shù)學(xué)模型、漢語語音的特點、及其相關(guān)的處理分析方法和 工具等等。 華北i u 力人學(xué)順i j 學(xué)位論義 第2 章語音轉(zhuǎn)換系統(tǒng)的基礎(chǔ)理論 從本章丌始,我們將從三個方面對語音轉(zhuǎn)換系統(tǒng)的理論基礎(chǔ)作詳細(xì)的介紹:語 音信號的基礎(chǔ)知識,語音信號的處理方法,語音轉(zhuǎn)換系統(tǒng)的基本模型。 語音轉(zhuǎn)換系統(tǒng)的前提和基礎(chǔ)是對語音信號進(jìn)行處理,只有分析出可表示語音信 號本質(zhì)特征的參數(shù),j 有可能利用這些參數(shù)進(jìn)行高效,準(zhǔn)確的識別,轉(zhuǎn)換,合成。 轉(zhuǎn)換的音質(zhì)好壞,語音識別率的高低,也都取決于對語音信號處理的準(zhǔn)確性和精確 性。 2 1 語音信號處理基礎(chǔ) 這一節(jié)巾,我們將從二個方面介紹語音信號處理的基礎(chǔ)理淪,一方面是物理和 聲學(xué)特性,包括發(fā)聲機理,語音特征,數(shù)學(xué)模型等。另一方血是語音信號處理中常 用到的數(shù)學(xué)工具。包括時域分析,倒譜分析,線性預(yù)測等。 2 1 1 語音信號的定義及其發(fā)聲機理 語音信號( s p e e c h ) 是人們講話時發(fā)f * 的聲音,它區(qū)別于聲音信號( s o u n d ) 和 樂音信號( m u s i c ) 的主要特點是語音信號帶- 自語義,是人們町以理解的。所以說 語音信號是聲音和語言的結(jié)合體。 語音信號產(chǎn)生過程如圖2 1 所示,可以具體描述成以下幾個過程:當(dāng)一個人想 要說時,在大腦咀首先會出現(xiàn)想要說的i f d 匯,語句,神經(jīng)系統(tǒng)會產(chǎn)生電信號刺激發(fā) 聲系統(tǒng)。氣流首先從肺罩噴出,通過聲帶的震動,變成有一定變化頻率的氣流,并 加載一定的噪音,再通過l1 腔,異腔等腔體的共振,使其劇圍的空氣發(fā)生震動而變 成我們所聽劍的聲音。岡此可把人體的發(fā)聲器官概括為兩個部分:聲門系統(tǒng)和聲道 系統(tǒng)。盧門主要指喉部,由f 氣流通過喉部時不斷地周期丌合,彳。產(chǎn)生語音信號的 激勵;聲道義分成主聲道,肄聲道和此聲道,町以把聲道理解成一個時變的濾波器, 激勵源信號通過濾波器產(chǎn)生我們聽到的語音。 6 l # 北l u 力人學(xué)碩i :學(xué)位論義 從人體發(fā)聲的機理來看,使用基于聲源濾波器的語音模型來描述語音信號的產(chǎn) 生是非常有效的,在這種模型下,聲音源及激勵波通過時變的濾波器及聲道腔體產(chǎn) 生語音信號。它能解釋大多數(shù)的語音現(xiàn)象。從而使對語音信號的研究分別轉(zhuǎn)換為對 聲源激勵和聲道時變?yōu)V波器兩個部分的研究。 2 1 1 1 語音信號的基本聲學(xué)特征 語音( s p e e c h ) 是語言( w o r d ) 和聲音( a c o u s t i c ) 的結(jié)合體【】。語言代表語 義,聲音是語言的載體。語音信號是人類的發(fā)聲器官周期性振動,而發(fā)出的聲波。 人們說出的語音,是由于肺部氣流推動,聲帶振動,和口腔,鼻腔等腔體共鳴等一 系列復(fù)雜的生理活動,相互作用而形成的。它具有一定的音色,音調(diào),音強和音長。 如圖2 3 所示,語音是由句子組成,當(dāng)說一個句子時,可以明顯被感覺到的語音片 段被稱為音節(jié)( s y l l a b l e ) ,每個音節(jié)又是由一個或多個音素( p h o n e m e ) 組成的。 音素是發(fā)音的最小單位,音素分為元音( v o w e l ) 和輔音( c o n s o n a n t ) 。其中元音是 順暢的氣流通過聲帶振動而發(fā)出的。輔音則是由于氣流受到阻礙而發(fā)出的。輔音又 分為清輔音和濁輔音,其中清輔音發(fā)聲時,聲帶不震動;濁輔音發(fā)音時聲帶振動。 圖2 - 2 語音信號的堆本寶f 1 成 占構(gòu) 7 華北i 【l 力人學(xué)顧1 :學(xué)位論文 從時域上來說,語音信號具有很強的時變特性。這表明語音信號的頻譜特性隨 時間的變化也會很大。圖2 3 顯示了一段已經(jīng)歸一化的語音信號時域波形,其采樣 頻率為1 0 k h z ,1 6 b i t 量化: ” 語音信號波形 圖2 - 3 語音信口“語音文學(xué)”的波形圖 語音信號的另一個重要特征就是它的非平穩(wěn)性,但是不同語音足由人的口腔肌 肉運動構(gòu)成的聲道的某種形狀而產(chǎn)生的響應(yīng),而這種肌肉運動的頻率相對于語音頻 率來說是相對緩慢的,岡而再一個短時間范圍內(nèi),其特性是基本穩(wěn)定的。f 足山于 這個原因,“短時分析技術(shù)”貫穿于語音信號分析的全過程。圖2 4 顯示了上述語音 信號的5 1 2 點快速傅罩葉變換波形圖: 毯 瓤 1 4 , 1 2 - 三 1 0 時間 oo 頻率_ ,h z 圖2 - 4 語音信口“語音文學(xué)”的快速傅里葉變換波形圖 咖 華北i 【l 力人學(xué)碩1 :學(xué)位論義 2 1 1 2 語音信號的個性聲學(xué)特征 語音信號的個性聲學(xué)特征,是我們區(qū)別不同說話人的重要語音特征【l4 1 。語音 轉(zhuǎn)換系統(tǒng)主要對個性聲學(xué)特征進(jìn)行轉(zhuǎn)換。他主要分為以下幾類: 1 ,音段特征音段特征主要描述了語音信號的音色特征。主要包括共振峰的位 置、共振峰的帶寬、基音頻率、能量等。音段特征主要與發(fā)音器官的生理學(xué) 和物理學(xué)特征有關(guān)。其中共振峰( f o r m a n t ) 是元音的重要特征,它表示了聲 音能量比較集中的位置。它表征了語音信號在通過腔體共鳴時,在這些共振 峰頻率附近信號會被增強。所以每個元音都對應(yīng)一組不同的共振峰位置及其 頻帶寬度。基音頻率是元音和濁輔音共有的一個語音特征參數(shù),它表示聲帶 振動的基本頻率。清輔音因為發(fā)音時聲帶不震動,所以不存在基音頻率。 2 ,超音段特征描述的是語音的韻律特征。主要包括音素的時長、基音頻率的 變化規(guī)律等,這些特征受社會的和心理的環(huán)境影響。 3 ,語言特征主要包括習(xí)慣用語、方言、口音等。 2 1 1 3 語音信號的數(shù)學(xué)模型 一個完整的語音信號模型是由三部分組成的:激勵模型,聲道模型,輻射模型。 目前大部分的語音模型都是屬于聲源濾波模型。一個語音信號的傳遞函數(shù)可以表示 成: h ( z ) = au ( z ) v ( z ) r ( z ) 公式( 2 - 1 ) 其中a 表示增益系數(shù),u ( z ) 表示激勵信號,激勵信號的表示在發(fā)清音和濁音 的情況下是不同的,發(fā)清音時,u ( z ) 表示一個隨機白噪聲,發(fā)濁音時,由于聲帶 的不斷張開和關(guān)閉,u ( z ) 可模擬成一系列聲門脈沖。如果假設(shè)脈沖波類似于斜三 角波,那么u ( z ) 可以表示為: u ( z ) = g ( z ) e ( z ) 公式( 2 - 2 ) 其中e ( z ) = r 臺為脈沖的激勵的傳遞函數(shù),g ( z ) = 百南為單個斜三角 波的傳遞函數(shù)。 v ( z ) 表示聲道傳遞函數(shù),般川級聯(lián)方式表示,在l p c 模型中,假設(shè)聲道是 由一系列的管子連接組成的。使玎共振峰模型米描述,每個管子為一個一階極點模 型,則骼個聲道就可以表乃j 成一個傘極,i i : :f 型。它的傳遞函數(shù)為: 扛北z l ! 力人學(xué)顧l :學(xué)位論文 y ( z ) :1 善一 公式( 2 - 3 ) 1 - y nk z k 七= l 其中g(shù) 為振幅因子,a 為極點的常系數(shù)。 r ( z ) 表示輻射模型,輻射模型的建?;诩僭O(shè)口唇張開的面積遠(yuǎn)小于頭部的 表面積,則可以近似成平板丌槽的輻射情況,那么可以推到出輻射阻抗的公式如下: z ( q ) = 麗j d l r r r 公式( 2 - 4 ) 然后使用數(shù)字濾波器設(shè)計的雙線性變換方法將上式轉(zhuǎn)換成z 變換形式: 肥m 。葛 公批剮 由公式( 2 1 ) 可知,語音信號數(shù)學(xué)模型可以表示為激勵模型,聲道模型,輻射模 型的級聯(lián)。它的整體數(shù)學(xué)模型如圖2 5 所示。 需要說明的是,上文中描述的語音模型只足一個簡單的聲源濾波語音模型,真 幣語音產(chǎn)生的機理要復(fù)雜的多。首先來說氣流通過聲門是不肯能是勻速模型,并且 只用開合的頻率來描述聲門信息是遠(yuǎn)遠(yuǎn)不夠的,聲道包括口腔,鼻腔等多個腔體, 且去形狀斧異,發(fā)音時不斷變換,只用一系列極點模型表示濕然足不足的5 1 。 圖2 - 5 語音信號產(chǎn)生的數(shù)學(xué)模刑 l o 華北l i i 力人學(xué)顧l :學(xué)位論義 2 1 2 語音信號分析的常用方法 2 1 2 1 語音信號時域分析 語音信號的時域分析方法包括短時能量分析、短時過零率分析,短時相關(guān)性分 析等等。語音信號的時域的特點是:信號比較直觀,計算量小。以下介紹幾種常用 的時域分析方法。 l ,語音信號的短時能量是指一個語音幀的能量大小,短時能量分析,主要用于區(qū) 分清音濁音,或者區(qū)分明顯的語音邊界。在一個語音幀內(nèi),它的短時能量可表示 為: v - i e = ( 朋) 公式( 2 6 ) m = o 2 ,語音信號的短時過零率,表示一個語音幀內(nèi),信號符號變換的次數(shù)。也常用于 區(qū)分清音濁音,以及有聲階段和寂靜階段,因為清音有著較高的頻率,和濁音的 頻率較低。所以清音的過零率高,濁音的過零率低。 3 ,短時相關(guān)性分析,個語音信號的短時自相關(guān)函數(shù)可以表示為: ,一l - k x 。( 朋) x 。( 研+ 七) 公式( 2 7 ) 刖= 0 它可以用于檢測語音信號的基音周期。自相關(guān)函數(shù)有著非常好的抗噪性。 2 1 2 2 語音信號的倒譜域分析 倒譜分析是語音信號中最常用的分析方法,倒譜實際上是一個信號功率譜對數(shù) 形式的逆傅罩葉變換。計算過程如圖2 - 6 所示。 倒譜所表示的是一個信號,在不同頻帶上變化速率的信息,最早應(yīng)用于地震回 聲和對爆炸聲的分析。通常應(yīng)用上,使用倒譜的自相關(guān)系數(shù),因為它比倒譜更能顯 示信號的特征【1 6 】。 倒譜的一個更典型的應(yīng)用時用在同念信號的分析上,對于語音信號的聲源濾波 器模型l 1 ,為了分別提取聲源和濾波器的特性,利j f j 倒譜解卷積,把聲源特性和濾 波器特。肚映射到線性替加的倒譜域中。 幣是吲為倒譜的以上特性,所以它還可以川米檢查語音信號的堪音j 嗣別,如圖 2 7 所示,低頻部分的波峰突擊表示足基音刪期的位置,可以很明5 l ! 地看: j 女聲的 女堆音j 劃期要小j 二男盧的肚爵周期。 華北i b , j j 人學(xué)碩i :學(xué)位論文 圖2 - 6 倒?jié)摰闹懔鞒虉D o0 0 5o0 1 0 0 0 50 0 1 00 0 500 1 o 0 0 50 0 1 圖2 - 7 男女聲 e a 的倒譜基音拎龜 1 2 華北l 【i 力人學(xué)碩i :學(xué)位論義 m e l 倒譜系數(shù)編碼( m f c c ) 是一種常用的語音信號編碼形式,他是把信號的功 率倒譜映射到m e l 域,因為m e l 域低頻細(xì)分,高頻粗略的特點,充分考慮了人的聽 覺特性,且語音信號的特征主要集中在低頻部分。所以常用于語音識別,語音編碼 及其特征提取等等。圖2 8 顯示一個語音片段的1 2 維m f c c 的波形。頻域到m e l 域的轉(zhuǎn)換公式如下: m e l ( f ) = 2 5 9 5 1 9 ( 1 + f 7 0 0 ) 公式( 2 - 8 ) 要得到m f c c 參數(shù)首先要在語音幀的m e l 頻域上劃分出一系列的三角形濾波器 序列,再對每個濾波器再與其頻帶內(nèi)的信號幅度加權(quán)和作對數(shù)運算,最后一步通過 離散余弦變換( d c t ) ,得到m f c c 。計算公式如下: c 啦c z ,= 吾喜。g 朋c 加。s 一吉,等, 公式c 2 叫 其中m ( 1 ) 是信號幅度和濾波器的加權(quán)和: 肌( ,) = w , ( k ) l x 療( 七) i 公式( 2 1 0 ) 其中s ( 1 ) 、e ( 1 ) 分別表示三角形濾波器的起點和終點。 1 2 維m f c c n , j t 或波形圖 1 0 5 鑒 o 5 1 0 1 5 維度 0 0 時間,l 圖2 8 語音“語言文學(xué)”的1 2 維m f c c 波形圖 3 ??副眎 u 力人學(xué)壩i j 學(xué)位論義 2 1 2 3 語音信號的線性預(yù)測 語音信號的線性預(yù)測編碼是對語音信號產(chǎn)生系統(tǒng)的一種近似模擬。在聲源濾波 器模型中,聲門產(chǎn)生的激勵信號可以用響度和頻率表示,聲道則使用它的共鳴特性 來表示,比如對于共振峰頻帶上信號的增強,還有一些齒擦音和破擦音是由舌頭, 嘴唇等的活動引起的。 l p c 語音信號分析的整個過程如圖2 - 9 所示,實際上就是通過對原始信號共振峰 的位置( 濾波器參數(shù)) 的估計,并把共振峰對信號的影響,從信號中除去,并估計 剩余信號的強度和頻率,這個過程被稱作逆濾波,剩余的信號減去濾波器模型的信 號,被稱作殘差。利用這些殘籌就可以建立一個激勵模型,利用估計的共振峰參數(shù) 可以建立一個濾波器模型,這就形成了對語音信號的估計。 2 2 漢語語音的特點 2 2 1 漢語語音的基本特征 圖片2 - 9 語音信號線性預(yù)測過科 漢語語音的標(biāo)準(zhǔn)發(fā)音是北京語音,又稱普通話。本文所提到的漢語語音轉(zhuǎn)換系統(tǒng)主 要指普通話語音之問的轉(zhuǎn)換。漢語是世界卜最大的語種,使用人口達(dá)到幾十億。漢 語的音節(jié)結(jié)構(gòu)有很強的規(guī)律性,主要特點有以下幾點: l ,漢語以漢字為單位,一個句子山多個字組成,每個字又對j 畦一個音節(jié)。中國傳 統(tǒng)i 二把一個音節(jié)分為聲母、韻母和聲調(diào)3 部分。音節(jié)勺音節(jié)之川的邊界清晰明 確。漢語的占系相對簡單,大約有6 0 個音素,4 0 0 多個音節(jié)5 種音調(diào)。 2 ,每個音節(jié)都以元音為主,漢語講究字i f 腔圓。一個字的發(fā)音中必然會有一個元 音。且一個音節(jié)內(nèi)部最多可以連續(xù)出現(xiàn)3 個元音。以元音為中心,會有輔音和鼻 音與之組合。 3 ,漢語是有調(diào)語音,每種語調(diào)對應(yīng)一種基音周期變化規(guī)律。分為“陰、陽、上、 去、清”五種聲調(diào)。 1 4 f 蘆北i 【l 力人學(xué)傾i :學(xué)位論義 4 ,漢語有著鮮明的輕重感和兒化音。使得語氣活潑,語義明確,感情流露。 2 2 2 漢語語音的拼音分類 漢語以字為單位,每個字是一個音節(jié),一個音節(jié)一般上有2 到3 個音素組成,一 個音素可能是元音或是輔音。漢語是用拼音來標(biāo)注發(fā)音的。按照輔音和元音,分成 聲母和韻母。其中聲母根據(jù)發(fā)音方式的不同又可以分為6 大類:摩擦音,塞音,塞 擦音,邊音,鼻音,零聲母??傆? 2 個。韻母可以分為3 個大類:單元音,復(fù)合 元音,復(fù)合鼻元音??傆? 8 個。聲母和韻母的表示分別如下表所示: 表2 1 漢語聲母韻母表 盧母摩擦音塞音塞擦音邊音鼻音零盧母 【f 】、【h 】、【b 】、【d 】、【z h 】、 z 】、 1 】【n 】、m 】【i 】、【u 】、【y 】 【s 】、【s h 】、【g 】、【p 】、d 】、【c h 】、 【x 】、【h 】【t 】、【b 】【c 】、【q 】 韻母單元音復(fù)合元音復(fù)合鼻元音 a 】、【o 】、 e 】、【i 】、【a i 】、【e i 】、【a o 】、【o u 】、【a n 】、【e n 】、【a n g 】、【e n g 】、 【u 】、f u 】 【i a 】、【i e 】、【i a o 】、【o n g 】、【i a n 】、【i n 】、【i a n g 】、 【i o u 】、【u a 】、【u o 】、【i n g 】、【i o n g 】、【u a n 】、【u e n 】、 【u a i 】、【u e i 】、【t i c 】【u a n g 】、【u e n g 】、【u a n 】、【u n 】 2 2 3 漢語的音節(jié)結(jié)構(gòu) 根于漢字發(fā)音方式的不同,漢字的音節(jié)結(jié)構(gòu)種類大致可以分為以下4 種: l ,元音形式( v ) 漢語中一個元音就可以組成一個音節(jié),例如:啊,鵝。 2 ,輔音+ 元音形式( c v ) 漢語中最常用也是最多的音節(jié)形式,例如:他,你。 3 ,元音+ 鼻音形式( v g ) 例如:昂。 4 ,輔音+ 元音+ 鼻音形式( c v g ) 例如:夢,零。 我們把漢語的音節(jié)結(jié)構(gòu)歸類的目的在于,根據(jù)不同的音節(jié)結(jié)構(gòu),采取的不同的參 數(shù)提取策略。例如,清音不存在基音周期,則在對音節(jié)提取坫音周期軌跡時,就可 以忽略掉清音部分。 表2 2 漢字拼音結(jié)構(gòu) 模式子模式意義舉例 v 元音 a 】、【e 】 c vclv 消_ | | i 占+ 兀爵 【s h i 】、 c h a 】 c 2 v 濁j = f | i 音+ 元音 p a 】、 b o 】 。蘆北i u 力人學(xué)碩f j 學(xué)位論義 c v g i c 1 v g l 清輔音+ 元音+ 鼻音i s h a n g 、 c h e n g c 2 v g i 濁輔音+ 元音+ 鼻音i p e n g 】、 m e n g 】 2 2 4 漢語語音的音調(diào) 漢語是一種有調(diào)語音,相同的聲母和韻母,組合不同的聲調(diào),可以表示不同的音 節(jié)。聲調(diào)的變化實際上就是濁音中基音周期的變化,各個韻母段中,基音周期隨時 問變化的曲線,稱為聲調(diào)曲線。不同的聲調(diào)對應(yīng)不用的聲調(diào)曲線,單獨說一個音節(jié) 時的聲調(diào)曲線,如圖2 10 所示: 圖2 1 0 漢語中4 種語凋的藎音頻率軌跡( 男盧) 2 3 語音轉(zhuǎn)換系統(tǒng)的建模 本文中語音轉(zhuǎn)換系統(tǒng)的模型建t 是基于特定對象的。至于非特定對象的語音轉(zhuǎn) 換系統(tǒng)的建模只是再訓(xùn)練階段l :較之簡單。我們將從以卜兩個方面來介紹語音轉(zhuǎn)換 系統(tǒng)的模型建立。 2 3 1 語音轉(zhuǎn)換系統(tǒng)的基本模型 特定對象的語音轉(zhuǎn)換系統(tǒng)如圖2 1 l 所示,一般分為兩個階段,訓(xùn)練階段和轉(zhuǎn)換 階段。在訓(xùn)練階段,主要是分別提取源說話人和目標(biāo)晚話人的語音特征參數(shù),建立 并訓(xùn)練g m m 模型,在兩組參數(shù)中建立一套匹配規(guī)則。在轉(zhuǎn)換階段,則提取源說話 1 6 f 蘆北i u 力人學(xué)f 吹i j 學(xué)位論義 人語音的特征參數(shù),根據(jù)匹配艦則,轉(zhuǎn)換語音參數(shù),最后合成出目標(biāo)說話人的語音。 i l l i 練階毋 語音信號建立并訓(xùn) 匹 源說話人的語音 b - 特征參數(shù) 練g m m 配 提取 模7阿規(guī) 目標(biāo)說話人的語音卜_ 一 則 l i l 轉(zhuǎn)換階段 語音信號 特征合成為轉(zhuǎn) 源說話人的語音l 特征參數(shù) 參數(shù)換后的語 。 提取 轉(zhuǎn)換音 圖2 - 11 特定對象的語音轉(zhuǎn)換系統(tǒng)模型 2 3 2 語音轉(zhuǎn)換系統(tǒng)工作流程 語音轉(zhuǎn)換系統(tǒng)的基本工作流程如下: l ,模型參數(shù)提取階段:使用聲源濾波( s o u r c e f i l t e r ) 模型。將語音信號分解成 聲源激勵和聲道濾波兩個部分。再通過解卷積的方法,對他們進(jìn)行分別的處理。常 用的語音信號模型有倒譜包絡(luò)模型和線性預(yù)測( l p c ) 模型。l p c 模型是應(yīng)用較多 的語音參數(shù)模型,它也可以有效地把語音信號分解成激勵部分和譜包絡(luò)部分。譜包 絡(luò)部分由l p c 系數(shù)表示,激勵部分由l p c 參差表示。對于譜包絡(luò)部分,由l p c 系 數(shù)得到的推演參數(shù)l s f 可以與頻譜包絡(luò)的共振峰很好的對應(yīng)。對于激勵部分,可以 對l p c 參差進(jìn)行韻律的轉(zhuǎn)換,以達(dá)到提高轉(zhuǎn)換質(zhì)量的f 1 的。 2 ,訓(xùn)練階段:先對提取出來的源說話人和 l 標(biāo)色話人的語音特征參數(shù)在棚同字 詞上進(jìn)行對齊,常川的方法有,動念時f u j 規(guī)整( d t w ) ,乒f 對高斯混合模型進(jìn)行訓(xùn) 練,建立一套參數(shù)對心轉(zhuǎn)換的艦則【l7 1 。并計算相對應(yīng)的轉(zhuǎn)換函數(shù)。 3 轉(zhuǎn)換階段:動態(tài)提取源說話人的i = 爵特征參數(shù),根據(jù)第二部得至0 的轉(zhuǎn)換函數(shù), 把棚火特征向艟帶入劍轉(zhuǎn)換函數(shù)t j ,得到新的l 磐廳的特征參數(shù)的概率模型。 4 ,合成階段:通過洲練階段f 到的轉(zhuǎn)換胤測,轉(zhuǎn)換得劍一系列 占特白f 參數(shù), f l f 根撕這_ 匕參數(shù)合成最終的i 舀卉信號。 i7 f 糾匕l(fā) u 力人學(xué)碩i :學(xué)位論義 2 4 本章小結(jié) 本章中,我們介紹了在語音轉(zhuǎn)換系統(tǒng)中經(jīng)常用到的語音信號幾種基本處理方式, 常用的語音信號處理方式包括時域處理,倒譜處理,線性預(yù)測等。并且對漢語語音 的發(fā)音特點和音節(jié)的結(jié)構(gòu)組成,也做了相關(guān)的介紹。最后對語音轉(zhuǎn)換系統(tǒng)的建模做 了簡要的介紹。下一章中,我們將漢語語音的特有語音特征用于我們的語音轉(zhuǎn)換系 統(tǒng)中,并詳細(xì)介紹語音轉(zhuǎn)換系統(tǒng)的各部分所用的算法和實現(xiàn)原理。 f # 北i u j 人學(xué)順l :學(xué)位論文 第3 章語音轉(zhuǎn)換系統(tǒng)的實現(xiàn)原理 3 1 語音信號預(yù)處理 對語音信號進(jìn)行預(yù)處理的目的在于,一方面語音信號是非平穩(wěn)的信號,任何對語音 信號的處理都建立在短時的基礎(chǔ)上。所以首先要選擇適當(dāng)?shù)拇昂瘮?shù)對語音信號進(jìn)行分幀 處理。另一方面,由于采集語音信號的過程中必然會加入噪聲,所以對語音信號進(jìn)行預(yù) 處理,也包括語音信號預(yù)增強、濾波、去噪等技術(shù)。本文中討論的語音信號預(yù)處理技術(shù) 主要指語音信號的分幀算法。 3 1 1 語音信號動態(tài)分幀算法 對語音信號進(jìn)行動態(tài)分幀包括兩方面含義,如圖3 1 所示,一方面是基于漢語語音 的特征,按照字( 音節(jié)) ,音素的二分策略進(jìn)行分幀。這樣做的目的,是為了更好的讓 音素進(jìn)行對齊,提高訓(xùn)練g m m 時的正確度。另一方面是指在基音頻率提取是使用一種 動態(tài)策略來選取幀長,以提高基音檢出的概率,同時也提高了語音信號韻律轉(zhuǎn)換的精度。 l 冬l3 1 睜阿信號動態(tài)分幀含義及過f 。t ! 1 9 。產(chǎn)北i 乜力人學(xué)頒,i :學(xué)位論文 3 1 1 1 動態(tài)分幀算法總述 語音信號分幀是語音信號預(yù)處理的基礎(chǔ)步驟。在分析語音信號時,先要對語音進(jìn)行 加窗分幀處理,一般取幀長為1 0 m s - - 一3 0 m s 之間。傳統(tǒng)的分幀算法都采取固定幀長。固 定幀長的優(yōu)點在于便于計算和存儲,但是其缺點也顯而易見,在語音信號的加窗操作中, 窗函數(shù)長度的選取及幀長的選取足其中至關(guān)重要的問題,若幀長n 取的太大,波形的高 頻部分被阻止,短時能量隨時間變化慢,不能真實的反映語音信號的幅度變化;若n 取 得太小,則信號變化太快,不能得到平滑得能量函數(shù)【l 引。窗長得選擇更重要得是要考 慮語音信號的基音周期,只有合適的幀長,力能提取出正確可靠的基音周期,而基音
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年廠內(nèi)機動車輛檢測員專項考試題及答案
- 2026煤礦標(biāo)準(zhǔn)化測風(fēng)工安全生產(chǎn)責(zé)任制考核細(xì)則
- 2026新疆伊犁州奎屯市招聘公益性崗位2人備考題庫帶答案詳解(模擬題)
- 2026四川自貢市第一人民醫(yī)院招聘兒科工人1人備考題庫含答案詳解(突破訓(xùn)練)
- 2026四川成都中醫(yī)藥大學(xué)第三附屬醫(yī)院招聘57人備考題庫附參考答案詳解(達(dá)標(biāo)題)
- 2026國檢測試控股集團(tuán)內(nèi)蒙古京誠檢測有限公司招聘備考題庫含答案詳解(培優(yōu)b卷)
- 2026中國鋁業(yè)集團(tuán)有限公司總部部門部分處室副處長、副經(jīng)理崗位競爭上崗5人備考題庫附答案詳解(綜合題)
- 2026廣東深圳北理莫斯科大學(xué)管理系招聘備考題庫附參考答案詳解(綜合題)
- 2026廣東云浮見習(xí)崗位人員招聘2人備考題庫及1套參考答案詳解
- 2025年江西冶金職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試模擬測試卷帶答案解析
- 門安裝合同協(xié)議書范本
- 煤炭蘭炭銷售合同范本
- 雨課堂在線學(xué)堂《創(chuàng)業(yè)管理四季歌:藝術(shù)思維與技術(shù)行動》單元考核測試答案
- 國家民用航空安全保衛(wèi)質(zhì)量控制方案
- 中藥材儲存與養(yǎng)護(hù)規(guī)范
- 2025年藥品經(jīng)營和使用質(zhì)量監(jiān)督管理辦法考核試題【含答案】
- 礦山智能化開采2025年無人作業(yè)技術(shù)智能化礦山設(shè)備智能化技術(shù)路線圖報告
- 【火力發(fā)電廠短路電流計算過程案例1300字】
- T/CATEA 007-2023甘蔗脫毒健康種苗田間繁育技術(shù)規(guī)程
- 旅游行業(yè)股權(quán)合作方案設(shè)計范文
- 抖音公會考試試題及答案
評論
0/150
提交評論