版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1,第六章 語(yǔ)音合成 6.1 概述 6.2 語(yǔ)音合成方法 6.3 TTS合成技術(shù),2,第六章 語(yǔ)音合成 6.1 概述 一、語(yǔ)音合成定義,解決如何讓機(jī)器象人說(shuō)話的問(wèn)題。 其目的:能將任意文本實(shí)時(shí)地轉(zhuǎn)換為自然語(yǔ)音輸出,且輸出的語(yǔ)音清晰可懂。,3,二、語(yǔ)音合成技術(shù)的應(yīng)用,語(yǔ)音是信息傳播的一大媒介。近年來(lái),提供語(yǔ)音服務(wù)的語(yǔ)音系統(tǒng)迅速發(fā)展起來(lái)。傳統(tǒng)的語(yǔ)音系統(tǒng)一般采用預(yù)錄音回放技術(shù),由于這種方法必須對(duì)信息文本事先進(jìn)行錄音,并存為聲音文件,因此,所占用的存儲(chǔ)空間很大。另外,一個(gè)更大的缺點(diǎn)是不能實(shí)時(shí)反映信息的更新,應(yīng)用范圍有很大的局限性。,6.1 概述,4,錄音 wav,回放,傳統(tǒng)的語(yǔ)音系統(tǒng),語(yǔ)音 壓縮編碼,
2、輸入語(yǔ)音,恢復(fù)語(yǔ)音,6.1 概述,5,現(xiàn)在的語(yǔ)音合成技術(shù),無(wú)需對(duì)大量的信息進(jìn)行錄音,極大地減少了工作量和節(jié)省了存儲(chǔ)空間,尤其是在信息內(nèi)容需要經(jīng)常變動(dòng)的動(dòng)態(tài)查詢場(chǎng)合,如股市行情查詢、有聲Email系統(tǒng),都是傳統(tǒng)的預(yù)錄音技術(shù)無(wú)法代勞的。結(jié)合其他技術(shù),語(yǔ)音合成技術(shù)可以廣泛應(yīng)用于金融、郵電、工商、 政府機(jī)關(guān)、交通、教育、游戲等領(lǐng)域。,6.1 概述,6,采用數(shù)字存儲(chǔ)技術(shù)存儲(chǔ)基本的語(yǔ)音信息。 在合成時(shí)采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語(yǔ)音單元拼接起來(lái),生成高自然度的語(yǔ)句,這就是波形拼接的語(yǔ)音合成方法。為了節(jié)省存儲(chǔ)容量,在存入機(jī)器之前還可以對(duì)語(yǔ)音信號(hào)先進(jìn)行數(shù)據(jù)壓縮。,三.語(yǔ)音合成技術(shù)方法,以語(yǔ)句、短語(yǔ)、詞或音節(jié)
3、為合成單元,這些單元分別被錄音后直接進(jìn)行數(shù)字編碼,經(jīng)過(guò)適當(dāng)?shù)臄?shù)據(jù)壓縮,組成一個(gè)合成語(yǔ)音庫(kù)。,1. 語(yǔ)音信號(hào)的波形合成(錄音合成技術(shù)),7,語(yǔ)音庫(kù) (語(yǔ)音單元) 語(yǔ)音的波形 編碼,輸入語(yǔ)音,挑選 組合,回放,合成語(yǔ)音,1.波形合成方法,三.語(yǔ)音合成技術(shù)方法,合成單元越大, 合成的自然度越好,系統(tǒng)結(jié)構(gòu)簡(jiǎn)單,價(jià)格低廉,合成語(yǔ)音的數(shù)碼率較大,存儲(chǔ)量也大,因而合成的詞匯有限。在自動(dòng)報(bào)時(shí)、報(bào)號(hào)、報(bào)站或報(bào)警等裝置中,多采用這種技術(shù).,8,2. 語(yǔ)音信號(hào)的參數(shù)合成,根據(jù)語(yǔ)音產(chǎn)生的數(shù)學(xué)模型,利用短時(shí)平穩(wěn)性,提出每幀語(yǔ)音信號(hào)的參數(shù),這些參數(shù)經(jīng)編碼后組成一個(gè)語(yǔ)音參數(shù)庫(kù)。 輸出時(shí),從語(yǔ)音參數(shù)庫(kù)中取出相應(yīng)的參數(shù),利用語(yǔ)
4、音產(chǎn)生的數(shù)學(xué)模型恢復(fù)語(yǔ)音。共振峰合成和線性預(yù)測(cè)合成是該類合成技術(shù)中的重要方法。,三.語(yǔ)音合成技術(shù)方法,9,按照語(yǔ)音理論,對(duì)所有合成單元的語(yǔ)音進(jìn)行分析,一幀一幀提取有關(guān)語(yǔ)音參數(shù),這些參數(shù)經(jīng)編碼后組成一個(gè)合成語(yǔ)音庫(kù)。 輸出時(shí),根據(jù)待合成的語(yǔ)音的信息,從語(yǔ)音庫(kù)中提取出相應(yīng)的合成參數(shù), 經(jīng)編輯和連接順序送入語(yǔ)音合成器中,在合成器中合成參數(shù)的控制下,一幀一幀的重新還原語(yǔ)音波形。,三.語(yǔ)音合成技術(shù)方法,2. 語(yǔ)音信號(hào)的參數(shù)合成,10,三.語(yǔ)音合成技術(shù)方法,2. 語(yǔ)音信號(hào)的參數(shù)合成 主要的合成參數(shù)有:控制音強(qiáng)的幅度、控制 音高的基頻和控制音色的共振峰參數(shù)。 這種方式的速碼率比波形編輯方式小的多, 但是系統(tǒng)結(jié)
5、構(gòu)也復(fù)雜些,合成音質(zhì)也差些。目前 已有專用的芯片.,11,3.語(yǔ)音的規(guī)則合成,這種合成方法以通過(guò)語(yǔ)音學(xué)規(guī)則來(lái)產(chǎn)生任何語(yǔ)音為目的,規(guī)則合成系統(tǒng)存儲(chǔ)的是較小的語(yǔ)音單位的聲學(xué)參數(shù)以及由音素組成音節(jié),再由音節(jié)組成詞或句子的各種規(guī)則。當(dāng)輸入字母符號(hào)時(shí),合成系統(tǒng)利用規(guī)則自動(dòng)將它們轉(zhuǎn)換為連續(xù)的語(yǔ)音聲波。 由于語(yǔ)音中存在協(xié)同發(fā)聲效應(yīng),單獨(dú)存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同,所以合成規(guī)則是在分析每一語(yǔ)音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音后,歸納其規(guī)律而制定的。如共振峰的頻率規(guī)則、時(shí)長(zhǎng)規(guī)則、聲調(diào)和語(yǔ)調(diào)規(guī)則等。,三.語(yǔ)音合成技術(shù)方法,12,3. 語(yǔ)音信號(hào)的規(guī)則合成,系統(tǒng)中存儲(chǔ)的是音素的聲學(xué)參數(shù),以及由音素組成
6、音節(jié)、由音節(jié)組成詞、由詞組成句子的規(guī)則;控制音調(diào)、輕重音等韻律的各種規(guī)則。 規(guī)則合成方法的語(yǔ)音庫(kù)的存儲(chǔ)量更小,這是以犧牲音質(zhì)為代價(jià)的,這種方式涉及到許多語(yǔ)音學(xué)和語(yǔ)音學(xué)模型,系統(tǒng)結(jié)構(gòu)復(fù)雜。目前合成規(guī)則還不完善。(p76,P177表12.1),三.語(yǔ)音合成技術(shù)方法,13,Av,沖激序列 發(fā)生器,聲門(mén)脈沖 模型G(z),隨機(jī)噪聲 發(fā)生器,基音周期TP,AN,線性系統(tǒng) 聲道V(z),輻射 模型 R(z),清/濁音開(kāi)關(guān),語(yǔ)音的生成模型,一、共振峰合成法,6.2 語(yǔ)音合成方法,14,利用語(yǔ)音信號(hào)的生成模型,將聲道視為一個(gè)諧振腔,利用腔體的諧振特性,共振峰頻率及其帶寬,為此構(gòu)造一個(gè)共振峰濾波器。對(duì)激勵(lì)信號(hào)進(jìn)
7、行處理,可到合成語(yǔ)音。,Av,沖激序列 發(fā)生器,聲門(mén)脈沖 模型G(z),隨機(jī)噪聲 發(fā)生器,基音周期TP,AN,共振峰濾波器,清/濁音開(kāi)關(guān),一、共振峰合成法,15,一、共振峰合成方法,鼻腔 共振峰 濾波器,濁音激勵(lì),清音激勵(lì),第一 共振峰 濾波器,第二 共振峰 濾波器,第三 共振峰 濾波器,摩擦音 共振峰 濾波器,FV,AH,AF,AN,AV,LF1,LF2,LF3,FF,16,可控制的參數(shù)共有10個(gè): (1)4個(gè)幅值控制AV、AN、 AH、 AF (2)5個(gè)頻率控制FV(濁音基頻)、LF1、LF2、LF3、FF (3)1個(gè)清/濁音開(kāi)關(guān),一、共振峰合成方法,6.2 語(yǔ)音合成方法,17,二. 線性
8、預(yù)測(cè)合成法(LPC編碼),將語(yǔ)音生成模型簡(jiǎn)化,將輻射、聲道和聲門(mén)激勵(lì)進(jìn)行組合,用一個(gè)時(shí)變數(shù)字濾波器來(lái)表示。,沖激 序列 發(fā)生器,隨機(jī) 噪聲 發(fā)生器,x(n),u(n),18,線性 預(yù)測(cè) 分析 基音頻率 清/濁音判別,參數(shù) 合成,k2,kp,基音頻率,輸入語(yǔ)音x(n),清/濁音標(biāo)志,G,k1,格型濾波器語(yǔ)音合成技術(shù)框圖,合成 語(yǔ)音,二. 線性預(yù)測(cè)合成法(LPC編碼),19,6.3 TTS合成技術(shù),文語(yǔ)轉(zhuǎn)換系統(tǒng)(Text-to-Speech ),文-語(yǔ)轉(zhuǎn)換是語(yǔ)音合成技術(shù)的延伸,它能把計(jì)算機(jī)內(nèi)的文體轉(zhuǎn)換成連續(xù)自然的語(yǔ)音流。 若采用這種方法輸出語(yǔ)音,應(yīng)預(yù)先建立語(yǔ)音參數(shù)數(shù)據(jù)庫(kù)、發(fā)音規(guī)則庫(kù)等。 需要輸出語(yǔ)
9、音時(shí),系統(tǒng)按需求先合成語(yǔ)音單元,再按語(yǔ)音學(xué)規(guī)則或語(yǔ)言學(xué)規(guī)則,連接成自然的語(yǔ)流。文-語(yǔ)轉(zhuǎn)換的參數(shù)庫(kù)不隨發(fā)音時(shí)間增長(zhǎng)而加大;但規(guī)則庫(kù)卻隨語(yǔ)音質(zhì)量的要求而增大。,20,文本,文本分析,韻律控制,合成模塊,語(yǔ)音數(shù)據(jù)庫(kù),輸出,一、TTS系統(tǒng)的構(gòu)成,對(duì)輸入文本進(jìn)行分析切割出字詞以后,通過(guò)語(yǔ)音合成方法把這些字詞的發(fā)音合成出來(lái),并串接起來(lái),通過(guò)韻律調(diào)整,就可以得到較為自然的語(yǔ)句的發(fā)音。,6.3 TTS合成技術(shù),21,二.文本分析,主要功能是使計(jì)算機(jī)能夠識(shí)別文字,并根據(jù)文本的上、下文關(guān)系在一定程度上對(duì)文本進(jìn)行理解,將發(fā)音的方式告訴計(jì)算機(jī);另外,還要讓計(jì)算機(jī)知道文本中哪些是短語(yǔ)、句子,發(fā)音時(shí)到哪兒應(yīng)該停頓,停頓多
10、長(zhǎng)等等。,1.文本分析的主要功能:,6.3 TTS合成技術(shù),22,2.文本分析工作的三個(gè)主要步驟:,(1)將輸入的文本規(guī)范化,處理用戶可能的拼寫(xiě)錯(cuò)誤,并將文本中出現(xiàn)的一些不規(guī)范或無(wú)法發(fā)音的字符濾掉; (2)分析文本中的詞或短語(yǔ)的邊界,確定文字的讀音。 (3)根據(jù)文本的結(jié)構(gòu)、組成和不同位置出現(xiàn)的標(biāo)點(diǎn)符號(hào),來(lái)確定發(fā)音時(shí)語(yǔ)氣的變換以及不同音的輕重方式。,二.文本分析,23,3.文本分析系統(tǒng)的基本框圖,自動(dòng)分詞,多音字處理,聲調(diào)判斷,特殊聲調(diào)調(diào)整,特殊符號(hào),停頓處理,系統(tǒng)詞庫(kù),多音字詞庫(kù),變調(diào)規(guī)則庫(kù),特殊聲調(diào) 規(guī)則,24,自動(dòng)分詞,對(duì)句子以系統(tǒng)詞庫(kù)為模板用最大匹配的方法進(jìn)行分詞,從系統(tǒng)詞庫(kù)中提取相應(yīng)的
11、讀音、聲調(diào)和時(shí)長(zhǎng)信息作為控制參數(shù)。,多音字處理,對(duì)自動(dòng)分詞處理后的句子中余下的字,首先查找多音字表,若不是多音字,則檢索標(biāo)準(zhǔn)字庫(kù),取得該字的讀音和聲調(diào);若是多音字,則根據(jù)在多音字庫(kù)中得到的信息從特征詞庫(kù)中讀取相應(yīng)的信息,選擇恰當(dāng)?shù)淖x音和聲調(diào)。,25,聲調(diào)調(diào)整,根據(jù)變調(diào)規(guī)則庫(kù)中的規(guī)則,對(duì)每個(gè)字的聲調(diào)做一些調(diào)整,在詞與詞之間加入適當(dāng)?shù)耐nD信息。,4.文本分析的輸出,將輸入的文字轉(zhuǎn)換成計(jì)算機(jī)能夠處理的內(nèi)部參數(shù)(每個(gè)詞的發(fā)音聲母韻母聲調(diào)),便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。 常見(jiàn)的文本分析方法:二元文法、HMM和神經(jīng)網(wǎng)絡(luò)法等。,26,三、語(yǔ)音合成方法,首先合成字的聲母,再合成它的韻母,然后將韻母的聲調(diào)調(diào)整到所需要的聲調(diào)上,然后將聲母和韻母連接起來(lái)得到最終合成的語(yǔ)音。,1. 語(yǔ)音合成部分的主要功能:,27,單獨(dú)發(fā)聲的一個(gè)音節(jié)或是語(yǔ)音流中的任何一個(gè)音節(jié)都可能由7部分組成。,無(wú)聲段,28,2.語(yǔ)音數(shù)據(jù)庫(kù),(2)聲母表:22個(gè)聲母的波形 (3)韻母表:38個(gè)韻母的波形(基音同步幀、過(guò)渡音和鼻音) (4)聲調(diào)曲線:不同聲調(diào)的聲調(diào)曲線 。,(1)漢字拼音庫(kù): 每個(gè)漢字的拼音信息是一個(gè)二進(jìn)制文件,其形式為:聲母韻母聲調(diào)標(biāo)號(hào)。,29,3.語(yǔ)音合成步驟,拼音信息,聲母,韻母,聲調(diào),基音同步幀、 過(guò)渡音和鼻音庫(kù),聲調(diào)曲線庫(kù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030新能源汽車(chē)電機(jī)市場(chǎng)供需現(xiàn)狀產(chǎn)業(yè)鏈整合及投資規(guī)劃分析報(bào)告
- 2025-2030新能源汽車(chē)核心技術(shù)突破方向預(yù)測(cè)與產(chǎn)業(yè)投資評(píng)估規(guī)劃報(bào)告
- 2025-2030新能源地?zé)崮苄袠I(yè)市場(chǎng)當(dāng)前競(jìng)爭(zhēng)及投資評(píng)估發(fā)展分析研究報(bào)告
- 2025-2030新能源冰雪運(yùn)動(dòng)設(shè)施行業(yè)市場(chǎng)發(fā)展趨勢(shì)規(guī)劃分析報(bào)告
- 2025-2030新材料研發(fā)行業(yè)技術(shù)突破前景分析市場(chǎng)萌芽潛力投資策略優(yōu)化規(guī)劃研究方案
- 鋁電解筑爐工道德考核試卷含答案
- 2026年徽商集團(tuán)招聘1名考試備考題庫(kù)及答案解析
- 2026浙江麗水市招聘專業(yè)化人才37人考試參考試題及答案解析
- 2026四川廣安市中醫(yī)醫(yī)院招聘6人考試備考題庫(kù)及答案解析
- 培訓(xùn)考試題庫(kù)建設(shè)與管理方案
- 陜西交控集團(tuán)2026校園招聘考試備考題庫(kù)附答案
- 2026年氣瓶檢驗(yàn)員閉卷考試檢驗(yàn)報(bào)告出具規(guī)范練習(xí)與總結(jié)含答案
- 2026年自由職業(yè)者合同
- 2026中國(guó)支付清算協(xié)會(huì)招聘參考考試試題及答案解析
- 2025年“雄鷹杯”小動(dòng)物醫(yī)師技能大賽備考試題庫(kù)(含答案)
- 2026年藥店制度培訓(xùn)試題及答案
- 2025福建德化閩投抽水蓄能有限公司社會(huì)招聘4人歷年真題匯編附答案解析
- GB/T 31540.1-2015消防安全工程指南第1部分:性能化在設(shè)計(jì)中的應(yīng)用
- 林果業(yè)機(jī)械化水平評(píng)價(jià)指標(biāo)體系
- GA 1333-2017車(chē)輛駕駛?cè)藛T體內(nèi)毒品含量閾值與檢驗(yàn)
- 安全生產(chǎn)標(biāo)準(zhǔn)化管理體系全套文件
評(píng)論
0/150
提交評(píng)論