《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手

上傳人：1*** IP屬地：廣東上傳時間：2025-09-19 格式：PPTX 頁數(shù)：19 大?。?.34MB 積分：15 舉報 版權(quán)申訴

《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第2頁

《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第3頁

《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第4頁

《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第5頁

已閱讀5頁，還剩14頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

技術(shù)應(yīng)用篇項目一智能客服機(jī)器人任務(wù)3語音合成——語音助手語音合成——語音助手把文字轉(zhuǎn)換成聲音，讓你的應(yīng)用開口說話利用語音合成技術(shù)將文本轉(zhuǎn)換成音頻

文字與音頻的互相轉(zhuǎn)換是自然語言處理中很關(guān)鍵的技術(shù)點。語音就是人說的話，它的記錄形式是一段一段的波形，是最自然便捷的溝通方式，在信息播報、人機(jī)交互上有著大量剛性需求。1.語音語音包括三大關(guān)鍵部分：1語音信息語音信息是指說話的內(nèi)容，語音合成的語音信息就是文本信息的內(nèi)容。2語音音色語音音色是指說話者，俗話說的“未見其人，先聞其聲”就說明了音色的重要性。對于語音合成，音色的選擇與內(nèi)容要匹配，比如用動漫里面的“娃娃音”播報新聞聯(lián)播，明顯就很不適合。1.語音3語音韻律語音韻律就是說話的方式，即說話時聲音的高低、快慢等。為什么說趙宗祥老師的《動物世界》解說無人超越，聲音比趙老師好的人比比皆是，但是沒人比他“說的好”，就是因為他的音律控制的好。聲音的慣性和魅力是無窮的，未來優(yōu)質(zhì)的聲音IP將會作為重要的內(nèi)容生產(chǎn)能力，受到重視和追捧，將語音從信息獲取升級為藝術(shù)享受。2.語音合成技術(shù)原理

語音合成又稱文語轉(zhuǎn)換(TextToSpeech,TTS)，是一種通過電子方法產(chǎn)生人造語音的技術(shù)，將給定文字轉(zhuǎn)換成對應(yīng)的人類語言聲音。語音合成過程是通過計算機(jī)的數(shù)字信號去模擬生成一個連續(xù)的語音波形信號，類似于人說話，將想要表達(dá)的內(nèi)容用對應(yīng)的音色、韻律進(jìn)行發(fā)聲。按照工作過程，語音合成技術(shù)主要分為以下兩部分：語言分析部分前端部分聲學(xué)系統(tǒng)部分后端部分對輸入的文字信息進(jìn)行分析，生成對應(yīng)的語言學(xué)規(guī)格書，策劃好怎么讀。通過語音分析部分生成語音學(xué)規(guī)格書，完成對應(yīng)的音頻，實現(xiàn)發(fā)聲的功能。2.語音合成技術(shù)原理語言分析部分又包括以下四個部分：1文本結(jié)構(gòu)與語種判斷

當(dāng)需要合成的文本輸入后，先要判斷是什么語種，例如中文、英文、藏語、維語等，再根據(jù)對應(yīng)語種的語法規(guī)則，把整段文字切分為單個句子，并將切好的句子傳到后面的處理模塊。今天天氣晴朗It’ssunnytodayHoyestásoleado輸入中文英語西班牙語……語種判斷2.語音合成技術(shù)原理2文本標(biāo)準(zhǔn)化

在輸入的需要合成的文本中，有阿拉伯?dāng)?shù)字或字母的，需要轉(zhuǎn)化為文字。根據(jù)設(shè)置好的規(guī)則，使合成文本標(biāo)準(zhǔn)化。例如：“請問您是尾號為8967的機(jī)主嗎？”“8967”為阿拉伯?dāng)?shù)字，需要轉(zhuǎn)化為漢字“八九六七”，這樣便于進(jìn)行文字標(biāo)音等后續(xù)的工作。

因為在文本標(biāo)準(zhǔn)化的規(guī)則中，設(shè)定了”尾號為+數(shù)字“的格式規(guī)則，這種情況下數(shù)字按照這種方式播報，這就是文本標(biāo)準(zhǔn)化中設(shè)置的規(guī)則。為什么剛才的“8967“轉(zhuǎn)化成了”八九六七”而不是“八千九百六十七”呢？思考2.語音合成技術(shù)原理

在漢語的語音合成中，基本上是用拼音對文字進(jìn)行標(biāo)注的，所以需要把文字轉(zhuǎn)化為相對應(yīng)的拼音，但是有些字是多音字，如何區(qū)分當(dāng)前是哪個讀音呢？這就需要通過分詞和詞性句法分析來判斷當(dāng)前是哪個讀音，并且是第幾聲的音調(diào)了。3文本轉(zhuǎn)音素“南京市長江大橋”可以為“南京市長江大橋”“nan2jing1shi4zhang3jiang1da4qiao2”“南京市長江大橋”“nan2jing1shi4chang2jiang1da4qiao3”或2.語音合成技術(shù)原理4句讀韻律預(yù)測

人類在語言表達(dá)的時候總是附帶著語氣與感情，TTS合成的音頻是為了模仿真實的人聲，所以需要對文本進(jìn)行韻律預(yù)測，什么地方需要停頓，停頓多久，哪個字或者詞語需要重讀，哪個詞需要輕讀等都要進(jìn)行預(yù)測，以實現(xiàn)聲音的高低曲折，抑揚(yáng)頓挫。輸入文本結(jié)構(gòu)與語種判斷文本標(biāo)準(zhǔn)化文本轉(zhuǎn)音素句讀韻律預(yù)測輸入文字語種判斷切分句子非文字轉(zhuǎn)文字按照設(shè)置的規(guī)則標(biāo)準(zhǔn)化分詞、詞性分析文本標(biāo)音，多音字消歧抑揚(yáng)頓挫、字間停頓、重讀、輕讀、拖音等2.語音合成技術(shù)原理

語音合成技術(shù)中的聲學(xué)系統(tǒng)合成，從最初只能合成元音和單音到現(xiàn)在已經(jīng)與真人發(fā)聲無異的效果，科學(xué)家們經(jīng)過了長期的努力。根據(jù)其技術(shù)實現(xiàn)方式，大致可以分為以下六個階段：機(jī)械模擬階段：18到19世紀(jì)，科學(xué)家們通過制作精巧的氣囊和風(fēng)箱等機(jī)械裝置來模擬人的發(fā)聲，這種發(fā)聲系統(tǒng)只能合成一些元音和單音。12電子合成器階段：20世紀(jì)初，科學(xué)家們利用電子合成器來模擬人的發(fā)聲。最具代表性的就是貝爾實驗室推出的名為“VODER”電子發(fā)聲器，通過電子器件來模擬聲音的諧振從而實現(xiàn)模擬人的聲音。2.語音合成技術(shù)原理共振峰合成器階段：20世紀(jì)80年代，隨著集成電路技術(shù)的發(fā)展，出現(xiàn)了比較復(fù)雜的組合型的電子發(fā)生器，科學(xué)家們利用組合型的電子發(fā)生器來合成人的聲音，比較有代表性的事KLATT在1980年發(fā)布的串/并聯(lián)混合共振峰合成器。32.語音合成技術(shù)原理單元挑選拼接合成階段：20世紀(jì)80、90年代，隨著基音同步疊加（PSOLA）算法的提出和計算機(jī)能力的發(fā)展，單元挑選和波形拼接技術(shù)逐漸走向成熟。90年代末劉慶峰博士提出聽感量化思想，首次將中文語音合成技術(shù)做到了實用化地步。單元挑選和波形拼接的關(guān)鍵技術(shù)是語料庫設(shè)計及標(biāo)注、目標(biāo)代價計算和連接代價計算。4文本分析韻律控制語音合成文本分析規(guī)則韻律模型韻律生成算法拼接合成算法拼接合成示意圖2.語音合成技術(shù)原理基于HMM參數(shù)合成階段：20世紀(jì)末期，基于HMM的參數(shù)合成技術(shù)開始應(yīng)用于語音合成領(lǐng)域，通過數(shù)學(xué)方法對已有錄音進(jìn)行頻譜特性參數(shù)建模，構(gòu)建文本序列映射到語音特征的映射關(guān)系，生成參數(shù)合成器。輸入文本后，先要將文本序列映射出對應(yīng)的音頻特征，再通過聲學(xué)模型（聲碼器）將音頻特征轉(zhuǎn)化為人類的聲音。整個工作流程包括訓(xùn)練流程和合成流程兩個部分，關(guān)鍵技術(shù)有高質(zhì)量語音聲碼器，以及基于上下文的決策樹模型。5

將錄制好的音庫，提取出相應(yīng)的語音參數(shù)，然后將標(biāo)注數(shù)據(jù)和聲學(xué)提取數(shù)據(jù)一同構(gòu)HMM的訓(xùn)練模型，通過上下文屬性和問題集的決策樹模型，構(gòu)建訓(xùn)練后的HMM模型。

輸入文本的分析，來進(jìn)行上下文相關(guān)HMM訓(xùn)練的序列決策，再將生成后的語音送入?yún)?shù)合成器中，最后輸出合成之后的語音。訓(xùn)練流程合成流程音庫語音參數(shù)提?。ɑl、譜參數(shù)）HMM訓(xùn)練輸入文本文本分析上下文相關(guān)HMM序列決策語音參數(shù)生成參數(shù)合成器上下文屬性和問題集語音標(biāo)注決策樹訓(xùn)練后的HMM合成語音訓(xùn)練合成2.語音合成技術(shù)原理2.語音合成技術(shù)原理基于深度學(xué)習(xí)的語音合成：隨著AI技術(shù)不斷發(fā)展，DNN/CNN/RNN等各種神經(jīng)網(wǎng)絡(luò)模型開始用來做語音合成系統(tǒng)的訓(xùn)練。深度學(xué)習(xí)算法可以更好地模擬人聲變化規(guī)律，實現(xiàn)直接輸入文本或者注音字符，中間為黑盒部分，然后輸出合成音頻，對復(fù)雜的語言分析部分得到了極大的簡化。基于深度學(xué)習(xí)的語音合成技術(shù)大大降低了對語言學(xué)知識的要求，且可以實現(xiàn)多種語言的語音合成，不再受語言學(xué)知識的限制。Deepmind提出的波形點建模方法，在整個語音合成技術(shù)發(fā)展史上都是具有里程碑意義的。63.語音合成技術(shù)API服務(wù)科大訊飛科大訊飛的語音合成技術(shù)在全球范圍內(nèi)是數(shù)一數(shù)二的，合成的音頻效果自然度高、涉及場景多。官網(wǎng)掛接的音庫數(shù)量也是最多的，并且有很多外語音庫。語音合成技術(shù)頭部企業(yè)及其優(yōu)勢阿里巴巴在阿里云官網(wǎng)，有幾個音庫的合成效果是非常棒的，例如艾夏，合成的音頻播報時感覺帶有氣息感，擬人化程度相當(dāng)高。百度百度的語音合成技術(shù)還是很強(qiáng)的，采用領(lǐng)先國際的流式端到端語音語言一體化建模方法，融合百度自然語言處理技術(shù)，近場中文普通話識別準(zhǔn)確率達(dá)98%。靈伴科技靈伴的音庫合成效果也是非常棒。有一個東北大叔的音庫，主要是

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手

文檔簡介

溫馨提示

最新文檔

評論

《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔