《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第1頁
《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第2頁
《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第3頁
《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第4頁
《人工智能技術(shù)應(yīng)用基礎(chǔ)》課件-0103 語音合成-語音助手_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

技術(shù)應(yīng)用篇項目一智能客服機(jī)器人任務(wù)3語音合成——語音助手語音合成——語音助手把文字轉(zhuǎn)換成聲音,讓你的應(yīng)用開口說話利用語音合成技術(shù)將文本轉(zhuǎn)換成音頻

文字與音頻的互相轉(zhuǎn)換是自然語言處理中很關(guān)鍵的技術(shù)點。語音就是人說的話,它的記錄形式是一段一段的波形,是最自然便捷的溝通方式,在信息播報、人機(jī)交互上有著大量剛性需求。1.語音語音包括三大關(guān)鍵部分:1語音信息語音信息是指說話的內(nèi)容,語音合成的語音信息就是文本信息的內(nèi)容。2語音音色語音音色是指說話者,俗話說的“未見其人,先聞其聲”就說明了音色的重要性。對于語音合成,音色的選擇與內(nèi)容要匹配,比如用動漫里面的“娃娃音”播報新聞聯(lián)播,明顯就很不適合。1.語音3語音韻律語音韻律就是說話的方式,即說話時聲音的高低、快慢等。為什么說趙宗祥老師的《動物世界》解說無人超越,聲音比趙老師好的人比比皆是,但是沒人比他“說的好”,就是因為他的音律控制的好。聲音的慣性和魅力是無窮的,未來優(yōu)質(zhì)的聲音IP將會作為重要的內(nèi)容生產(chǎn)能力,受到重視和追捧,將語音從信息獲取升級為藝術(shù)享受。2.語音合成技術(shù)原理

語音合成又稱文語轉(zhuǎn)換(TextToSpeech,TTS),是一種通過電子方法產(chǎn)生人造語音的技術(shù),將給定文字轉(zhuǎn)換成對應(yīng)的人類語言聲音。語音合成過程是通過計算機(jī)的數(shù)字信號去模擬生成一個連續(xù)的語音波形信號,類似于人說話,將想要表達(dá)的內(nèi)容用對應(yīng)的音色、韻律進(jìn)行發(fā)聲。按照工作過程,語音合成技術(shù)主要分為以下兩部分:語言分析部分前端部分聲學(xué)系統(tǒng)部分后端部分對輸入的文字信息進(jìn)行分析,生成對應(yīng)的語言學(xué)規(guī)格書,策劃好怎么讀。通過語音分析部分生成語音學(xué)規(guī)格書,完成對應(yīng)的音頻,實現(xiàn)發(fā)聲的功能。2.語音合成技術(shù)原理語言分析部分又包括以下四個部分:1文本結(jié)構(gòu)與語種判斷

當(dāng)需要合成的文本輸入后,先要判斷是什么語種,例如中文、英文、藏語、維語等,再根據(jù)對應(yīng)語種的語法規(guī)則,把整段文字切分為單個句子,并將切好的句子傳到后面的處理模塊。今天天氣晴朗It’ssunnytodayHoyestásoleado輸入中文英語西班牙語……語種判斷2.語音合成技術(shù)原理2文本標(biāo)準(zhǔn)化

在輸入的需要合成的文本中,有阿拉伯?dāng)?shù)字或字母的,需要轉(zhuǎn)化為文字。根據(jù)設(shè)置好的規(guī)則,使合成文本標(biāo)準(zhǔn)化。例如:“請問您是尾號為8967的機(jī)主嗎?”“8967”為阿拉伯?dāng)?shù)字,需要轉(zhuǎn)化為漢字“八九六七”,這樣便于進(jìn)行文字標(biāo)音等后續(xù)的工作。

因為在文本標(biāo)準(zhǔn)化的規(guī)則中,設(shè)定了”尾號為+數(shù)字“的格式規(guī)則,這種情況下數(shù)字按照這種方式播報,這就是文本標(biāo)準(zhǔn)化中設(shè)置的規(guī)則。為什么剛才的“8967“轉(zhuǎn)化成了”八九六七”而不是“八千九百六十七”呢?思考2.語音合成技術(shù)原理

在漢語的語音合成中,基本上是用拼音對文字進(jìn)行標(biāo)注的,所以需要把文字轉(zhuǎn)化為相對應(yīng)的拼音,但是有些字是多音字,如何區(qū)分當(dāng)前是哪個讀音呢?這就需要通過分詞和詞性句法分析來判斷當(dāng)前是哪個讀音,并且是第幾聲的音調(diào)了。3文本轉(zhuǎn)音素“南京市長江大橋”可以為“南京市長江大橋”“nan2jing1shi4zhang3jiang1da4qiao2”“南京市長江大橋”“nan2jing1shi4chang2jiang1da4qiao3”或2.語音合成技術(shù)原理4句讀韻律預(yù)測

人類在語言表達(dá)的時候總是附帶著語氣與感情,TTS合成的音頻是為了模仿真實的人聲,所以需要對文本進(jìn)行韻律預(yù)測,什么地方需要停頓,停頓多久,哪個字或者詞語需要重讀,哪個詞需要輕讀等都要進(jìn)行預(yù)測,以實現(xiàn)聲音的高低曲折,抑揚(yáng)頓挫。輸入文本結(jié)構(gòu)與語種判斷文本標(biāo)準(zhǔn)化文本轉(zhuǎn)音素句讀韻律預(yù)測輸入文字語種判斷切分句子非文字轉(zhuǎn)文字按照設(shè)置的規(guī)則標(biāo)準(zhǔn)化分詞、詞性分析文本標(biāo)音,多音字消歧抑揚(yáng)頓挫、字間停頓、重讀、輕讀、拖音等2.語音合成技術(shù)原理

語音合成技術(shù)中的聲學(xué)系統(tǒng)合成,從最初只能合成元音和單音到現(xiàn)在已經(jīng)與真人發(fā)聲無異的效果,科學(xué)家們經(jīng)過了長期的努力。根據(jù)其技術(shù)實現(xiàn)方式,大致可以分為以下六個階段:機(jī)械模擬階段:18到19世紀(jì),科學(xué)家們通過制作精巧的氣囊和風(fēng)箱等機(jī)械裝置來模擬人的發(fā)聲,這種發(fā)聲系統(tǒng)只能合成一些元音和單音。12電子合成器階段:20世紀(jì)初,科學(xué)家們利用電子合成器來模擬人的發(fā)聲。最具代表性的就是貝爾實驗室推出的名為“VODER”電子發(fā)聲器,通過電子器件來模擬聲音的諧振從而實現(xiàn)模擬人的聲音。2.語音合成技術(shù)原理共振峰合成器階段:20世紀(jì)80年代,隨著集成電路技術(shù)的發(fā)展,出現(xiàn)了比較復(fù)雜的組合型的電子發(fā)生器,科學(xué)家們利用組合型的電子發(fā)生器來合成人的聲音,比較有代表性的事KLATT在1980年發(fā)布的串/并聯(lián)混合共振峰合成器。32.語音合成技術(shù)原理單元挑選拼接合成階段:20世紀(jì)80、90年代,隨著基音同步疊加(PSOLA)算法的提出和計算機(jī)能力的發(fā)展,單元挑選和波形拼接技術(shù)逐漸走向成熟。90年代末劉慶峰博士提出聽感量化思想,首次將中文語音合成技術(shù)做到了實用化地步。單元挑選和波形拼接的關(guān)鍵技術(shù)是語料庫設(shè)計及標(biāo)注、目標(biāo)代價計算和連接代價計算。4文本分析韻律控制語音合成文本分析規(guī)則韻律模型韻律生成算法拼接合成算法拼接合成示意圖2.語音合成技術(shù)原理基于HMM參數(shù)合成階段:20世紀(jì)末期,基于HMM的參數(shù)合成技術(shù)開始應(yīng)用于語音合成領(lǐng)域,通過數(shù)學(xué)方法對已有錄音進(jìn)行頻譜特性參數(shù)建模,構(gòu)建文本序列映射到語音特征的映射關(guān)系,生成參數(shù)合成器。輸入文本后,先要將文本序列映射出對應(yīng)的音頻特征,再通過聲學(xué)模型(聲碼器)將音頻特征轉(zhuǎn)化為人類的聲音。整個工作流程包括訓(xùn)練流程和合成流程兩個部分,關(guān)鍵技術(shù)有高質(zhì)量語音聲碼器,以及基于上下文的決策樹模型。5

將錄制好的音庫,提取出相應(yīng)的語音參數(shù),然后將標(biāo)注數(shù)據(jù)和聲學(xué)提取數(shù)據(jù)一同構(gòu)HMM的訓(xùn)練模型,通過上下文屬性和問題集的決策樹模型,構(gòu)建訓(xùn)練后的HMM模型。

輸入文本的分析,來進(jìn)行上下文相關(guān)HMM訓(xùn)練的序列決策,再將生成后的語音送入?yún)?shù)合成器中,最后輸出合成之后的語音。訓(xùn)練流程合成流程音庫語音參數(shù)提?。ɑl、譜參數(shù))HMM訓(xùn)練輸入文本文本分析上下文相關(guān)HMM序列決策語音參數(shù)生成參數(shù)合成器上下文屬性和問題集語音標(biāo)注決策樹訓(xùn)練后的HMM合成語音訓(xùn)練合成2.語音合成技術(shù)原理2.語音合成技術(shù)原理基于深度學(xué)習(xí)的語音合成:隨著AI技術(shù)不斷發(fā)展,DNN/CNN/RNN等各種神經(jīng)網(wǎng)絡(luò)模型開始用來做語音合成系統(tǒng)的訓(xùn)練。深度學(xué)習(xí)算法可以更好地模擬人聲變化規(guī)律,實現(xiàn)直接輸入文本或者注音字符,中間為黑盒部分,然后輸出合成音頻,對復(fù)雜的語言分析部分得到了極大的簡化。基于深度學(xué)習(xí)的語音合成技術(shù)大大降低了對語言學(xué)知識的要求,且可以實現(xiàn)多種語言的語音合成,不再受語言學(xué)知識的限制。Deepmind提出的波形點建模方法,在整個語音合成技術(shù)發(fā)展史上都是具有里程碑意義的。63.語音合成技術(shù)API服務(wù)科大訊飛科大訊飛的語音合成技術(shù)在全球范圍內(nèi)是數(shù)一數(shù)二的,合成的音頻效果自然度高、涉及場景多。官網(wǎng)掛接的音庫數(shù)量也是最多的,并且有很多外語音庫。語音合成技術(shù)頭部企業(yè)及其優(yōu)勢阿里巴巴在阿里云官網(wǎng),有幾個音庫的合成效果是非常棒的,例如艾夏,合成的音頻播報時感覺帶有氣息感,擬人化程度相當(dāng)高。百度百度的語音合成技術(shù)還是很強(qiáng)的,采用領(lǐng)先國際的流式端到端語音語言一體化建模方法,融合百度自然語言處理技術(shù),近場中文普通話識別準(zhǔn)確率達(dá)98%。靈伴科技靈伴的音庫合成效果也是非常棒。有一個東北大叔的音庫,主要是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論