版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
語音合成技術及應用開發(fā)2023年2月單元五了解語音合成基礎單元五:任務1語音合成技術,又稱“TTS”(TextToSpeech的縮寫,即“從文本到語音”)。其核心是將文字信號通過文本分析、韻律預測、時長預測等過程,運用聲學參數(shù)轉化為語音信號,目前,語音合成技術已滲透到人們的日常生活,如從文字轉語音的應用有喜馬拉雅聽、微信聽書、各類智能音箱、地圖導航中的明星語音定制等。
語音合成技術還應用于說話人轉換,方言合成(四川話,粵語等)、歌唱語音合成(例如日本的初音未來)等場景。目前,線上閱讀已成為數(shù)字出版領域的熱門版塊,與語音合成技術的融合的有聲閱讀已成為在線閱讀APP的發(fā)展趨勢。目前,國內(nèi)在線閱讀平臺大都開通了基于語音合成技術的語音朗讀功能,通過智能化、專業(yè)化的服務,為用戶提供便捷、新穎且智能的閱讀體驗。項目導入目錄CONTENTS1了解語音合成技術演化2語音合成的常用平臺3語音合成體驗與分析知識目標了解語音合成的原理和方法理解語音合成的技術框架了解語音合成的開放接口使用能力目標能夠描述每個步驟的功能能夠描述每個步驟的具體目標能夠理解流程中涉及到的專業(yè)術語思政目標感悟腳踏實地、勤懇敬業(yè)、精益求精的大國工匠精神學習愛崗敬業(yè)的社會主義核心價值觀PART01了解語音合成的技術演化了解語音合成的技術演化語音合成經(jīng)歷了哪幾個階段?各階段的特點是什么?(1)語音合成技術的發(fā)展史讓機器能夠像人一樣通過語音進行表達,是人機自然交互的基本要求。關于語音合成的研究已有兩百多年的歷史,經(jīng)歷了機械式語音合成器、電子式語音合成器、共振峰參數(shù)合成器、基于波形拼接技術的語音合成、基于統(tǒng)計聲學建模的語音合成等幾個階段,如表所示。了解語音合成的技術演化了解語音合成的技術演化(1)語音合成技術的發(fā)展史前面兩種(機械式和電子式)未達到實用化程度,第三種(共振峰參數(shù)合成器)通過對共振峰的頻率進行適當?shù)目刂?,可以達到高質(zhì)量的音質(zhì),但是由于合成器的結構及參數(shù)調(diào)整較復雜,實際應用中合成語音的質(zhì)量往往并不令人滿意。目前語音合成的主流技術是后面兩種:基于波形拼接技術的語音合成和基于統(tǒng)計聲學建模的語音合成。了解語音合成的技術演化(1)語音合成技術的發(fā)展史基于波形拼接技術的語音合成技術較好的解決了不同單元之間的拼接問題,從而使基于波形拼接技術的語音合成方法進入實用階段。在上個世紀90年代,基于波形拼接技術的語音合成隨著計算機技術的飛速發(fā)展,演變成基于大語料庫的單元拼接合成方法。相對于傳統(tǒng)波形拼接方法的特點,基于大語料庫的單元拼接合成方法采用了大規(guī)模的語料庫以及精細的單元挑選策略,挑選出來的單元基本不需要調(diào)整,而且合成語音的連續(xù)性也得到了進一步的改善。采用該方法得到的合成語音不僅可以保持原始語音的音質(zhì),而且還具有較高的自然度。雖然基于大語料庫的單元拼接合成方法具有較好的合成效果,但是大語料庫的制作成本很高,制作周期也很長。對于新發(fā)音人或者發(fā)音風格,通常需要重新進行音庫制作,因此基于大語料庫的單元拼接合成方法的擴展性較差,難以快速構建個性化的系統(tǒng)。了解語音合成的技術演化(1)語音合成技術的發(fā)展史基于統(tǒng)計聲學建模的語音合成技術,也被稱為可訓練的語音合成,可以實現(xiàn)合成系統(tǒng)的自動訓練與構建。其中,基于HMM的參數(shù)語音合成方法得到了充分的研究與應用,并展示了良好的性能?;贖MM的語音合成系統(tǒng)首先對語音參數(shù)進行建模,然后利用音庫數(shù)據(jù)進行自動訓練,并最終形成一個相應的合成系統(tǒng)。相對于基于大語料庫單元挑選合成方法,該方法的優(yōu)勢在于可以在短時間內(nèi)自動的構建新的合成系統(tǒng),對不同發(fā)音人或者發(fā)音風格的依賴性小。然而,由于該方法采用HMM來生成待合成語音的參數(shù),而且參數(shù)合成器也會對合成語音的音質(zhì)造成一定程度的損失,因此合成語音的音質(zhì)相對于自然語音的下降較明顯。了解語音合成的技術演化目前的TTS還存在的問題?了解語音合成的技術演化(2)語音合成的技術邊界目前語音合成技術落地已經(jīng)比較成熟,但是目前的TTS還存在著一些解決不掉的問題,在擬人化、情緒化、定制化方面還存在不足。了解語音合成的技術演化(2)語音合成的技術邊界擬人化。其實當前的TTS擬人化程度已經(jīng)很高了,但是行業(yè)內(nèi)的人一般都能聽出來是否是合成的音頻,因為合成音的整體韻律還是比真人要差很多,真人的聲音是帶有氣息感和情感的,TTS合成的音頻聲音很逼近真人,但是在整體的韻律方面會顯得很平穩(wěn),不會隨著文本內(nèi)容有大的起伏變化,單個字詞可能還會有機械感。了解語音合成的技術演化(2)語音合成的技術邊界情緒化。真人在說話的時候,可以察覺到當前情緒狀態(tài),在語言表達時,通過聲音就可以知道這個人是否開心,或者沮喪,也會結合表達的內(nèi)容傳達具體的情緒狀態(tài)。單個TTS音庫是做不到,例如在讀小說的時候,小說中會有很多的場景,不同的情緒,但是用TTS合成的音頻,整體感情和情緒是比較平穩(wěn)的,沒有很大的起伏。目前優(yōu)化的方式有兩種,一是加上背景音樂,不同的場景用不同的背景音樂,淡化合成音的感情情緒,讓背景音烘托氛圍。二是制作多種情緒下的合成音庫,可以在不同的場景調(diào)用不同的音庫來合成音頻。了解語音合成的技術演化(2)語音合成的技術邊界定制化。當前我們聽到語音合成廠商合成的音頻時,整體效果還是不錯的,很多客戶會有定制化的需求,例如用自己企業(yè)職員的聲音制作一個音庫,想要達到和語音合成廠商一樣的效果,這個是比較難的,目前語音合成廠商的錄音員基本上都是專業(yè)的播音員,不是任何一個人就可以滿足制作音庫的標準,如果技術可以達到每一個人的聲音都可以到達85%以上的還原,這將應用于更多的場景中。了解語音合成的技術演化(3)語音合成技術的發(fā)展趨勢目前,語音合成的研究方向重點包括:提高合成語音的自然度、表現(xiàn)力、實用性和實現(xiàn)多語種語音合成。了解語音合成的技術演化(3)語音合成技術的發(fā)展趨勢提高合成語音的自然度。就漢語的單字和詞組來說,合成語音的可懂度和自然度己基本解決。但是到句子乃至篇章一級時,合成語音的自然度還有提升的空間。豐富合成語音的表現(xiàn)力。目前大多數(shù)語音合成系統(tǒng)的輸出語音在不同年齡、性別及情感等方面缺乏表現(xiàn)力,隨著智能人機交互技術的廣泛應用,對人機對話中合成語音的表現(xiàn)力提出了更高的要求。提高語音的實用性。為了擴大語音合成的應用場景,將語音合成系統(tǒng)應用到嵌入式設備,不僅要考慮合成語音的質(zhì)量和表現(xiàn)力,更要提高語音的實用性,降低語音合成技術的復雜度,減小合成技術對語音庫容量的依賴性。了解語音合成的技術演化(3)語音合成技術的發(fā)展趨勢實現(xiàn)多語種語音合成。由于語種不同,不同國籍、不同民族的人們進行語言交流時往往存在困難,多語種的文語轉換可解決此問題,用到有聲電子郵件、自動電話翻譯等場合。同時,漢語合成也存在多方言語音合成的需求。目前的語音合成系統(tǒng)大多是針對某一種語言開發(fā)出來,沒有針對多語種的合成算法或語音合成器。由于語音合成器所采用的算法及規(guī)則都是和采用語言密切相關的,很難推廣到其他的語種,例如漢語語音合成系統(tǒng)的韻律規(guī)則完全不適合于英語。因此多語種語音合成是未來語音合成的一個研究方向。了解語音合成的技術演化PART02語音合成的常用平臺語音合成的常用平臺(1)語音合成的開源工具常見的語音合成的開源工具有Merlin、Ekho、MaryTTS、eSpeak、Festival、FreeTTS、Filte等,如表所示。語音合成的常用平臺語音合成開源工具包各有特色,其中,Merlin、eSpeak和Ekho能夠支持中文語音合成。Ekho(余音)是一個免費、開源的中文語音合成軟件。它目前支持粵語、普通話(國語)等,英文則通過eSpeak或Festival間接實現(xiàn)。Ekho支持Linux、Windows和Android平臺。實踐結果表明,Ekho合成的中文語音比eSpeak更自然。由于Ekho語音引擎可以運行于本地,并且支持Linux環(huán)境下運行,因此可應用于嵌入式開發(fā)環(huán)境。語音合成的常用平臺(2)語音合成的非開源平臺語音合成的非開源平臺主要有Nuance、微軟、科大訊飛、百度語音、騰訊語音、字節(jié)跳動等人工智能開發(fā)商提供的語音引擎。這類引擎提供了一系列接口,使得智能交互系統(tǒng)的開發(fā)可以通過調(diào)用接口來完成。例如,微軟所提供的SAPI(全稱TheMicrosoftSpeechAPI),就是在應用程序和語音引擎之間提供一個高級別的接口,它實現(xiàn)了所有必需的對各種語音引擎的實時控制和管理。語音合成的常用平臺(2)語音合成的非開源平臺PART03語音合成體驗與分析語音合成體驗與分析訊飛語音合成體驗平臺步驟:登錄網(wǎng)址:/services/online_tts利用訊飛語音合成在線體驗平臺,體驗不同發(fā)音人的語音合成效果;體驗不同方言的語音合成效果。語音合成體驗與分析Ekho軟件步驟1:下載并安裝Ekho軟件(網(wǎng)址/cn/ekho_cn.php
)語音合成體驗與分析Ekho軟件步驟2:瀏覽Ekho文件夾中文件,其中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兒童醫(yī)院志愿者服務體系建設
- 汽車美容裝潢技術手冊(標準版)
- 2026湖南長沙市麓山國際洞陽實驗學校公開招聘編外合同制教師備考題庫及1套參考答案詳解
- 2026浙江省新華書店集團招聘45人備考題庫及答案詳解一套
- 2026湖南郴州市林邑中學春季招聘代課教師備考題庫及參考答案詳解一套
- 2026磨憨開發(fā)投資有限責任公司市場化選聘高級管理人員2人備考題庫(云南)及完整答案詳解1套
- 汝州職業(yè)技術學院《農(nóng)業(yè)法學》2023-2024學年第二學期期末試卷
- 重慶工業(yè)職業(yè)技術學院《護理禮儀與人際溝通(實驗)》2023-2024學年第二學期期末試卷
- 黔南民族醫(yī)學高等??茖W校《物理化學(Ⅱ)》2023-2024學年第二學期期末試卷
- 中國空間生物實驗載荷商業(yè)發(fā)射市場需求預測研究報告
- 施工現(xiàn)場臨時用電:配電箱一級二級三級定義及管理規(guī)范
- 汽車電子控制技術課件
- 2024年度高速公路機電設備維護合同:某機電公司負責某段高速公路的機電設備維護2篇
- 《城鎮(zhèn)液化石油氣加臭技術規(guī)程》
- 2024-2025學年上學期南京初中語文九年級期末試卷
- 新高考數(shù)學之圓錐曲線綜合講義第26講外接圓問題(原卷版+解析)
- 中藥湯劑煎煮技術規(guī)范-公示稿
- 新版出口報關單模板
- 微型課題研究的過程與方法課件
- 藥學導論緒論-課件
- 14K118 空調(diào)通風管道的加固
評論
0/150
提交評論