CN114242033B 語音合成方法、裝置、設備、存儲介質及程序產(chǎn)品 (廣州酷狗計算機科技有限公司)_第1頁
CN114242033B 語音合成方法、裝置、設備、存儲介質及程序產(chǎn)品 (廣州酷狗計算機科技有限公司)_第2頁
CN114242033B 語音合成方法、裝置、設備、存儲介質及程序產(chǎn)品 (廣州酷狗計算機科技有限公司)_第3頁
CN114242033B 語音合成方法、裝置、設備、存儲介質及程序產(chǎn)品 (廣州酷狗計算機科技有限公司)_第4頁
CN114242033B 語音合成方法、裝置、設備、存儲介質及程序產(chǎn)品 (廣州酷狗計算機科技有限公司)_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

(19)國家知識產(chǎn)權局(12)發(fā)明專利(10)授權公告號CN114242033B(65)同一申請的已公布的文獻號(73)專利權人廣州酷狗計算機科技有限公司地址510660廣東省廣州市天河區(qū)黃埔大道中315號自編1-17(72)發(fā)明人黃杰雄軒曉光關迪聆陳傳藝孫洪文審查員陳躍燕(74)專利代理機構北京三高永信知識產(chǎn)權代理有限責任公司11138專利代理師李芳本申請公開了一種語音合成方法、裝置、設方法包括:獲取目標文本的目標音素、目標情感以及目標音色;對目標音素對應的目標音素特征與目標情感對應的目標情感特征進行特征融合,得到音素融合特征;基于音素融合特征與目標音色對應的目標音色特征進行發(fā)音預測,得到目標音素對應的語音發(fā)音特征;對語音發(fā)音特征進行特征解碼,得到目標聲學特征;基于目標聲學特征合成目標語音,目標語音與目標文本相對應,目標語音是具有目標情感與目標音色的音頻。本申請實施例提供的方法,可得到不同情感以及不獲取目標文本的目標音素、目標情感以及目標音色獲取目標文本的目標音素、目標情感以及目標音色對目標音素對應的目標音素特征與目標情感對應的目標情感特征進行特征融合,得到音素融合特征基于音素融合特征與目標音色對應的目標音色特征進行發(fā)音預測,得到目標音素對應的語音發(fā)音特征對語音發(fā)音特征進行特征解碼,得到目標聲學特征相對應,目標語音是具有目標情感與目標音色的音頻2獲取目標文本的目標音素、目標情感以及目標音色;對所述目標音素進行特征編碼,得到目標音素序列;對所述目標情感進行特征編碼,得到初始情感序列;對所述初始情感序列進行擴展處理,得到目標情感序列,所述目標情感序列與所述目標音素序列的序列長度相同;對所述目標音素序列和所述目標情感序列進行融對所述目標音色進行特征編碼,得到初始音色序列;對所述初始音色序列進行擴展處理,得到目標音色序列,所述目標音色序列與所述音素融合序列的序列長度相同;將所述目標音色序列與所述音素融合序列輸入語音預測網(wǎng)絡進行發(fā)音預測,得到所述目標音素對應的語音發(fā)音序列,所述語音發(fā)音序列用于表征目標語音對應的發(fā)音時長、音調以及能量中的至少一種;對所述語音發(fā)音序列進行特征解碼,得到目標聲學特征;基于所述目標聲學特征合成所述目標語音,所述目標語音與所述目標文本相對應,所述目標語音是具有所述目標情感與所述目標音色的音頻。2.根據(jù)權利要求1所述的方法,其特征在于,所述音素融合序列由情感融合網(wǎng)絡對所述目標音素序列與所述目標情感序列融合得到;所述目標聲學特征由解碼網(wǎng)絡對所述語音發(fā)音序列解碼得到。3.根據(jù)權利要求2所述的方法,其特征在于,所述方法還包將所述目標音素序列與所述目標情感序列輸入所述情感融合網(wǎng)絡進行融合處理,得到所述音素融合序列。4.根據(jù)權利要求3所述的方法,其特征在于,所述將所述目標音素序列與所述目標情感序列輸入所述情感融合網(wǎng)絡進行融合處理,得到所述音素融合序列,包括:將所述目標音素序列與所述目標情感序列進行序列融合,得到第一音素融合序列;將所述第一音素融合序列輸入長短期記憶LSTM網(wǎng)絡進行序列處理,得到第二音素融合將所述第一音素融合序列與所述第二音素融合序列進行所述序列融合,得到所述音素融合序列。5.根據(jù)權利要求4所述的方法,其特征在于,所述LSTM網(wǎng)絡的網(wǎng)絡層數(shù)根據(jù)融合需求或計算量需求中至少一種確定,所述網(wǎng)絡層數(shù)與融合能力呈正相關關系,所述網(wǎng)絡層數(shù)與計算量呈負相關關系。6.根據(jù)權利要求3所述的方法,其特征在于,所述對所述語音發(fā)音序列進行特征解碼,將所述語音發(fā)音序列輸入所述解碼網(wǎng)絡進行序列解碼,得到所述目標聲學特征,所述解碼網(wǎng)絡為流Flow結構。7.根據(jù)權利要求1至6任一所述的方法,其特征在于,所述對所述語音發(fā)音序列進行特對所述語音發(fā)音序列與所述目標音色序列進行特征融合,得到發(fā)音融合特征;對所述發(fā)音融合特征進行特征解碼,得到所述目標聲學特征。8.根據(jù)權利要求2至6任一所述的方法,其特征在于,所述情感融合網(wǎng)絡、所述語音預測3網(wǎng)絡與所述解碼網(wǎng)絡基于樣本文本、樣本語音、樣本情感以及樣本音色訓練得到,所述樣本語音是具有所述樣本情感以及樣本音色特征的音頻,所述樣本語音與所述樣本文本相對應。9.根據(jù)權利要求8所述的方法,其特征在于,所述方法還包括:確定所述樣本文本對應的樣本音素,所述樣本音素包含所述樣本文本對應的拼音信息以及各個拼音對應的時長信息;將所述樣本音素對應的樣本音素特征與所述樣本情感對應的樣本情感特征輸入所述情感融合網(wǎng)絡進行特征融合,得到樣本音素融合特征;將所述樣本音素融合特征與所述樣本音色對應的樣本音色特征輸入所述語音預測網(wǎng)絡進行所述發(fā)音預測,得到所述樣本音素對應的預測語音發(fā)音特征;將所述預測語音發(fā)音特征輸入所述解碼網(wǎng)絡進行所述特征解碼,得到預測聲學特征;基于所述預測聲學特征與所述樣本語音對應的樣本聲學特征,對所述情感融合網(wǎng)絡、所述語音預測網(wǎng)絡以及所述解碼網(wǎng)絡進行訓練。10.根據(jù)權利要求9所述的方法,其特征在于,聲學特征為梅爾頻譜特征;所述基于所述預測聲學特征與所述樣本語音對應的樣本聲學特征,對所述情感融合網(wǎng)絡、所述語音預測網(wǎng)絡以及所述解碼網(wǎng)絡進行訓練,包括:確定所述預測聲學特征對應的預測梅爾頻譜以及所述樣本聲學特征對應的樣本梅爾頻譜之間的誤差損失;基于所述誤差損失,通過反向傳播更新所述情感融合網(wǎng)絡、所述語音預測網(wǎng)絡以及所述解碼網(wǎng)絡的網(wǎng)絡參數(shù)。獲取模塊,用于獲取目標文本的目標音素、目標情感以及目標音色;第一融合模塊,用于對所述目標音素進行特征編碼,得到目標音素序列;對所述目標情感進行特征編碼,得到初始情感序列;對所述初始情感序列進行擴展處理,得到目標情感序列,所述目標情感序列與所述目標音素序列的序列長度相同;對所述目標音素序列和所述目標情感序列進行融合處理,得到音素融合序列;第一預測模塊,用于對所述目標音色進行特征編碼,得到初始音色序列;對所述初始音色序列進行擴展處理,得到目標音色序列,所述目標音色序列與所述音素融合序列的序列長度相同;將所述目標音色序列與所述音素融合序列輸入語音預測網(wǎng)絡進行發(fā)音預測,得到所述目標音素對應的語音發(fā)音序列,所述語音發(fā)音序列用于表征目標語音對應的發(fā)音時第一解碼模塊,用于對所述語音發(fā)音序列進行特征解碼,得到目標聲學特征;語音合成模塊,用于基于所述目標聲學特征合成所述目標語音,所述目標語音與所述目標文本相對應,所述目標語音是具有所述目標情感與所述目標音色的音頻。12.一種計算機設備,其特征在于,所述計算機設備包括處理器和存儲器,所述存儲器中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執(zhí)行以實現(xiàn)如權利要求1至10任一所述的語音合成方法。13.一種計算機可讀存儲介質,其特征在于,所述可讀存儲介質中存儲有至少一條指4指令集由處理器加載并執(zhí)行以實現(xiàn)如權利要求1至10任一所述的語音合成方法。14.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括計算機指令,所述計算機指令存儲在計算機可讀存儲介質中,計算機設備的處理器從所述計算機可讀存儲介質讀取所述計算機指令,所述處理器執(zhí)行所述計算機指令以實現(xiàn)如權利要求1至10任一所述的語音合成方法。5語音合成方法、裝置、設備、存儲介質及程序產(chǎn)品技術領域[0001]本申請實施例涉及人工智能領域,特別涉及一種語音合成方法、裝置、設備、存儲介質及程序產(chǎn)品。背景技術[0002]語音合成是指將文本轉化為音頻的過程,該過程中,通常利用聲學模型進行語音[0003]相關技術中,利用樣本文本的音素與樣本文本對應的音頻訓練聲學模型,從而利用訓練完成的聲學模型將待合成文本對應的音素,轉化為音頻對應的聲學特征,實現(xiàn)語音合成。其中,音素是根據(jù)語音的自然屬性劃分出最小語音單位,以中文普通話為例,音素可發(fā)明內容[0004]本申請實施例提供了一種語音合成方法、裝置、設備、存儲介質及程序產(chǎn)品。所述技術方案如下:[0005]一方面,本申請實施例提供了一種語[0006]獲取目標文本的目標音素、目標情感以及目標[0007]對所述目標音素對應的目標音素特征與所述目標情感對應的目標情感特征進行[0008]基于所述音素融合特征與所述目標音色對應的目標音色特征進行發(fā)音預測,得到所述目標音素對應的語音發(fā)音特征;[0009]對所述語音發(fā)音特征進行特征解碼,得到目標聲學特征;[0010]基于所述目標聲學特征合成目標語音,所述目標語音與所述目標文本相對應,所述目標語音是具有所述目標情感與所述目標音色的音頻。[0013]第一融合模塊,用于對所述目標音素對應的目標音素特征與所述目標情感對應的目標情感特征進行特征融合,得到音素融合特征;[0014]第一預測模塊,用于基于所述音素融合特征與所述目標音色對應的目標音色特征進行發(fā)音預測,得到所述目標音素對應的語音發(fā)音特征;[0015]第一解碼模塊,用于對所述語音發(fā)音特征進行特[0016]語音合成模塊,用于基于所述目標聲學特征合成目標語音,所述目標語音與所述目標文本相對應,所述目標語音是具有所述目標情感與所述目標音色的音頻。[0017]另一方面,本申請實施例提供了一種計算機設備,所述計算機設備包括處理器和存儲器,所述存儲器中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一6條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執(zhí)行以實現(xiàn)如上述方面所述的語音合成方法。[0018]另一方面,提供了一種計算機可讀存儲介質,所述可讀存儲介質中存儲有至少一集或指令集由處理器加載并執(zhí)行以實現(xiàn)如上述方面所述的語音合成方法。[0019]另一方面,本申請實施例提供了一種計算機程序產(chǎn)品或計算機程序,該計算機程序產(chǎn)品或計算機程序包括計算機指令,該計算機指令存儲在計算機可讀存儲介質中。計算機設備的處理器從計算機可讀存儲介質讀取該計算機指令,處理器執(zhí)行該計算機指令,使得該計算機設備執(zhí)行上述方面提供的語音合成方法。[0020]本申請實施例提供的技術方案帶來的有益效果至少包括:[0021]本申請實施例中,在合成文本對應的語音時,獲取情感特征,將情感特征與文本對應的音素特征進行融合,得到融合情感后的音素融合特征,且同時還獲取音色特征,利用融合情感后的音素融合特征與音色特征進行發(fā)音預測,得到音素對應的發(fā)音特征,并利用發(fā)音特征進行解碼得到合成語音的聲學特征。由于在語音合成過程中,將音素與情感特征融合,使合成語音可具有特定情感,且同時還利用音色特征進行發(fā)音預測,使合成語音具有特定音色,從而可得到不同情感以及不同音色的語音,豐富合成語音的語音效果,且有助于提高合成語音的自然性與真實性。附圖說明[0022]為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0023]圖1示出了本申請一個示例性實施例提供的實施環(huán)境的示意圖;[0024]圖2示出了本申請一個示例性實施例提供的語音合成方法的流程圖;[0025]圖3示出了本申請另一個示例性實施例提供的語音合成方法的流程圖;[0026]圖4示出了本申請一個示例性實施例提供的聲學模型的結構示意圖;[0027]圖5示出了本申請一個示例性實施例提供的聲學模型訓練方法的流程圖;[0028]圖6是本申請一個示例性實施例提供的語音合成裝置的結構框圖;[0029]圖7示出了本申請一個示例性實施例提供的計算機設備的結構示意圖。具體實施方式[0030]為使本申請的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本申請實施方式作進一步地詳細描述。[0031]請參考圖1,其示出了本申請示例性實施例提供的實施環(huán)境的示意圖。該實施環(huán)境中可以包括:終端101與服務器102。[0032]終端101是提供有語音合成功能的電子設備。終端101可以為智能手機、平板電腦、智能電視、數(shù)碼播放器、膝上型便攜計算機或臺式計算機等等。終端101中可運行有提供語音合成功能的客戶端,該客戶端可為即時通信類應用程序、音樂播放類應用程序、閱讀類應7用程序等,本申請實施例對終端101的具體類型不做限定。[0033]服務器102可以是獨立的物理服務器,也可以是多個物理服務器構成的服務器集云計算服務的云服務器。本申請實施例中,服務器是終端101中提供語音合成功能客戶端的[0034]終端101和服務器102間能夠通過有線或無線通信方式進行直接或間接地連接,本申請在此不做限制。[0035]在一種可能的實施方式中,如圖1所示,終端101將需轉化的目標文本以及合成語音對應的情感類型與音色類型發(fā)送至服務器102,服務器102接收到目標文本、情感類型以及音色類型后,基于目標文本、情感類型以及音色類型對應的特征進行語音合成,得到音頻的聲學特征,實現(xiàn)將文本轉化為具有特定情感以及特定音色類型的語音。[0036]在另一種可能的實施方式中,上述語音合成過程也可由終端101執(zhí)行。服務器102對用于進行語音合成的聲學模型進行訓練,從而將訓練完成的聲學模型發(fā)送至終端101,由終端101在本地實現(xiàn)語音合成,無需借助服務器102?;蛘?,用于進行語音合成的聲學模型也可在終端101側進行訓練,并由終端101執(zhí)行語音合成過程。本申請實施例對此不做限定。[0037]為了方便表述,下述各個實施例以語音合成方法由計算機設備執(zhí)行為例進行說[0038]本申請實施例提供的方法可應用于配音場景,如文章配音、小說配音、雜志配音等,采用本實施例提供的方法,在配音過程中,可根據(jù)書籍中的文本內容生成指定情感以及指定音色的語音,豐富配音效果。[0039]且還可應用于智能教育場景,將所需學習的文本內容轉化為具有特定情感以及特定音色特征的語音,從而模擬真人教育場景,有助于對文本內容更好的理解與學習。[0040]上述僅對應用場景為例進行示意性說明,本申請實施例提供的方法還可以應用于其他需要進行語音合成的場景,本申請實施例并不對實際應用場景構成限定。[0041]請參考圖2,其示出了本申請一個示例性實施例提供的語音合成方法的流程圖。本實施例以該方法用于計算機設備為例進行說明,該方法包括如下步驟。[0042]步驟201,獲取目標文本的目標音素、目標情感以及目標音色。[0043]可選的,目標文本指需轉化為語音的文本。音素是根據(jù)語音的自然屬性劃分出最小語音單位,不同語種對應音素可能不同,比如,文本對應的中文普通話的音素與方言的音標文本所需合成語種的音素。目標音素可為對目標文本進行前端處理得到。[0045]目標情感與目標音色是指合成語音后語音所具有的表現(xiàn)效果。其中,目標情感與目標音色可以為針對目標文本的單一情感與單一音色。比如,目標情感可為高興,目標音色[0046]步驟202,對目標音素對應的目標音素特征與目標情感對應的目標情感特征進行8[0047]其中,目標音素特征是對目標音素的向量化表示,目標音素特征中包含目標音素中的各個音素信息。目標情感特征是對目標情感的向量化表示,用于指示目標情感對應的情感類型。[0048]在獲取目標音素以及目標情感后,對目標音素以及目標情感進行處理,得到對應的目標音素特征以及目標情感特征,從而對目標音素特征與目標情感特征進行融合,將情感融入音素中,得到融合后的音素融合特征,從而基于音素預測發(fā)音時使發(fā)音具有目標情[0049]步驟203,基于音素融合特征與目標音色對應的目標音色特征進行發(fā)音預測,得到目標音素對應的語音發(fā)音特征。[0051]由于不同音色對應的發(fā)音方式不同,比如,不同人說話對應的音調不同。因此,在一種可能的實施方式中,計算機設備在基于音素融合特征進行發(fā)音預測的過程中,同時引入目標音色對應的音色特征,從而得到具有特定音色以及特定情感的發(fā)音方式。[0052]步驟204,對語音發(fā)音特征進行特征解碼,得到目標聲學特征,目標語音與目標文本相對應,目標語音是具有目標情感與目標音色的音頻。[0053]可選的,在預測得到語音發(fā)音特征后,需進行特征解碼,當計算機設備將其解碼為音頻對應的聲學特征,后續(xù)才可基于目標聲學特征進行語音合成。[0054]其中,聲學特征用于表示語音的頻譜特征,目標聲學特征即為合成目標語音對應的頻譜特征,其可為梅爾頻譜(mel-spectrogram)、梅爾倒譜系數(shù)(Mel-scaleFrequencyCepstralCoefficients,MFCC)、線性預測倒譜系數(shù)(LinearPredictionCepstralCoefficients,LPCC)、感知線性預測系數(shù)(PerceptualLinearPredictive,PLP)等。[0055]步驟205,基于目標聲學特征合成目標語音,目標語音與目標文本相對應,目標語音是具有目標情感與目標音色的音頻。[0056]計算機設備可利用聲碼器對聲學特征進行轉換,得到目標語音。目標語音即為目標文本對應的讀音,且讀音具有特定的情感以及特定的音色。[0057]其中,聲碼器用于將聲學特征轉化為可播放的語音波形,即將聲學特征還原為音碼器,本實施例對聲碼器的具體結構不做限定。[0058]綜上所述,本申請實施例中,在合成文本對應的語音時,獲取情感特征,將情感特征與文本對應的音素特征進行融合,得到融合情感后的音素融合特征,且同時還獲取音色特征,利用融合情感后的音素融合特征與音色特征進行發(fā)音預測,得到音素對應的發(fā)音特征,并利用發(fā)音特征進行解碼得到合成語音的聲學特征。由于在語音合成過程中,將音素與情感特征融合,使合成語音可具有特定情感,且同時還利用音色特征進行發(fā)音預測,使合成語音具有特定音色,從而可得到不同情感以及不同音色的語音,豐富合成語音的語音效果,且有助于提高合成語音的自然性與真實性。[0059]可選的,音素融合特征由情感融合網(wǎng)絡對目標音素特征與目標情感特征融合得到;語音發(fā)音特征由語音預測網(wǎng)絡對音素融合特征與目標音色特征預測得到;目標聲學特征由解碼網(wǎng)絡對語音發(fā)音特征解碼得到。下面將對基于情感融合網(wǎng)絡、語音預測網(wǎng)絡以及解碼網(wǎng)絡進行語音合成的過程進行示例性說明。9[0060]請參考圖3,其示出了本申請另一個示例性實施例提供的語音合成方法的流程圖。本實施例以該方法用于計算機設備為例進行說明,該方法包括如下步驟。[0061]步驟301,獲取目標文本的目標音素、目標情感以及目標音色。[0062]本步驟實施方式可參考上述步驟201,本實施例不再贅述。[0063]步驟302,對目標音素進行特征編碼,得到目標音素序列。[0064]在一種可能的實施方式中,將目標音素輸入音素嵌入層進行嵌入embedding處理,得到目標音素對應的初始音素序列,在得到初始音素序列后,將初始音素序列輸入編碼網(wǎng)絡進行編碼,得到對應的目標音素序列,其中,目標音素序列即為對目標音素進行特征編碼后得到的目標音素序列。環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuralNetwork,RNN)、Transformer模型等,本實施例對編碼網(wǎng)絡的具體結構不做限定。[0066]步驟303,對目標情感進行特征編碼,得到初始情感序列。[0067]在一種可能的實施方式中,將目標情感輸入情感嵌入層進行embedding處理,得到[0068]其中,本步驟與步驟302的實施時序可為順序執(zhí)行,也可為同步執(zhí)行,本實施例進對實施方式進行說明,但對實施時序不做限定。[0069]步驟304,對初始情感序列進行擴展處理,得到目標情感序列,目標情感序列與目標音素序列的序列長度相同。[0070]由于需對目標音素特征與目標情感特征進行融合,因此,需使情感序列與音素序列的序列長度相同,即對初始情感序列進行序列擴展,使目標情感序列的序列長度與目標音素序列的序列長度相同。[0071]示意性的,當目標音素序列的序列長度為30,而初始情感序列的序列長度為1時,可將初始情感序列進行復制,得到目標情感序列,使目標情感序列的序列長度為30。[0072]步驟305,將目標音素序列與目標情感序列輸入情感融合網(wǎng)絡進行融合處理,得到音素融合序列。[0073]在一種可能的實施方式中,可將目標音素序列與目標情感序列直接進行序列融合,得到融合后的音素融合序列。然而,直接進行序列融合后得到的音素融合序列融合效果較差,合成語音后音頻情感表達較為生硬。因此,在另一種可能的實施方式中,利用情感融合網(wǎng)絡對目標音素序列與目標情感序列進行融合??蛇x的,情感融合網(wǎng)絡中包含長短期記憶(LongShort-TermMemory,LSTM)結構以及殘差shortcut結構。該步驟可替換為如下步[0074]步驟305a,將目標音素序列與目標情感序列進行序列融合,得到第一音素融合序[0075]在一種可能的實施方式中,計算機設備首先將目標音素序列與目標情感序列進行[0076]步驟305b,將第一音素融合序列輸入長短期記憶LSTM網(wǎng)絡進行序列處理,得到第二音素融合序列,LSTM網(wǎng)絡用于將情感信息嵌入音素上下文信息中。[0077]由于LSTM網(wǎng)絡可對特征在時序上前后信息相關性的學習能力較好,因此,引入LSTM網(wǎng)絡對第一音素融合序列進行處理,從而基于音素幀與幀之間相關性進行情感特征的融合,即將情感信息嵌入音素的上下文信息中,從而使融合得到的特征融合效果較好,從而使合成音頻情感表達更為細膩。的網(wǎng)絡層數(shù)根據(jù)融合需求或計算量需求中至少一種確定,網(wǎng)絡層數(shù)與融合能力呈正相關關[0079]當需使文本與情感信息的融合效果更好時,可基于較多LSTM層對第一音素融合序列進行處理;而當需加快語音合成,減少語音合成過程中的計算量時,可基于較少的LSTM層對第一融合序列進行處理?;蛘撸删C合融合效果與計算量,確定LSTM層層數(shù),在確保融合[0080]計算機設備利用LSTM網(wǎng)絡對第一音素融合序列進行處理后,得到第二音素融合序[0081]步驟305c,將第一音素融合序列與第二音素融合序列進行序列融合,得到音素融合序列。素中各個音素均與情感特征融合。在一種可能的實施方式中,計算機設備將目標音素序列與目標情感序列直接進行序列融合后的第一音素融合序列與第二音素融合序列進行序列從而使合成語音情感表達更為細膩。[0083]步驟306,對目標音色進行特征編碼,得到初始音色序列。[0084]在得到音素融合序列后,可基于音素融合序列進行發(fā)音特征的預測。而由于不同語音的音色特征與目標音色一致性。[0085]在一種可能的實施方式中,首先對目標音色進行特征編碼,得到初始音色序列。即對目標音色進行embedding處理,得到初始音色序列。[0086]步驟307,對初始音色序列進行擴展處理,得到目標音色序列,目標音色序列與音素融合序列的序列長度相同。[0087]由于需對音素融合序列與目標音色對應的目標音色特征進行融合,因此,需使音色序列與音素融合序列的序列長度相同,即對初始音色序列進行序列擴展,使目標音色序列的序列長度與音色融合序列的序列長度相同。[0088]結合上述示例,當目標音素序列與目標情感序列的序列長度為30時,融合后的音色融合序列的序列長度仍為30,因此,對初始音色序列進行復制,得到序列長度為30的目標音色序列。[0089]步驟308,將目標音色序列與音素融合序列輸入語音預測網(wǎng)絡進行發(fā)音預測,得到目標音素對應的語音發(fā)音序列,語音發(fā)音序列用于表征目標語音對應的發(fā)音時長、音調以及能量中的至少一種。[0090]在一種可能的實施方式中,將目標音色序列與音素融合序列進行序列融合,得到融合后的特征序列,并將融合后的特征序列輸入語音預測網(wǎng)絡中進行發(fā)音預測,得到目標語音對應的發(fā)音時長、發(fā)音音調以及發(fā)音能量大小。11[0091]可選的,語音預測網(wǎng)絡為可變信息適配器(VarianceAdaptor),其中,可包含時長預測器、音調預測器以及能量預測器。當將融合后的特征序列輸入語音預測網(wǎng)絡后,可通過時長預測器預測得到音素的時長序列,通過音調預測器得到音調序列,以及通過能量預測器得到能量序列。[0092]步驟309,將語音發(fā)音序列輸入解碼網(wǎng)絡進行序列解碼,得到目標聲學特征,解碼網(wǎng)絡為流Flow結構。[0093]計算機設備得到語音發(fā)音特征后,對語音發(fā)音特征進行解碼,得到最終的目標聲[0094]可選的,解碼網(wǎng)絡可為CNN、RNN、Transformer等結構。而在一種可能的實施方式[0095]且在進行長文本即字數(shù)較多的文本進行音頻合成時,F(xiàn)low結構計算量較小。比如,當目標文本的文本長度為T時,F(xiàn)low結構的計算復雜度為0(T),而Transformer結構的計算復雜度為0(T*T)。[0096]步驟310,基于目標聲學特征合成目標語音。[0097]本步驟實施方式可參考上述步驟205的實施方式,本實施例不再贅述。[0098]本實施例中,利用LSTM結構以及shortcut結構進行目標音素特征與目標情感特征的融合,從而提高音素與情感的融合效果,使合成語音在情感表達上更為細膩,提高語音擬人真實性以及流暢性。[0099]本實施例中,在預測發(fā)音特征過程中,引入目標音色特征,使最終得到的目標聲學特征更具目標音色對應的音色特點,從而提高語音擬人真實性以及流暢性。[0100]本實施例中,在對語音發(fā)音特征進行解碼時,采用Flow結構進行解碼,可降低合成長文本對應的目標聲學特征時的計算復雜度。[0101]在一種可能的實施方式中,除在語音發(fā)音預測過程中引入目標音色特征外,為加強目標音色的發(fā)音特征,在解碼過程中,同時基于語音發(fā)音特征與目標音色特征進行解碼,得到目標語音的目標聲學特征,從而使目標語音更具表現(xiàn)力。[0103]步驟一、對語音發(fā)音特征與目標音色特征進行特征融合,得到發(fā)音融合特征。[0104]為使語音對應的音色與目標音色對應的發(fā)音特征更為符合,將語音發(fā)音特征與目標音色特征進行特征融合,從而基于融合后的發(fā)音融合特征進行特征解碼,即利用語音發(fā)音序列與目標音色序列共同進行序列解碼。在一種可能的實施方式中,將語音發(fā)音序列與目標音色序列進行序列融合,得到發(fā)音融合序列。其中,融合后的發(fā)音融合序列與語音發(fā)音序列的序列長度保持相同。[0105]步驟二、對發(fā)音融合特征進行特征解碼,得到目[0106]得到發(fā)音融合序列后,計算機設備將發(fā)音融合序列輸入解碼網(wǎng)絡進行特征解碼。即利用Flow結構對發(fā)音融合序列進行特征解碼。[0107]在利用Flow結構進行解碼的過程中,包含多次特征輸入,在每次特征輸入過程中,均將語音發(fā)音序列與目標音色序列進行融合輸入,即每次均輸入發(fā)音融合序列,從而使不同音色以及不同情感的音頻聲學特征擬合效果更好。[0108]本實施例中,在解碼過程中,引入目標音色特征,且利用Flow結構對音色特征與發(fā)音特征進行解碼,提供擬合音色特征與發(fā)音特征的能力,從而進一步加強解碼得到的目標聲學特征對應的音色特點,提高與目標音色的相似性。[0109]在一種可能的實施方式中,語音合成的聲學模型的模型結構可如圖4所示,基于該聲學模型合成目標聲學特征過程可為:[0110]將目標文本的目標音素輸入音素嵌入層(PhonemeEmbedding)401中進行嵌入處理,得到初始音素序列,并將初始音素序列輸入編碼器(Encoder)402進行編碼處理得到目標音素序列。且將目標情感輸入情感嵌入層(EmotionEmbedding)403進行嵌入處理,得到目標情感序列。之后,計算機設備將目標音素序列與目標情感序列進行序列融合,并將融合后的第一音素融合序列輸入情感融合網(wǎng)絡(EmotionNet)404中,得到第二音素融合序列,且將第一音素融合序列與第二音素融合序列進行序列融合,得到音素融合序列。[0111]同時,計算機設備將目標音色輸入音色嵌入層(SpeakerEmbedding)405中進行嵌入處理,得到目標音色序列。計算機設備將音素融合序列與目標音色序列進行融合,并將融合后的發(fā)音融合序列輸入到語音預測網(wǎng)絡VarianceAdaptor406中,得到語音發(fā)音序列,且將語音發(fā)音序列與目標音色序列進行序列融合,并將融合得到的發(fā)音融合序列輸入解碼器(mel-spectrogramFlowDecoder)407中進行解碼處理,得到目標聲學特征,即梅爾頻譜特征。[0112]在一種可能的實施方式中,進行語音合成的聲學模型由訓練集中訓練樣本訓練得及樣本音色訓練得到,樣本語音是具有樣本情感以及樣本音色特征的音頻,樣本語音與樣本文本相對應。[0113]即一組訓練樣本中包含樣本文本、樣本語音、樣本情感以及樣本音色。可選的,相同的樣本文本可能對應不同的樣本語音,比如,相同的樣本文本對應不同情感或不同音色色可為不同人說話對應的音色。由于相同的樣本文本可能對應不同的樣本語音,因此,每組訓練樣本均需進行標注,從而區(qū)別訓練樣本中樣本語音對應的情感以及音色。比如,對于不[0114]在一種可能的實施方式中,計算機設備基于多組訓練樣本對聲學模型進行訓練,其中,聲學模型中包含情感融合網(wǎng)絡、語音預測網(wǎng)絡與解碼網(wǎng)絡。下面對聲學模型的訓練方法進行示意性說明。[0115]請參考圖5,其示出了本申請一個示例性實施例提供的聲學模型訓練方法的流程圖。本實施例以該方法用于計算機設備為例進行說明,該方法包括如下步驟。[0116]步驟501,確定樣本文本對應的樣本音素,樣本音素包含樣本文本對應的拼音信息以及各個拼音對應的時長信息。[0117]當獲取樣本文本后,可將樣本文本轉化為樣本音素。可選的,利用前端處理模塊將文本轉化為音素。[0118]在一種可能的實施方式中,在訓練過程中,除需獲取樣本文本對應的音素外,還需獲取樣本音素中各個拼音對應的時長信息,即樣本音素的時間戳信息,其為每個拼音的聲韻母在樣本語音中對應的起始位置與結束位置。從而根據(jù)真實音頻中各個音素的時長信息對模型進行訓練,提高模型預測發(fā)音時長的準確性。[0119]可選的,樣本音素的時間戳信息可通過對齊模型輸出得到。在一種可能的實施方式中,使用forcealignment對齊工具得到樣本音素的時間戳信息。示意性的,當樣本文本的時間戳信息為(時間單位為秒):“j(0.0,0.2)in1(0.2,0.5)t(0.5,0.6)ian1(0.6,0.8)d(0.8,0.9)e1(0.9,1.2)t(1.2,1.3)ian1(1.3,1.6)q(1.6,1.8)i4(1.8,2en1(2.2,2.5)h(2.5,2.6)ao3[0120]步驟502,將樣本音素對應的樣本音素特征與樣本情感對應的樣本情感特征輸入情感融合網(wǎng)絡進行特征融合,得到樣本音素融合特征。[0121]可選的,樣本音素特征中包含樣本音素的時間戳信息。當獲取樣本音素后,對樣本音素進行Embedding以及Encoder處理,得到樣本音素序列,且對樣本情感進行Embedding處理,得到樣本情感序列。同樣的,樣本音素序列與樣本情感序列的序列長度需保持相同。[0122]在一種可能的實施方式中,將樣本音素序列與樣本情感序列輸入情感融合網(wǎng)絡進[0123]可選的,情感融合網(wǎng)絡包含LSTM結構與shortcut結構,其對樣本音素序列與樣本情感序列的融合過程可參考上述步驟305中情感融合網(wǎng)絡對目標音素序列與目標情感序列[0124]步驟503,將樣本音素融合特征與樣本音色對應的樣本音色特征輸入語音預測網(wǎng)絡進行發(fā)音預測,得到樣本音素對應的預測語音發(fā)音特征。[0125]在融合得到樣本音素融合特征之后,利用樣本音素融合特征與樣本音色特征進行[0126]其中,樣本音色特征為對樣本音色進行Embedding處理之后得到的樣本音色序列??蛇x的,樣本音色序列的序列長度需與樣本音素融合序列的序列長度保持相同。[0127]可選的,預測語音發(fā)音特征包括預測發(fā)音時長、預測發(fā)音音調以及預測發(fā)音能量[0128]可選的,語音預測網(wǎng)絡對樣本音素融合序列以及樣本音色序列進行發(fā)音預測的過程可參考上述步驟308中語音預測網(wǎng)絡對音素融合序列與目標音色序列進行發(fā)音預測的過程,本實施例不再贅述。計算機設備通過語音預測網(wǎng)絡進行發(fā)音預測,得到預測語音發(fā)音序[0129]步驟504,將預測語音發(fā)音特征輸入解碼網(wǎng)絡進行特征解碼,得到預測聲學特征。[0130]可選的,計算機設備將預測語音發(fā)音特征即預測語音發(fā)音序列輸入解碼網(wǎng)絡進行特征解碼,解碼網(wǎng)絡為Flow結構,基于解碼網(wǎng)絡進行特征解碼,得到預測的梅爾頻譜特征。[0131]而在另一種可能的實施方式中,在進行特征解碼過程中還可基于音色特征進行解碼,因此,在訓練過程中,計算機設備還可將預測語音發(fā)音特征與樣本音色特征輸入解碼網(wǎng)絡進行特征解碼,得到預測聲學特征,從而提高訓練后的解碼網(wǎng)絡對音色特征的擬合能力。[0132]當將預測語音發(fā)音特征與樣本音色特征輸入解碼網(wǎng)絡進行特征解碼時,即將預測語音發(fā)音序列與樣本音色序列進行序列融合得到預測發(fā)音融合序列,從而將預測發(fā)音融合序列輸入解碼網(wǎng)絡,得到預測的梅爾頻譜特征。[0133]其中,基于解碼網(wǎng)絡對預測語音發(fā)音序列與樣本音色序列進行特征解碼的過程可參考上述實施例利用解碼網(wǎng)絡對語音發(fā)音序列與目標音色序列進行特征解碼的過程,本實施例不再贅述。[0134]步驟505,基于預測聲學特征與樣本語音對應的樣本聲學特征,對情感融合網(wǎng)絡、語音預測網(wǎng)絡以及解碼網(wǎng)絡進行訓練。[0135]當計算機設備通過聲學模型預測得到樣本文本對應的預測聲學特征后,利用預測聲學特征與樣本聲學特征對情感融合網(wǎng)絡、語音預測網(wǎng)絡以及解碼網(wǎng)絡進行訓練,得到訓練后的聲學模型,從而可利用訓練后的聲學模型實現(xiàn)語音合成。在一種可能的實施方式中,訓練過程可包括如下步驟:[0136]步驟505a,確定預測聲學特征對應的預測梅爾頻譜以及樣本聲學特征對應的樣本梅爾頻譜之間的誤差損失。[0137]在一種可能的實施方式中,計算機設備預先對樣本語音進行處理,得到樣本語音對應的樣本梅爾頻譜,從而在基于聲學模型得到樣本文本的預測梅爾頻譜后,利用樣本梅爾頻譜與預測梅爾頻譜之間的誤差訓練聲學模型。[0138]可選的,計算機設備可利用L1損失函數(shù)確定樣本梅爾頻譜與預測梅爾頻譜之間的誤差損失值,基于誤差損失值對聲學模型進行訓練?;蛘?,還可采用L2損失函數(shù)、均方誤差(Mean-SquareError,MSE)損失函數(shù)等進行誤差損失值的計算,本實施例對誤差損失值的計算方式不做限定。[0139]步驟505b,基于誤差損失值,通過反向傳播更新情感融合網(wǎng)絡、語音預測網(wǎng)絡以及解碼網(wǎng)絡的網(wǎng)絡參數(shù)。[0140]在一種可能的實施方式中,確定誤差損失后,可基于誤差損失反向傳播更新聲學模型中各網(wǎng)絡的網(wǎng)絡參數(shù),包括情感融合網(wǎng)絡、語音預測網(wǎng)絡以及解碼網(wǎng)絡的網(wǎng)絡參數(shù),直至網(wǎng)絡參數(shù)滿足訓練條件為止,即誤差損失達到收斂條件為止。[0141]比如,可采用Adam優(yōu)化算法對聲學模型梯度進行反向傳播,更新聲學模型中各網(wǎng)絡的網(wǎng)絡參數(shù),得到訓練后的聲學模型。[0142]得到訓練完成后的聲學模型后,計算機設備可利用訓練完成的聲學模型對不同文本進行語音轉化,且可得到具有不同情感、不同音色的聲學特征,豐富合成語音的語音效[0143]圖6是本申請一個示例性實施例提供的語音合成裝置的結構框圖,如圖6所示,該裝置包括:[0144]獲取模塊601,用于獲取目標文本的目標音素、目標情感以及目標音色;[0145]第一融合模塊602,用于對所述目標音素對應的目標音素特征與所述目標情感對應的目標情感特征進行特征融合,得到音素融合特征;[0146]第一預測模塊603,用于基于所述音素融合特征與所述目標音色對應的目標音色特征進行發(fā)音預測,得到所述目標音素對應的語音發(fā)音特征;[0147]第一解碼模塊604,用于對所述語音發(fā)音特征進行特征解碼,得到目標聲學特征;[0148]語音合成模塊605,用于基于所述目標聲學特征合成目標語音,所述目標語音與所述目標文本相對應,所述目標語音是具有所述目標情感與所述目標音色的音頻。[0149]可選的,所述音素融合特征由情感融合網(wǎng)絡對所述目標音素特征與所述目標情感特征融合得到;[0150]所述語音發(fā)音特征由語音預測網(wǎng)絡對所述音素融合特征與所述目標音色特征預測得到;[0151]所述目標聲學特征由解碼網(wǎng)絡對所述語音發(fā)音特征解碼得到。[0154]第二編碼單元,用于對所述目標情感進行所述特[0155]第一擴展單元,用于對所述初始情感序列進行擴展處理,得到目標情感序列,所述目標情感序列與所述目標音素序列的序列長度相同;[0156]第一融合單元,用于將所述目標音素序列與所述目標情感序列輸入所述情感融合網(wǎng)絡進行融合處理,得到音素融合序列。[0158]將所述目標音素序列與所述目標情感序列進行序列融合,得到第一音素融合序[0159]將所述第一音素融合序列輸入長短期記憶LSTM網(wǎng)絡進行序列處理,得到第二音素[0160]將所述第一音素融合序列與所述第二音素融合序列進行所述序列融合,得到所述音素融合序列。[0161]可選的,所述LSTM網(wǎng)絡的網(wǎng)絡層數(shù)根據(jù)融合需求或計算量需求中至少一種確定,所述網(wǎng)絡層數(shù)與融合能力呈正相關關系,所述網(wǎng)絡層數(shù)與計算量呈負相關關系。[0163]第三編碼單元,用于對所述目標音色進行所述特[0164]第二擴展單元,用于對所述初始音色序列進行所述擴展處理,得到目標音色序列,所述目標音色序列與所述音素融合序列的序列長度相同;[0165]預測單元,用于將所述目標音色序列與所述音素融合序列輸入所述語音預測網(wǎng)絡進行所述發(fā)音預測,得到所述目標音素對應的語音發(fā)音序列,所述語音發(fā)音序列用于表征所述目標語音對應的發(fā)音時長、音調以及能量中的至少一種。[0167]將所述語音發(fā)音序列與所述目標音色序列輸入所述解碼網(wǎng)絡進行序列解碼,得到所述目標聲學特征,所述解碼網(wǎng)絡為流Flow結構。[0169]第二融合單元,用于對所述語音發(fā)音特征與所述目標音色特征進行特征融合,得到發(fā)音融合特征;[0170]解碼單元,用于對所述發(fā)音融合特征進行特征解碼,得到所述目標聲學特征。[0171]可選的,所述情感融合網(wǎng)絡、所述語音預測網(wǎng)絡與所述解碼網(wǎng)絡基于樣本文本、樣本語音、樣本情感以及樣本音色訓練得到,所述樣本語音是具有所述樣本情感以及樣本音色特征的音頻,所述樣本語音與所述樣本文本相對應。[0173]確定模塊,用于確定所述樣本文本對應的樣本音素,所述樣本音素包含所述樣本文本對應的拼音信息以及各個拼音對應的時長信息;[0174]第二融合模塊,用于將所述樣本音素對應的樣本音素特征與所述樣本情感對應的樣本情感特征輸入所述情感融合網(wǎng)絡進行所述特征融合,得到樣本音素融合特征;[0175]第二預測模塊,用于將所述樣本音素融合特征與所述樣本音色對應的樣本音色特征輸入所述語音預測網(wǎng)絡進行所述發(fā)音預測,得到所述樣本音素對應的預測語音發(fā)音特[0176]第二解碼模塊,用于將所述預測語音發(fā)音特征輸入所述解碼網(wǎng)絡進行所述特征解[0177]訓練模塊,用于基于所述預測聲學特征與所述樣本語音對應的樣本聲學特征,對所述情感融合網(wǎng)絡、所述語音預測網(wǎng)絡以及所述解碼網(wǎng)絡進行訓練。[0178]可選的,所述聲學特征為梅爾頻譜特征。[0180]損失確定單元,用于確定所述預測聲學特征對應的預測梅爾頻譜以及所述樣本聲學特征對應的樣本梅爾頻譜之間的誤差損失;[0181]訓練單元,用于基于所述誤差損失,通過反向傳播更新所述情感融合網(wǎng)絡、所述語音預測網(wǎng)絡以及所述解碼網(wǎng)絡的網(wǎng)絡參數(shù)。[0182]綜上所述,本申請實施例中,在合成文本對應的語音時,獲取情感特征,將情感特征與文本對應的音素特征進行融合,得到融合情感后的音素融合特征,且同時還獲取音色特征,利用融合情感后的音素融合特征與音色特征進行發(fā)音預測,得到音素對應的發(fā)音特征,并利用發(fā)音特征進行解碼得到合成語音的聲學特征。由于在語音合成過程中,將音素與情感特征融合,使合成語音可具有特定情感,且同時還利用音色特征進行發(fā)音預測,使合成語音具有特定音色,從而可得到不同情感以及不同音色的語音,豐富合成語音的語音效果,且有助于提高合成語音的自然性與真實性。[0183]需要說明的是:上述實施例提供的裝置,僅以上述各功能模塊的劃分進行舉例說明,實際應用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內部結構劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的裝置與方法實施例屬于同一構思,其實現(xiàn)過程詳見方法實施例,這里不再贅述。[0184]請參考圖7,其示出了本申請一個示例性實施例提供的計算機設備的結構示意圖。具體來講:所述計算機設備700包括中央處理單元(括隨機存取存儲器702和只讀存儲器703的系統(tǒng)存儲器704,以及連接系統(tǒng)存儲器704和中央處理單元701的系統(tǒng)總線705。所述計算機設備700還包括幫助計算機內的各個器件之間傳輸信息的基本輸入/輸出系統(tǒng)(Input/Output,I/0系統(tǒng))706,和用于存儲操作系統(tǒng)713、應用程序714和其他程序模塊715的大容量存儲設備707。[0185]所述基本輸入/輸出系統(tǒng)706包括有用于顯示信息的顯示器708和用于用戶輸入信息的諸如鼠標、鍵盤之類的輸入設備709。其中所述顯示器708和輸入設備709都通過連接到系統(tǒng)總線705的輸入輸出控制器710連接到中央處理單元701。所述基本輸入/輸出系統(tǒng)706還可以包括輸入輸出控制器710以用于接收和處理來自鍵盤、鼠標、或電子觸控筆等多個其他設備的輸入。類似地,輸入輸出控制器710還提供輸出到顯示屏、打印機或其他類型的輸[0186]所述大容量存儲設備707通過連接到系統(tǒng)總線705的大容量存儲控制器(未示出)連接到中央處理單元701。所述大容量存儲設備707及其相關聯(lián)的計算機可讀介質為計算機設備700提供非易失性存儲。也就是說,所述大容量存儲設備707可以包括諸如硬盤或者驅動器之類的計算機可讀介質(未示出)。[0187]不失一般性,所述計算機可讀介質可以包括計算機存儲介質和通信介質。計算機存儲介質包括以用于存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質。計算機存儲介質包括存或其他固態(tài)存儲其技術,只讀光盤(CompactDiscRead-Only用光盤(DigitalVersatileDisc,DVD)或其他光學存儲、磁帶盒、磁帶性存儲設備。當然,本領域技術人員可知所述計算機存儲介質不局限于上述幾

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論