使用HTS進行中文語音合成的研究_第1頁
使用HTS進行中文語音合成的研究_第2頁
使用HTS進行中文語音合成的研究_第3頁
使用HTS進行中文語音合成的研究_第4頁
使用HTS進行中文語音合成的研究_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

使用HTS進行中文語音合成的研究大綱簡介語料更換說明訓練資料訓練資料處理成果展示結(jié)論未來研究方向語音合成概觀單元選取合成可從語料庫取得正確的單元音質(zhì)較好合成的語音易有不連續(xù)的問題不易改變合成語音的特性基于隱藏式馬可夫模型合成從統(tǒng)計模型產(chǎn)生語音參數(shù)由參數(shù)經(jīng)編碼合成語音合成的語音較平滑與穩(wěn)定容易改變合成語音的特性HTS簡介HMM-basedSpeechSynthesisSystem(HTS)約開始于1995年,由NagoyaInstituteofTechnology發(fā)展,主要參與者為KeiichiTokuda等人。訓練階段以隱藏式馬可夫模型(HiddenMarkovModels)和決策樹對語音頻譜(spectrum)、音高(pitch)、音長(stateduration)建立模型。合成階段根據(jù)給定的文字將其HMM串接起來,透過MLSA(MelLogSpectrumApproximation)濾波器合成音檔。HTS系統(tǒng)概觀語料更換說明安裝Cygwin環(huán)境及相關(guān)工具可參考先前的說明文件.tw/users/heycat/cygwin下前置作業(yè).txtHTS-demo_CMU-ARCTIC-SLT音檔 ..\data\rawquestions檔 ..\data\questions\questions_qst001.hedlabel檔 ..\data\labels\full ..\data\labels\mono ..\data\labels\gen訓練資料盲友會有聲書--視障者視窗XP作業(yè)系統(tǒng)入門錄音者:陸瑜音檔總數(shù):1153個音檔時間長度:4小時33分50秒取樣頻率:16

kHz句數(shù):3923句字數(shù):48423字訓練資料處理將訓練的音檔透過forcedalignment取得音長、音素和聲調(diào)等信息將訓練音檔的文字送到中研院中文斷詞系統(tǒng)取得斷詞信息結(jié)合以上信息產(chǎn)生所需的label檔訓練資料A語料B語料C語料內(nèi)容盲友會有聲書視障者視窗XP作業(yè)系統(tǒng)入門新聞短句口語短句新聞口語短句錄音者陸瑜(女)不詳(男)不詳(女)聲道單聲道單聲道單聲道取樣頻率16kHz16kHz16kHz取樣分辨率16-bit16-bit16-bit時間長度4小時22分40秒1小時43分54秒4小時10分24秒句數(shù)3,976句2,601句4,873句字數(shù)46,237字27,816字62,572字音素種類Biphone模型ㄅㄚ b_a a_sil

ㄅㄛ b_u u_o o_silㄅㄧㄝ b_i i_e e_silㄅㄧㄠ b_i i_a a_u u_sil靜音(,。???:;、)sil共有165種A語料:146種 125,531個B語料:156種

79,053個C語料:156種 162,375個Label檔的格式

1/3u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4

/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1-w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2u1~u5:前前一個音素、前一個音素、目前的音素、

下一個音素、下下一個音素t1~t5:前前一個聲調(diào)、前一個聲調(diào)、目前的聲調(diào)、

下一個聲調(diào)、下下一個聲調(diào)p1:目前的音素在字里的順序(正序)p2:目前的音素在字里的順序(倒序)p3:目前的音素在詞里的順序(正序)p4:目前的音素在詞里的順序(倒序)Label檔的格式

2/3u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4

/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1-w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2c1:目前的字在詞里的順序(正序)c2:目前的字在詞里的順序(倒序)c5:目前的字含有幾個音素m1:前一個字含有幾個音素m2:下一個字含有幾個音素Label檔的格式

3/3u1^u2-u3+u4=u5/T:t1+t2-t3=t4^t5/P:p1-p2@p3-p4

/C:c1-c2#c3-c4!c5/M:m1+m2/W:w1-w2$w3;w4/N:n1+n2@n3+n4/S:s1-s2w1:目前的詞在句子里的順序(正序)w2:目前的詞在句子里的順序(倒序)w3:目前的詞含有幾個音素w4:目前的詞含有幾個字n1:前一個詞含有幾個音素n2:下一個詞含有幾個音素n3:前一個詞含有幾個字n4:下一個詞含有幾個字s2:目前的句子共有幾個詞Label檔自序

ㄗˋㄒㄩˋsilz_iiii_silx_yuyu_silsil07900000 nil^nil-sil+z_ii=ii_sil/T:5+5-5=4^4/P:1-1@1-6/C:1- 4#1-4!1/M:0+2/W:1-1$6;4/N:0+0@0+0/S:4-179000009100000 nil^sil-z_ii+ii_sil=x_yu/T:5+5-4=4^4/P:1-2@2-5/C:2- 3#2-3!2/M:1+2/W:1-1$6;4/N:0+0@0+0/S:4-1910000012100000 sil^z_ii-ii_sil+x_yu=yu_sil/T:5+4-4=4^4/P:2-1@3- 4/C:2-3#2-3!2/M:1+2/W:1-1$6;4/N:0+0@0+0/S:4-11210000014700000 z_ii^ii_sil-x_yu+yu_sil=sil/T:4+4-4=4^5/P:1-2@4- 3/C:3-2#3-2!2/M:2+1/W:1-1$6;4/N:0+0@0+0/S:4-11470000016900000 ii_sil^x_yu-yu_sil+sil=nil/T:4+4-4=5^5/P:2-1@5- 2/C:3-2#3-2!2/M:2+1/W:1-1$6;4/N:0+0@0+0/S:4-11690000025900000 x_yu^yu_sil-sil+nil=nil/T:4+4-5=5^5/P:1-1@6-1/C:4- 1#4-1!1/M:2+0/W:1-1$6;4/N:0+0@0+0/S:4-1Questions檔記載一系列的資料分群規(guī)則(questionsets),使程序在建立決策樹時,能應用label檔中所訂的各項特征進行資料分群。音素相關(guān)C-a_iC-a_C-_i聲調(diào)相關(guān)0、1、2、3、4、5(silence)韻律相關(guān)成果展示1/2周杰倫(周董)贊前女友侯佩岑是完美的女人與情人,「周侯戀」分手兩年,至今還沒遇到可進攻追求的對象,江語晨也只是緋聞名單中的過客。(2008/10/18中國時報)WebTTS HTS發(fā)揮想象力,夜空真的像展露笑顏;只不過,就天文的角度來說,看起來像眼睛的,其實是太陽系的兩大行星,左邊比較白,比較亮的是金星,右邊稍微紅一點的則是木星,宛如雙星拱月一般。(2008/12/01TVBS)WebTTSHTS成果展示2/2看到流落街頭的小貓咪,會不會動了惻隱之心帶回家呢?家住新疆的張培偉,今年五月在峽谷放牧時,看到一對全身溼答答凍得發(fā)抖的小動物,原本以為它們是草原班貓,當下決定帶回家飼養(yǎng),卻怎么也沒想到貓咪越養(yǎng)越大只,而且不吃干糧只吃肉,覺得事情不對勁了,張

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論