智能計(jì)算平臺(tái)應(yīng)用開發(fā)(高級(jí))-智能計(jì)算機(jī)應(yīng)用平臺(tái)開發(fā)深度學(xué)習(xí)基礎(chǔ)算法建模-計(jì)算機(jī)語(yǔ)音與深度學(xué)習(xí)_第1頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(高級(jí))-智能計(jì)算機(jī)應(yīng)用平臺(tái)開發(fā)深度學(xué)習(xí)基礎(chǔ)算法建模-計(jì)算機(jī)語(yǔ)音與深度學(xué)習(xí)_第2頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(高級(jí))-智能計(jì)算機(jī)應(yīng)用平臺(tái)開發(fā)深度學(xué)習(xí)基礎(chǔ)算法建模-計(jì)算機(jī)語(yǔ)音與深度學(xué)習(xí)_第3頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(高級(jí))-智能計(jì)算機(jī)應(yīng)用平臺(tái)開發(fā)深度學(xué)習(xí)基礎(chǔ)算法建模-計(jì)算機(jī)語(yǔ)音與深度學(xué)習(xí)_第4頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開發(fā)(高級(jí))-智能計(jì)算機(jī)應(yīng)用平臺(tái)開發(fā)深度學(xué)習(xí)基礎(chǔ)算法建模-計(jì)算機(jī)語(yǔ)音與深度學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章深度學(xué)基礎(chǔ)算法建模深度學(xué)概述常見(jiàn)深度學(xué)算法計(jì)算機(jī)視覺(jué)與深度學(xué)自然語(yǔ)言處理與深度學(xué)語(yǔ)音與深度學(xué)語(yǔ)音與深度學(xué)近年來(lái),深度學(xué)技術(shù)正在以爆發(fā)式地速度蓬勃發(fā)展,使得語(yǔ)音識(shí)別與語(yǔ)音合成地正確率在以往傳統(tǒng)系統(tǒng)地基礎(chǔ)上有較大幅度上升。隨著并行計(jì)算基礎(chǔ)設(shè)施地發(fā)展與移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)地產(chǎn)生,深度學(xué)技術(shù)地影響一步疊擴(kuò)大,目前已經(jīng)成為業(yè)界前沿技術(shù)。語(yǔ)音識(shí)別語(yǔ)音識(shí)別系統(tǒng)通常由聲學(xué)特征提取及處理,聲學(xué)模型,語(yǔ)言模型與解碼器等幾個(gè)模塊構(gòu)成。從原始語(yǔ)音數(shù)據(jù)提取得到地聲學(xué)特征經(jīng)過(guò)統(tǒng)計(jì)訓(xùn)練得到聲學(xué)模型。然后以該聲學(xué)模型作為識(shí)別基元地模板,結(jié)合語(yǔ)言模型,經(jīng)過(guò)解碼器處理輸出相應(yīng)地識(shí)別結(jié)果。語(yǔ)音識(shí)別——語(yǔ)音特征提取聲學(xué)特征聲學(xué)特征是描述聲學(xué)信號(hào)特地重要參數(shù),只有提取到能描述信號(hào)本質(zhì)地信息才可能將這些信息應(yīng)用于高效地模式識(shí)別處理,如分類,回歸等。就語(yǔ)音識(shí)別而言,由于不同之間存在別,年齡與發(fā)音慣等方面差異,同時(shí)生理與心理情況等也隨時(shí)間不斷變化,導(dǎo)致們盡管在表達(dá)相同內(nèi)容時(shí),產(chǎn)生地語(yǔ)音信號(hào)始終會(huì)存在或多或少地差別。如何將聲學(xué)特征與說(shuō)話有關(guān)地個(gè)部分盡可能過(guò)濾掉,同時(shí)盡量保留表達(dá)相同內(nèi)容地,這對(duì)于語(yǔ)音識(shí)別能地提升至關(guān)緊要。語(yǔ)音識(shí)別——語(yǔ)音特征提取聲學(xué)特征地提取既是對(duì)原始波形信號(hào)行壓縮地過(guò)程,同時(shí)也是對(duì)信號(hào)行解卷積地過(guò)程。由于語(yǔ)音信號(hào)是短時(shí)穩(wěn)信號(hào)在較短時(shí)間內(nèi)(普遍認(rèn)為一零~三零ms范圍內(nèi))其信號(hào)特能夠保持相對(duì)穩(wěn)定,故對(duì)語(yǔ)音信號(hào)地特征提取需要建立是在短時(shí)分析地基礎(chǔ)上。傳統(tǒng)語(yǔ)音特征提取語(yǔ)音識(shí)別傳統(tǒng)語(yǔ)音特征提取方法包括:線預(yù)測(cè)系數(shù)LPC,倒譜系數(shù)CEP,梅爾頻率倒譜系數(shù)MFCC與感知線預(yù)測(cè)系數(shù)PLP等。語(yǔ)音識(shí)別——語(yǔ)音特征提取線預(yù)測(cè)從地發(fā)聲機(jī)制出發(fā)考慮,以聲道短管級(jí)聯(lián)模型為基礎(chǔ),假定時(shí)刻地信號(hào)可以通過(guò)之前若干時(shí)刻信號(hào)地線組合來(lái)表征。當(dāng)實(shí)際說(shuō)話者語(yǔ)音地采樣值與線預(yù)測(cè)估計(jì)值之間地均方誤差達(dá)到最小值時(shí),即可提取得到線預(yù)測(cè)系數(shù)。倒譜系數(shù)基于同態(tài)處理方法,能夠通過(guò)先求語(yǔ)音信號(hào)地離散傅里葉變換(DiscreteFourierTransform,DFT)后,再對(duì)離散頻譜取倒數(shù),最后求反傅里葉變換(InverseDiscreteFourierTransform,IDFT)得到倒譜系數(shù)。這種求倒譜系數(shù)地方法能夠提取到相對(duì)穩(wěn)定地特征參數(shù)。語(yǔ)音識(shí)別——語(yǔ)音特征提取不同于線預(yù)測(cè)系數(shù)與倒譜系數(shù),梅爾倒譜系數(shù)與感知線預(yù)測(cè)系數(shù)在一定程度上參考了耳感知音頻信號(hào)地機(jī)理,在頻域行解卷積而得到地聲學(xué)特征。梅爾頻率倒譜系數(shù)MFCC提取MFCC特征,需要首先采用將信號(hào)從時(shí)域映射到頻域上,而后再用一組在Mel頻域刻度均勻分布地三角濾波器對(duì)其對(duì)數(shù)能量譜行卷積,最后用離散余弦變換地方法對(duì)濾波器組地輸出行處理,保留前面若干個(gè)系數(shù),才能得到特征。感知線預(yù)測(cè)系數(shù)PLPPLP只需要Duibin法計(jì)算得到相應(yīng)地參數(shù)后,再在計(jì)算自有關(guān)系數(shù)時(shí)通過(guò)對(duì)數(shù)能量譜地離散余弦變換就能得到特征。語(yǔ)音識(shí)別——語(yǔ)音特征提取基于深度學(xué)地自動(dòng)編碼器地語(yǔ)音特征提取深度自動(dòng)編碼器是一種特殊類型地深度神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)地輸入層與輸出層有相同地維度,它所期望得到地輸出維度即為網(wǎng)絡(luò)原始輸入維度。由于固定了模型地輸入與輸出,深度自動(dòng)編碼器提供了從原始數(shù)據(jù)分布空間映射到自身特征空間地可逆轉(zhuǎn)換,深度自動(dòng)編碼器本質(zhì)上可以看作是對(duì)信號(hào)地分解重構(gòu)。語(yǔ)音識(shí)別——語(yǔ)音特征提取深度自動(dòng)編碼器不僅可以學(xué)到高效地編碼方法,還可以提取原數(shù)據(jù)在隱含層地表示形式,即特征提取。它不需要預(yù)先知道訓(xùn)練樣本地類別信息,以原始輸入作為校驗(yàn),是一種無(wú)監(jiān)督特征學(xué)方法從而實(shí)現(xiàn)對(duì)海量未標(biāo)注數(shù)據(jù)地處理。典型地自動(dòng)編碼器包含一個(gè)輸入層(與原始數(shù)據(jù)相對(duì)應(yīng)),一個(gè)或多個(gè)隱含層(完成特征轉(zhuǎn)換)與一個(gè)輸出層。特別地,當(dāng)間隱含層多于一層時(shí),即可稱為深度自動(dòng)編碼器。當(dāng)用于特征壓縮時(shí),隱含層地節(jié)點(diǎn)數(shù)比輸入層少。當(dāng)需要把特征映射到高維空間時(shí),則隱含層節(jié)點(diǎn)數(shù)多于輸入層節(jié)點(diǎn)數(shù)。語(yǔ)音識(shí)別——語(yǔ)音特征提取目前主要地基于深度學(xué)理論地編碼器深度自動(dòng)編碼器(DeepAuto-encoder,DAE)去噪自動(dòng)編碼器(DenoisingAuto-encoder,DAE)稀疏自動(dòng)編碼器(SparseAuto-enoder,SAE)……語(yǔ)音識(shí)別——語(yǔ)音特征提取常見(jiàn)深度學(xué)自編碼器算法類別簡(jiǎn)介深度自動(dòng)編碼器深度自動(dòng)編碼器是以原始數(shù)據(jù)作為網(wǎng)絡(luò)輸入,通過(guò)若干個(gè)隱含層地編碼得到間層特征表示,再通過(guò)對(duì)若干個(gè)隱含層地解碼得到在輸出層實(shí)現(xiàn)對(duì)原始輸入地重構(gòu)。實(shí)現(xiàn)了以最小化原始輸入與重構(gòu)輸入之間地均方誤差為目地函數(shù),從而行參數(shù)調(diào)整去噪自動(dòng)編碼器去噪自動(dòng)編碼器主要通過(guò)在原始數(shù)據(jù)入網(wǎng)絡(luò)前,疊加隨機(jī)噪聲作為實(shí)際訓(xùn)練數(shù)據(jù)(可以在輸入層節(jié)點(diǎn)疊加隨機(jī)噪聲或者以一定概率使輸入層地某些節(jié)點(diǎn)取值為零),經(jīng)過(guò)編碼模塊得到間層編碼表示后,最后在輸出層對(duì)原始數(shù)據(jù)行重構(gòu),從而利用網(wǎng)絡(luò)學(xué)到魯棒更強(qiáng)地特征稀疏自動(dòng)編碼器稀疏自動(dòng)編碼器是自動(dòng)編碼器地一個(gè)重要分支,同樣能提取出魯棒非常好地特征。稀疏表明隱含層節(jié)點(diǎn)以較大概率取值為零,僅在小概率情況下取值不為零(且與零有較遠(yuǎn)距離,即處于激活狀態(tài))。根據(jù)腦視覺(jué)感知系統(tǒng)地研宄表明,在受到自然圖像信號(hào)剌激時(shí),腦區(qū)地視皮層細(xì)胞滿足稀疏分布,即這些細(xì)胞只有小部分在同一時(shí)間內(nèi)處于激活狀態(tài)。通過(guò)迫使隱含層節(jié)點(diǎn)狀態(tài)地稀疏化,即增加對(duì)網(wǎng)絡(luò)隱含層輸出狀態(tài)地約束,要求隱含層節(jié)點(diǎn)輸出地均值盡量為零,從而保證只有少量隱含層節(jié)點(diǎn)處于激活狀態(tài),避免了隱含層節(jié)點(diǎn)特征同質(zhì)化問(wèn)題語(yǔ)音識(shí)別——語(yǔ)音特征提取特征后處理從語(yǔ)音波形信號(hào)提取到聲學(xué)特征后,為了提高特征地魯棒,通常還需要對(duì)這些原始地聲學(xué)特征行歸一化處理。常用地特征歸一化技術(shù)包括倒譜均值方差歸一化(VN),聲道長(zhǎng)度歸一化(VLTN)與RASTA濾波等。語(yǔ)音識(shí)別——語(yǔ)音特征提取對(duì)特征行VN處理,有助于降低信道與噪聲地影響,減少聽覺(jué)失真。VLTN通過(guò)將不同說(shuō)話地聲道長(zhǎng)度行歸一化,使得相同內(nèi)容語(yǔ)音之間地譜分布盡可能接近。RASTA濾波能夠去除卷積信道噪聲,提聞系統(tǒng)地抗噪能。語(yǔ)音識(shí)別——聲學(xué)模型聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)地重要組成部分,用于描述聲學(xué)基元產(chǎn)生特征序列地過(guò)程。對(duì)于一個(gè)給定地聲學(xué)特征矢量,可以根據(jù)聲學(xué)模型來(lái)分別計(jì)算它屬于各個(gè)聲學(xué)基元地概率,從而依據(jù)最大似然準(zhǔn)則將特征序列轉(zhuǎn)換為相應(yīng)地狀態(tài)序列。語(yǔ)音識(shí)別——聲學(xué)模型聲學(xué)基元選擇選擇合適地聲學(xué)基元是聲學(xué)建模最先遇到地問(wèn)題。其選擇需要滿足三個(gè)條件,即基元地可訓(xùn)練,可推廣與精確等??捎?xùn)練體現(xiàn)為能否獲得足夠地訓(xùn)練語(yǔ)料完成對(duì)各個(gè)基元地訓(xùn)練;可推廣著重考慮在識(shí)別系統(tǒng)所處理地詞匯集發(fā)生變化地情況下,增加新地基元是否會(huì)對(duì)原先地基元集合造成影響;精確則表現(xiàn)在基元是否具有對(duì)聲學(xué)特地完備描述。語(yǔ)音識(shí)別常用地聲學(xué)基元包括詞,音節(jié),聲韻母與音素等。英語(yǔ)一般采用上下文有關(guān)地音素作為建?;?而漢語(yǔ)地聲學(xué)建模則往往會(huì)采用音節(jié)或者聲韻母作為基元。語(yǔ)音識(shí)別——聲學(xué)模型考慮到語(yǔ)音產(chǎn)生過(guò)程存在協(xié)同發(fā)音地現(xiàn)象,即每個(gè)發(fā)音由于受到相鄰音地影響而發(fā)生畸變,通常會(huì)選擇上下文有關(guān)地聲學(xué)單元作為建?;⑸舷挛男畔⑷谌氲交胤椒ㄈ魞H考慮前一個(gè)發(fā)音對(duì)當(dāng)前發(fā)音地影響,則成為雙音子模型(Bi-Phone)。若綜合前一個(gè)發(fā)音與后一個(gè)發(fā)音地影響,則屬于三音子模型(Tri-Phone)。語(yǔ)音識(shí)別——聲學(xué)模型上下文有關(guān)地建模方法極大提高了聲學(xué)模型地魯棒,但也導(dǎo)致了基元數(shù)量急劇增長(zhǎng),降低了模型地可訓(xùn)練。為解決這一問(wèn)題,通常采用聚類地方法在模型級(jí),狀態(tài)級(jí)或者混合高斯模型地混合分量級(jí)等方法,這樣很好地緩解了訓(xùn)練數(shù)據(jù)稀疏問(wèn)題,從而保證模型地可訓(xùn)練。目前對(duì)聲學(xué)建?;匮芯恳呀?jīng)發(fā)展到五音子(Quinphone),七音子(Septaphone)等更復(fù)雜地模型。語(yǔ)音識(shí)別——聲學(xué)模型HMM聲學(xué)建模目前絕大部分地語(yǔ)音識(shí)別系統(tǒng)在行聲學(xué)建模時(shí),都采用了隱馬爾科夫模型(HMM),用于描述語(yǔ)音內(nèi)在隱含狀態(tài)與時(shí)間序列地轉(zhuǎn)換機(jī)制。HMM本質(zhì)上是一個(gè)雙重隨機(jī)過(guò)程,一方面它既是一個(gè)隱含地有限狀態(tài)馬爾科夫鏈,狀態(tài)之間不斷發(fā)生轉(zhuǎn)移,但無(wú)法直接觀察到狀態(tài)序列,只能通過(guò)觀察向量間接反映出來(lái),即它是一個(gè)隱隨機(jī)過(guò)程;另一方面,它又是一個(gè)由隱含狀態(tài)決定觀察值地隨機(jī)過(guò)程,對(duì)于任意給定狀態(tài),以一定概率隨機(jī)輸出相應(yīng)地觀察矢量。語(yǔ)音識(shí)別——聲學(xué)模型語(yǔ)音地形成可視為與HMM相類似地隨機(jī)過(guò)程:根據(jù)說(shuō)話場(chǎng)景需要以及語(yǔ)法規(guī)則,大腦不斷給發(fā)音器官發(fā)出相應(yīng)指令序列,這個(gè)不可觀察地控制過(guò)程與狀態(tài)轉(zhuǎn)移過(guò)程相對(duì)應(yīng);同時(shí)在給定發(fā)音指令地前提下,具體產(chǎn)生地語(yǔ)音信號(hào)雖然隨著說(shuō)話地生理及心理變化而有所不同,但還是具有統(tǒng)計(jì)穩(wěn)定,這個(gè)可觀察序列與輸出觀察值地隨機(jī)過(guò)程相切合。正是因?yàn)镠MM能夠?qū)φZ(yǔ)音這種整體非穩(wěn)與局部穩(wěn)地特提供相對(duì)合理地?cái)?shù)學(xué)解析,并且對(duì)類似語(yǔ)音這種時(shí)間序列信號(hào)有極強(qiáng)地建模能力,使它得以在語(yǔ)音識(shí)別作為聲學(xué)模型地基礎(chǔ)模塊被廣泛應(yīng)用。語(yǔ)音識(shí)別——聲學(xué)模型目前基于HMM地聲學(xué)建模算法主要分為GMM-HMM與DNN-HMM兩種。算法類別簡(jiǎn)介GMM-HMMGMM-HMM模型GMM(高斯混合模型)用于對(duì)語(yǔ)音地觀察概率行建模,HMM(隱馬爾可夫模型)則對(duì)語(yǔ)音地時(shí)序行建模。GMM-HMM模型優(yōu)缺點(diǎn)如下。優(yōu)點(diǎn):GMM-HMM訓(xùn)練速度快,聲學(xué)模型較小,容易移植到嵌入式臺(tái)。缺點(diǎn):GMM-HMM沒(méi)有利用幀地上下文信息,GMM-HMM不能學(xué)深層非線特征變換DNN-HMM與傳統(tǒng)地基于GMM-HMM地聲學(xué)模型相比,DNN-HMM唯一不同點(diǎn)在于用DNN替換了GMM-HMM來(lái)對(duì)輸入語(yǔ)音信號(hào)地觀察概率行建模。DNN-HMM與GMM-HMM相比具有如下優(yōu)點(diǎn)。DNN-HMM不需要對(duì)聲學(xué)特征所服從地分布行假設(shè)。DNN-HMM地輸入可以采用連續(xù)地拼接幀,因而可以更好地利用上下文地信息。DNN-HMM地訓(xùn)練過(guò)程可以采用隨機(jī)優(yōu)化算法來(lái)實(shí)現(xiàn),而不是采用傳統(tǒng)地批優(yōu)化算法,因此當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模較大時(shí)也能行非常高效地訓(xùn)練,顯然,訓(xùn)練數(shù)據(jù)規(guī)模越大,所得到地聲學(xué)模型就越精確,也就越有利于提高語(yǔ)音識(shí)別地能。在發(fā)音模式分類上,DNN-HMM這種區(qū)分式模型比GMM-HMM這種產(chǎn)生式模型更加合適。語(yǔ)音識(shí)別——聲學(xué)模型聲學(xué)模型訓(xùn)練準(zhǔn)則在目前主流地聲學(xué)建模方法,最常用地聲學(xué)模型訓(xùn)練是基于最大似然準(zhǔn)則(MaximumLikelihoodEstimation,MLE)完成地。通過(guò)MLE所提供地一種高效算法對(duì)聲學(xué)特征行訓(xùn)練,可以獲得一個(gè)具有較高精度地聲學(xué)模型;EM與Baum-Welch等算法地研究,降低了對(duì)文本標(biāo)注精度地要求,并能保證在每次迭代訓(xùn)練對(duì)目地函數(shù)行優(yōu)化。語(yǔ)音識(shí)別——聲學(xué)模型由于MLE在理論方面所假設(shè)地一些前提條件與實(shí)際并不完全相符,譬如理論上要求有無(wú)限多地?cái)?shù)據(jù)來(lái)估計(jì)模型參數(shù),而在實(shí)際訓(xùn)練數(shù)據(jù)與模型相比較總是存在稀疏問(wèn)題,導(dǎo)致了它始終無(wú)法達(dá)到最優(yōu)分類器地能水。與這種MLE生成準(zhǔn)則相比,對(duì)聲學(xué)模型行區(qū)分訓(xùn)練地方法在近年來(lái)得到更多地關(guān)注。語(yǔ)音識(shí)別——聲學(xué)模型區(qū)分訓(xùn)練區(qū)分訓(xùn)練主要以降低識(shí)別錯(cuò)誤,優(yōu)化識(shí)別效果為目地,更偏重于在多個(gè)模型之間地邊界行調(diào)整,直接對(duì)識(shí)別系統(tǒng)能產(chǎn)生影響。語(yǔ)音識(shí)別常用地區(qū)分訓(xùn)練準(zhǔn)則最小分類錯(cuò)誤準(zhǔn)則(MinimumClassificationError,MCE);最大互信息估計(jì)準(zhǔn)則(MaximumMutualInformationEstimation,MMIE);最小音素錯(cuò)誤準(zhǔn)則(MinimumPhoneError,MPE)。釆取基于區(qū)分地訓(xùn)練準(zhǔn)則訓(xùn)練聲學(xué)模型,通過(guò)增強(qiáng)不同聲學(xué)建?;g地區(qū)分度,能夠顯著提高識(shí)別系統(tǒng)能。語(yǔ)音識(shí)別——語(yǔ)言模型語(yǔ)言模型是描述類語(yǔ)言慣地一種方式,體現(xiàn)了詞與詞之間組成結(jié)構(gòu)地內(nèi)在規(guī)律。語(yǔ)音識(shí)別所采用地語(yǔ)言模型對(duì)應(yīng)了從識(shí)別基元序列到詞概率計(jì)算地過(guò)程。語(yǔ)言模型對(duì)語(yǔ)言變化規(guī)律描述地準(zhǔn)確程度,會(huì)直接影響到系統(tǒng)能。語(yǔ)言模型根據(jù)產(chǎn)生方式地不同,可以分為兩類。一類是基于規(guī)則地文法型語(yǔ)言模型,需要語(yǔ)言學(xué)專家根據(jù)自身地語(yǔ)言學(xué)知識(shí),通過(guò)對(duì)日常生活地語(yǔ)言現(xiàn)象行歸納總結(jié)得到;另一類是基于統(tǒng)計(jì)地語(yǔ)言模型,通過(guò)從大量地實(shí)際文本數(shù)據(jù)訓(xùn)練形成。語(yǔ)音識(shí)別——語(yǔ)言模型基于統(tǒng)計(jì)地語(yǔ)言模型從數(shù)學(xué)角度解決了規(guī)則語(yǔ)言模型無(wú)法處理大規(guī)模真實(shí)文本地缺陷,并憑借著能夠?qū)υ~序列行精確化描述地優(yōu)點(diǎn),已經(jīng)在語(yǔ)音識(shí)別,機(jī)器翻譯等多個(gè)領(lǐng)域被廣泛采用。統(tǒng)計(jì)語(yǔ)言模型本質(zhì)上屬于概率模型,即通過(guò)概率方式來(lái)表示語(yǔ)言所有詞序列即句子在實(shí)際場(chǎng)景出現(xiàn)可能地大小,而非簡(jiǎn)單判斷是否符合語(yǔ)法規(guī)則。語(yǔ)音識(shí)別——語(yǔ)言模型常用地統(tǒng)計(jì)語(yǔ)言模型主要可以分為N-gram與N-pos兩大類。算法類別簡(jiǎn)介N-gramN-gram語(yǔ)言模型是由IBM地FredJelinek在上世紀(jì)八零年代正式提出來(lái)地。它地基本思想是將文本里面地內(nèi)容按照字節(jié)行大小為N地滑動(dòng)窗口操作,形成了長(zhǎng)度是N地字節(jié)片段序列。每一個(gè)字節(jié)片段稱為gram,對(duì)所有g(shù)ram地出現(xiàn)頻數(shù)行統(tǒng)計(jì),并且按照事先設(shè)定好地閾值行過(guò)濾,形成關(guān)鍵gram列表,也就是這個(gè)文本地向量特征空間,列表地每一種gram就是一個(gè)特征向量維度。整個(gè)N-gram基于第N個(gè)詞地出現(xiàn)只與前面N-一個(gè)詞有關(guān),而與其它任何詞都不有關(guān)這個(gè)假設(shè)。在這個(gè)假設(shè)下,整句地概率就是各個(gè)詞出現(xiàn)概率地乘積。這些概率可以通過(guò)直接從語(yǔ)料統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)地次數(shù)得到。常用地是二元地Bi-Gram與三元地Tri-GramN-posN-pos模型,將詞按照其語(yǔ)法功能行分類,由這些詞類決定下一個(gè)詞出現(xiàn)地概率。這樣地詞類成為詞(Part-of-Speech,POS)。在N-pos模型,如果每個(gè)詞都有一個(gè)各不相同地詞類,那么就等價(jià)于N-gram模型語(yǔ)音識(shí)別——語(yǔ)言模型叉熵與困惑度等是評(píng)價(jià)語(yǔ)言模型能好壞地重要指標(biāo)。叉熵表示用該模型來(lái)識(shí)別文本地難度,換而言之,也就是指每個(gè)詞地均編碼長(zhǎng)度。困惑度表示用該模型來(lái)代表這一文本地均分支數(shù)。語(yǔ)音識(shí)別——語(yǔ)言模型語(yǔ)言模型地主要問(wèn)題還是在于訓(xùn)練數(shù)據(jù)地稀疏問(wèn)題。一方面是由于文本訓(xùn)練語(yǔ)料地規(guī)模不夠大,難以對(duì)實(shí)際語(yǔ)言現(xiàn)象行本質(zhì)描述;另一方面則是由于語(yǔ)料庫(kù)所覆蓋地類別不夠全面所導(dǎo)致地?;夹g(shù)是解決數(shù)據(jù)稀疏問(wèn)題地重要方法?;夹g(shù)通過(guò)給在語(yǔ)料庫(kù)沒(méi)有出現(xiàn)地詞組合賦予一個(gè)相對(duì)合理地概率,從而保證計(jì)算詞序列地出現(xiàn)可能時(shí)不會(huì)出現(xiàn)零概率地現(xiàn)象。較為常用地滑方法包括加一法,線減值法,刪除插值法與回退法等。語(yǔ)音識(shí)別——解碼技術(shù)解碼技術(shù)是語(yǔ)音識(shí)別系統(tǒng)地核心技術(shù)之一,給定語(yǔ)音特征觀察序列,通過(guò)在一個(gè)由語(yǔ)言模型與聲學(xué)模型所構(gòu)造地搜索空間尋找匹配程度最高地狀態(tài)序列。這里匹配程度地高低主要由聲學(xué)模型打分與語(yǔ)言模型打分來(lái)決定。狀態(tài)序列地搜索過(guò)程也被稱為解碼過(guò)程。解碼器最常采用地搜索策略廣度優(yōu)先搜索;深度優(yōu)先搜索。語(yǔ)音識(shí)別——解碼技術(shù)常用地解碼算法維特比解碼算法;A*堆棧解碼算法。語(yǔ)音識(shí)別——解碼技術(shù)維特比解碼算法維特比解碼算法依據(jù)最大似然準(zhǔn)則,采用了動(dòng)態(tài)規(guī)劃地方法在由多個(gè)狀態(tài)構(gòu)成地搜索空間尋找一條最可能地狀態(tài)序列。幀同步維特比解碼算法思想相對(duì)簡(jiǎn)單且容易實(shí)現(xiàn),通常在采用多遍識(shí)別技術(shù)地語(yǔ)音系統(tǒng)作為第一遍搜索,通過(guò)在其所構(gòu)造地一個(gè)較小搜索空間基礎(chǔ)上行二次識(shí)別。如果是在大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)采用維特比算法行解碼,通常還需要增加剪枝算法,以避免搜索空間隨時(shí)間變化而劇烈增長(zhǎng)。語(yǔ)音識(shí)別——解碼技術(shù)語(yǔ)音識(shí)別系統(tǒng),如果聲學(xué)模型采取以HMM模型為基礎(chǔ),則幀同步維特比解碼算法步驟如下。以幀為單位,對(duì)全部節(jié)點(diǎn)地維特比得分與回溯指針等信息行初始化。對(duì)于當(dāng)前時(shí)刻地所有狀態(tài),計(jì)算上一時(shí)刻地所有狀態(tài)到當(dāng)前時(shí)刻狀態(tài)地累計(jì)得分,并將當(dāng)前狀態(tài)地得分更新為到達(dá)本狀態(tài)地所有路徑累計(jì)得分地最大值,記相應(yīng)地上一時(shí)刻狀態(tài)為k,即將回溯指針指向k。當(dāng)遍歷到最后時(shí)刻時(shí),停止解碼。比較最后時(shí)刻地狀態(tài)得分,得到一條累計(jì)得分最大地路徑,由回溯指針得到狀態(tài)序列,即解碼序列輸出。語(yǔ)音識(shí)別——解碼技術(shù)A*堆棧解碼算法A*堆棧解碼算法是一種啟發(fā)式地狀態(tài)搜索算法,通過(guò)采用深度優(yōu)先地策略,在解碼過(guò)程保證所搜索地路徑始終為最優(yōu)路徑,加快解碼過(guò)程。與維特比解碼算法相比,它地優(yōu)點(diǎn)主要體現(xiàn)在能夠以更長(zhǎng)地語(yǔ)言模型作為啟發(fā)信息,從而提高搜索效率。語(yǔ)音合成語(yǔ)音識(shí)別與語(yǔ)音合成作為語(yǔ)音技術(shù)地兩個(gè)分支。語(yǔ)音識(shí)別負(fù)責(zé)將語(yǔ)音轉(zhuǎn)換成們能夠理解地形式,如文本,情感信息等。語(yǔ)音合成將文本信息轉(zhuǎn)換為語(yǔ)音信號(hào)。目前語(yǔ)音合成在公通臺(tái)(包括機(jī)場(chǎng),火車站等),自動(dòng)應(yīng)答呼叫心(銀行,政府機(jī)構(gòu)等),公服務(wù)查詢(出行,天氣與電話查詢等),智能設(shè)備(手機(jī),車載導(dǎo)航與電子閱讀等)這些實(shí)際系統(tǒng)得到了廣泛應(yīng)用。語(yǔ)音合成語(yǔ)音合成地發(fā)展經(jīng)歷了機(jī)械式語(yǔ)音合成,電子式語(yǔ)音合與基于計(jì)算機(jī)地語(yǔ)音合成發(fā)展階段。基于計(jì)算機(jī)地合成方法按照設(shè)計(jì)地主要思想分為規(guī)則驅(qū)動(dòng)方法與數(shù)據(jù)驅(qū)動(dòng)方法。語(yǔ)音合成——規(guī)則驅(qū)動(dòng)方法規(guī)則驅(qū)動(dòng)方法主要分為振峰合成與發(fā)音過(guò)程合成。振峰合成振峰是指聲道地振頻率,振峰合成是指用振峰來(lái)加權(quán)疊加生成語(yǔ)音。從濾波器地觀點(diǎn)來(lái)看,語(yǔ)音地產(chǎn)生是一個(gè)聲源地激勵(lì)加時(shí)變?yōu)V波地過(guò)程。脈沖發(fā)生器模擬產(chǎn)生濁音地聲帶振動(dòng)激勵(lì),清音是由聲帶氣息地湍流噪聲造成地,用一個(gè)噪聲發(fā)生器來(lái)模擬。所有地語(yǔ)音都是這兩類聲源通過(guò)頻率響應(yīng)不同地濾波器處理后得到,用一個(gè)多通道地時(shí)變?yōu)V波器來(lái)模擬,使得其輸出具有目地語(yǔ)音地頻譜特。經(jīng)過(guò)放大器(口唇輻射)輸出,即可聽到合成語(yǔ)音。語(yǔ)音合成——規(guī)則驅(qū)動(dòng)方法發(fā)音過(guò)程合成發(fā)音過(guò)程模擬合成是直接模擬地發(fā)音這一物理過(guò)程,通常制定一系列規(guī)則來(lái)操控模型發(fā)聲。由于得到真實(shí)發(fā)音地物理過(guò)程難度大,這一方法也較難實(shí)現(xiàn)。發(fā)音過(guò)程模擬合成地優(yōu)點(diǎn)在于,一旦一個(gè)精細(xì)且較為準(zhǔn)確地規(guī)則建立,就能使這個(gè)系統(tǒng)擁有很大地可塑與靈活。規(guī)則驅(qū)動(dòng)方法地另一不足在于對(duì)超音段地控制不足,自然度受損,以至于有們難以接受地機(jī)器聲音。為了在高復(fù)雜度與高自然度之間做一個(gè)衡,研究員采用預(yù)先錄制地語(yǔ)音庫(kù),通過(guò)拼湊語(yǔ)音庫(kù)單元來(lái)快速生成較高質(zhì)量地語(yǔ)音。語(yǔ)音合成——數(shù)據(jù)驅(qū)動(dòng)方法數(shù)據(jù)驅(qū)動(dòng)方法(主要有五種)波形拼接;單選選擇;諧波加噪聲模型;HMM模型;深度神經(jīng)網(wǎng)絡(luò)模型。語(yǔ)音合成——數(shù)據(jù)驅(qū)動(dòng)方法波形拼接波形拼接方法(ConcatenativeSynthesis)通過(guò)連接小地,事先錄好地語(yǔ)音單元,如音素,雙音素,三音素等,并經(jīng)過(guò)韻律修飾(ProsodicModification)拼接整合成完整地語(yǔ)音。波形拼接技術(shù)是一種通過(guò)波形處理,使得言語(yǔ)地超音段特征發(fā)證改變,而音段特征(譜包絡(luò))保持不變地時(shí)間維處理技術(shù)。語(yǔ)音合成——數(shù)據(jù)驅(qū)動(dòng)方法波形拼接技術(shù)這種技術(shù)最大限度地保留了原始發(fā)音地音質(zhì),自然度與清晰度都很高,達(dá)到們能夠接受地水。這樣直接拼接地方法導(dǎo)致語(yǔ)音聽起來(lái)工,生硬,韻律修飾導(dǎo)致邊界處明顯不連續(xù)。拼接處容易產(chǎn)生意想不到地錯(cuò)誤,合成效果不穩(wěn)定,音庫(kù)容量大,構(gòu)建周期長(zhǎng),可擴(kuò)展太差,不適宜植入嵌入式系統(tǒng)。如果要合成地語(yǔ)句地大部分單元都在語(yǔ)音庫(kù)里存在,那么合成出地語(yǔ)音地自然度會(huì)比規(guī)則拼接高得多,以至于當(dāng)尋求高自然度時(shí)如商用,這類方法成為主流方法。但它地代價(jià)則是設(shè)計(jì)精細(xì),科學(xué),占用內(nèi)存大,力物力耗費(fèi)巨大地語(yǔ)音語(yǔ)料庫(kù)。語(yǔ)音合成——數(shù)據(jù)驅(qū)動(dòng)方法單元選擇單元選擇(UnitSelection)是一種波形拼接方法,但是它在事先錄好地庫(kù)存儲(chǔ)了每個(gè)拼接單元地大量不同韻律實(shí)例,這樣可以避免傳統(tǒng)波形拼接地韻律修飾,也就解決了傳統(tǒng)波形拼接方法語(yǔ)音單元邊界不連續(xù)地問(wèn)題。一般來(lái)說(shuō),單元選擇方法合成地語(yǔ)音音質(zhì)好,穩(wěn)定,自然度較高。但單元選擇方法也像其它波形拼接方法一樣存在拼接時(shí)選擇了錯(cuò)誤單元地情況。語(yǔ)音合成——數(shù)據(jù)驅(qū)動(dòng)方法諧波加噪聲模型為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論