【《基于深度學習語音識別中語言模型的分析與實現(xiàn)案例報告》2500字(論文)】_第1頁
【《基于深度學習語音識別中語言模型的分析與實現(xiàn)案例報告》2500字(論文)】_第2頁
【《基于深度學習語音識別中語言模型的分析與實現(xiàn)案例報告》2500字(論文)】_第3頁
【《基于深度學習語音識別中語言模型的分析與實現(xiàn)案例報告》2500字(論文)】_第4頁
【《基于深度學習語音識別中語言模型的分析與實現(xiàn)案例報告》2500字(論文)】_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

基于深度學習語音識別中語言模型的分析與實現(xiàn)案例報告目錄TOC\o"1-3"\h\u8078基于深度學習語音識別中語言模型的分析與實現(xiàn)案例報告 127614一、語言模型建模技術 124408二、構(gòu)建語言模型 122492(一)CBHG模型 28419(二)Transformer模型 327588三、優(yōu)化算法——Adam優(yōu)化器 58242四、實驗設計 528390(一)模型框架與數(shù)據(jù)集介紹 632068(二)算法實現(xiàn)調(diào)試與分析 626476(三)實驗測試結(jié)果 8一、語言模型建模技術語言模型是一種基于語言客觀事實的對應關系。語言模型與語言客觀事實之間的關系就像數(shù)學中抽象直線與具體直線之間的關系,在進行語言模型的建立時,必須對語言模型與語言客觀事實之間的關系進行確認,從而才能夠更好的輔助語言模型的建立。語言模型本身具有一定的抽象性,同時該種模型也是一種非常簡單且統(tǒng)一的模型,再進行語音模型的構(gòu)建時,需要對語音的特征以及語音的描述進行細致的分析。了解電子計算機進行語音識別的過程,以及學需要進行識別的重要要素。然后針對語音模型進行建立,對于自然語言的信息進行處理,能夠更好地提高與模型建立的意義。語言模型主要有三種類型:①生成性模型,②分析性模型,③辨識性模型。二、構(gòu)建語言模型本次設計的實驗是基于zh.tsv數(shù)據(jù)集的語音模型構(gòu)建,輸入一段測試拼音,如“yu3yan2mo2xing4”,最終能夠輸出“語音模型”的結(jié)果。本次實驗構(gòu)建的語言模型主要采用了CBHG、Transformer兩種方法,其中利用self-attention來對語音模型進行建模效果更佳。CBHG模塊善于提取序列特征,因此常被用在語音合成、語音識別上。Transformer是Google的團隊在2017年提出的一種NLP經(jīng)典模型,現(xiàn)在比較火熱的Bert也是基于Transformer。Transformer模型使用了Self-Attention機制,不采用RNN的順序結(jié)構(gòu),使得模型可以并行化訓練,而且能夠擁有全局信息。(一)CBHG模型CBHG模型最開始提出即為一種用來從序列中提取高層次特征的模塊,圖4-1為CBHG模塊示意圖。圖4-1GBHG模塊示意圖CBHG模塊使用了卷積+highway+殘差鏈接+雙向GRU的組合,輸入序列并輸出序列。圖中,卷積部分使用了K個1-D卷積核集合,卷積的寬度從1到K都存在,因此可以建模上下文信息。CBHG模塊的步驟如下:·輸入序列首先通過K1-D卷積來處理,輸入序列的K卷積核通道為k,這些卷積核可以有效地建模當前信息和上下文信息。·卷積輸出堆疊在一起,沿時間軸池最大,以增加當前信息不變性。stride取為1維持時間分辨率。·輸入多個固定寬度的一維卷積,以將輸出增加到起始輸入序列,使用批量標準化的所有卷積。·請輸入一個highway網(wǎng)絡。來提取更高級別的特征?!ぴ陧敳刻砑右粋€雙向GRU,以提取序列的上下文特征。(二)Transformer模型與大多數(shù)seq2seq模型一樣,transformer的結(jié)構(gòu)也是由encoder和decoder組成,但其結(jié)構(gòu)相比于Attention更加復雜,總體結(jié)構(gòu)圖見圖4-2。EncoderEncoder由N個相同的layer組成,layer指的是圖4-2中左側(cè)的單元,由“Nx”表示。在論文《AttentionIsAllYouNeed》中由六層構(gòu)成。每個layer層由兩個sub-layer組成,因此可以將sub-layer的輸出表示為:(4-1)·Multi-headself-attentionattention可由以下形式表示:(4-2)將不同的attention結(jié)果拼接起來:(4-3)(4-4)在針對attention的計算中,采用了scaleddot-product,即:(4-5)圖4-2Encoder和Decoder結(jié)構(gòu)圖DecoderDecoder和Encoder幾乎具有相同的結(jié)構(gòu),而不同的是,由于二者之間存在一定輸出輸入編碼的差異:·輸出:對應i位置的輸出詞的概率分布·輸入:encoder的輸出以及其對應i-1位置decoder的輸出?!そ獯a:訓練時,解碼為一次性解碼,用上一步的ground-truth預測。預測時,由于沒有ground-truth,需要一個個預測。PositionalEncoding除了主要的Encoder和Decoder,還有數(shù)據(jù)預處理的部分。Transformer拋棄了RNN,而RNN最大的優(yōu)點就是在時間序列上對數(shù)據(jù)的抽象,因此Transformer提出PositionEncoding的方式,將encoding后的數(shù)據(jù)與embedding數(shù)據(jù)求和,加入了相對位置信息。其位置計算公式如下:(4-6)(4-7)圖4-3PositionEncoding結(jié)構(gòu)圖三、優(yōu)化算法——Adam優(yōu)化器2014年12月,Kingma和LeiBa結(jié)合AdaGrad和RMSProp優(yōu)化算法的優(yōu)點,提出了Adam優(yōu)化器??紤]了梯度的一階和二階矩估計來計算更新步驟。Adam更新規(guī)則如下:(4-8)(4-9)(4-10)(4-11)(4-12)其中:——對梯度的一階矩估計和二階矩估計;——對期望的估計;——對的校正。通過上述計算方式能夠發(fā)現(xiàn),在沒有額外要求的情況下對梯度進行評估??梢愿鶕?jù)梯度的具體運動狀態(tài)進行相應的計算,在整個學習過程中采用動態(tài)約束的方法對整個計算率進行明確的范圍約束。四、實驗設計通過研究卷積網(wǎng)絡的典型結(jié)構(gòu)和模型原理,利用變壓器模型構(gòu)建端到端語言模型。利用Transformer模型搭建端到端的語言模型。本實驗使用python版本為3.6.0,tensorflow版本為1.12.0,keras版本為2.2.4。(一)模型框架與數(shù)據(jù)集介紹1.TensorFlowTensorFlow[16]是一個由GoogleBrain的研究人員和工程師團隊開發(fā)的開源軟件庫,通常用于機器學習和深度神經(jīng)網(wǎng)絡,由于其計算框架的通用性和可擴展性,TensorFlow在其他計算領域也被廣泛地應用。2.thchs30數(shù)據(jù)集THCHS30是由清華大學語音與語言技術中心(CSLT)發(fā)布的一個開放的中文語音數(shù)據(jù)庫,可用于中文語音識別系統(tǒng)的開發(fā)。該數(shù)據(jù)集的語音數(shù)據(jù)可以在一個安靜的辦公室環(huán)境中使用30多個小時。采樣頻率為16kHz,采樣大小為16bits。這個數(shù)據(jù)集包括以下內(nèi)容:數(shù)據(jù)集音頻時長(h:mm)句子數(shù)詞數(shù)train25:0010000198252dev2:1489317743test6:1589349085為了構(gòu)建一個中文ASR系統(tǒng),使用THCHS-30發(fā)布了一些額外的資源。這些資源主要包含了漢語的諸多訓練方法和模型,能夠更好的幫助中文模型的建立。實驗中采用的是data_thchs30.tgz[6.4G](speechdataandtranscripts)數(shù)據(jù)集。(二)算法實現(xiàn)調(diào)試與分析本章節(jié)實驗,利用zh.tsv為例建立一個完整的端到端的語言模型,采用Transformer的語言模型結(jié)構(gòu)。數(shù)據(jù)處理首先從zh.tsv中讀取數(shù)據(jù),并將其分為input與label兩個數(shù)組,input數(shù)組中包含例如“['lv4','shi4','yang2','chun1','yan1','jing3','da4','kuai4','wen2','zhang1','de','di3','se4','si4','yue4','de','lin2','luan2','geng4','shi4','lv4','de2','xian1','huo2','xiu4','mei4','shi1','yi4','ang4','ran2']”的拼音。對應的label則為“['綠','是','陽','春','煙','景','大','塊','文','章','的','底','色','四','月','的','林','巒','更','是','綠','得','鮮','活','秀','媚','詩','意','盎','然']”。模型搭建模型采用self-attention,具體結(jié)構(gòu)如下:圖4-4self-attention模型結(jié)構(gòu)本次算法實驗只需要搭建Transformer左側(cè)編碼器即可,忽略右側(cè)解碼器?!?gòu)建layernorm層·構(gòu)建embedding層·構(gòu)建multihead層·構(gòu)建feedforward·使用label_smoothing使用label_smoothing又利用訓練,將0變?yōu)榻咏?的小數(shù),1變?yōu)榻咏?的數(shù)。訓練模型使用以下的參數(shù)進行訓練:參數(shù)名數(shù)值num_heads8Num_blocks6Input_vocab_size50Label_vocal_size50Max_length100Hidden_units512Dropout_rate0.2lr0.0003epochs25Batch_size4模型推斷輸入測試拼音,輸出最終語句結(jié)果。例:輸入測試拼音:bi4ye4she4ji4he2yu3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論