【《語音識別與自然語言處理算法概述》3600字】_第1頁
【《語音識別與自然語言處理算法概述》3600字】_第2頁
【《語音識別與自然語言處理算法概述》3600字】_第3頁
【《語音識別與自然語言處理算法概述》3600字】_第4頁
【《語音識別與自然語言處理算法概述》3600字】_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語音識別與自然語言處理算法概述目錄TOC\o"1-3"\h\u2332語音識別與自然語言處理算法概述 11098(一)N-gram模型 23631(二)RNNLM模型 431969(三)HMM模型 520378(四)DNN-HMM模型 628464(五)RNN模型 8自動語音識別(AutomaticSpeechRecognition,ASR),簡稱語音識別,是一種廣義的自然語言處理技術(shù),是用于人與人、人與機器進行更順暢的交流的技術(shù)。語音識別目前已使用在生活的各個方面:手機端的語音識別技術(shù),比如蘋果的siri;智能音箱助手,比如阿里的天貓精靈,還有諸如科大訊飛一系列的智能語音產(chǎn)品等等。聲音從本質(zhì)是一種波,也就是聲波,這種波可以作為一種信號來進行處理,因此,語音識別輸入信號數(shù)據(jù)就是一系列的隨時間變化的信號序列,輸出是一系列文本信息。圖SEQ圖\*ARABIC2-2語音識別的輸入與輸出語音識別就是實現(xiàn)語音片段到文本數(shù)據(jù)的轉(zhuǎn)化過程。完整的語音識別系統(tǒng)一般含有4個重要模塊,分別是信息處理模塊,語言模塊,聲學模型模塊,以及解碼搜索模塊。語言識別系統(tǒng)如下圖所示:圖2-3語音識別系統(tǒng)我們將信號處理與特征提取這個環(huán)節(jié)當做是音頻數(shù)據(jù)的預處理,一般是很難得到一段不含噪聲且高保真的語言,實際中的語言片段往往會含有一定的噪聲,因此在輸入到聲學模型以前,我們要使用預處理技術(shù)來增強信道與消除噪聲,使得信號實現(xiàn)時域到頻域的轉(zhuǎn)換,接著就是在聲學模型中將有效的特征向量實現(xiàn)有效的提取。在聲學模型中,特征向量就將變成相應的聲學模型分數(shù),同時,語言模型被自然語言處理成與RNN與n-gram類似的模型,于是就獲得了語言模型分數(shù),最后就是解碼搜索階段,綜合前面得到的語言模型分數(shù)與聲學模型分數(shù),最終的識別機構(gòu)就是分數(shù)最高的詞序列。上述就是語音識別的一般性原理。在語音識別中,語音識別的建模必不可少,由于采取的建模技術(shù)不同,其獲得的的識別性能也是不同的,因此,語音識別建模成了語音識別團隊的一個重點研究方向。于是,出現(xiàn)了各種各樣的語音識別模型,其中代表性較強的語言模型有RNNLM模型與N-gram模型等,接下來就對以上典型模型進行簡單的介紹。(一)N-gram模型N-Gram,別名N元模型,屬于一種重要的自然語言處理概念,一般在進行NLP時,我們往往都需要使用一定的語料庫,使用N-gram可以對句子的合理性進行評估。另外,N-Gram也能對兩個字符間的差異性進行評估。這都是模糊匹配的常見手段之一。N-gram模型的基本原理是基于馬爾可夫假設(shè),在訓練N-gram模型時使用最大似然估計模型參數(shù)——條件概率[1]。1.馬爾可夫假設(shè)馬爾科夫假設(shè)中很重要的一點是有限視野假設(shè),即每一個狀態(tài)只與它前面的個狀態(tài)有關(guān),這被稱為階馬爾可夫鏈。N-gram模型應用在語言模型中時,就是指每一個詞的概率只與前邊的個詞有關(guān)系,這就被稱為元語言模型,當時,被稱為二元模型,此時上述公式展開為:(2-1)經(jīng)過馬爾可夫假設(shè)的簡化,計算的概率也會變得容易很多,當然隨著的增加,相應的計算復雜度也會增加,而越大,越逼近數(shù)據(jù)的真實分布,通常取值為2、3、4、5。概率估計通過2中的描述,可以明確的是:1)每一個句子都可以拆分成不同的詞的全排列2)每一個句子都可以通過條件概率公式計算得到一個表示該句子的合理性概率3)通過引入馬爾可夫假設(shè),簡化句子的計算概率以二元模型為例,從概率統(tǒng)計中可知的計算公式為:(2-2)在大語料的情況下,基于大數(shù)定理,詞語、的共同出現(xiàn)次數(shù)除以的出現(xiàn)次數(shù)可以近似等于,所以有:(2-3)所以一般情況下,統(tǒng)計語言模型都要求語料足夠大,這樣得到的結(jié)果相對會準確一些。但當出現(xiàn)或的情況,計算出的結(jié)果顯然是不合理的。因此N-grad模型還引入了平滑技術(shù)。N-grad模型中的平滑技術(shù)為了解決3中描述的次數(shù)統(tǒng)計比值不合理情況,N-grad模型引入了平滑技術(shù),常見的平滑技術(shù)包括:·加法平滑·古德-圖靈估計法·Katz平滑方法·Jelinek-Mercer平滑方法·Witten-Bell平滑方法·絕對減值法·Kneser-Ney平滑方法(二)RNNLM模型RNNLM模型是一個根據(jù)上下文,預測下一個詞語概率的模型。這個模型更加貼近于語言模型的定義,得到語言模型中每個因數(shù)參數(shù)的計算,其主要結(jié)構(gòu)如圖所示:圖2-4RNNLM模型結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(RNNLM)解決了前饋神經(jīng)網(wǎng)絡(luò)模型窗口固定的問題。前饋神經(jīng)網(wǎng)絡(luò)模型假設(shè)每個輸入都是獨立的,但是這個假設(shè)并不合理。而循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)能利用文字的這種上下文序列關(guān)系,更好地對語句之間的關(guān)系進行建模。RNNLM模型的優(yōu)點包括:·可以處理任意長度的輸入·理論上可以追溯前面時間步的信息·模型參數(shù)大小固定,與輸入長度無關(guān)缺點是計算時間長,在實際應用中,難以追溯很久遠的時間步信息。(三)HMM模型隱馬爾科夫模型,英文簡稱是HMM,這是一種典型的機器學習模型,被廣泛應用于語言識別,模式識別,以及自然語言處理等領(lǐng)域中。HMM模型的定義如下:在HMM模型中,我們首先假設(shè)定義為全部可能的隱藏狀態(tài)集合,定義為全部觀測狀態(tài)集合,于是就有:(2-4)在上式中,N代表的是可能的隱藏狀態(tài)數(shù)量,M代表的是觀察到的全部可能狀態(tài)數(shù)量。用T表示長度等于T的序列,其對應狀態(tài)序列用I來表示,對應的觀察序列用O表示,于是有:(2-5)在上式中,對于任意隱藏狀態(tài)滿足,任意觀察狀態(tài)滿足HMM模型的建立是基于以下兩個重要假設(shè)的:齊次馬爾科夫鏈假設(shè)。即任意時刻的隱藏狀態(tài)只依賴于它前一個隱藏狀態(tài)。當然這樣假設(shè)有點極端,因為很多時候我們的某一個隱藏狀態(tài)不僅僅只依賴于前一個隱藏狀態(tài),可能是前兩個或者是前三個。但是這樣假設(shè)的好處就是模型簡單,便于求解。如果在時刻的隱藏狀態(tài)是,在時刻的隱藏狀態(tài)是,則從時刻到時刻的HMM狀態(tài)轉(zhuǎn)移概率可以表示為:(2-6)這樣可以組成馬爾科夫鏈的狀態(tài)轉(zhuǎn)移矩陣:(2-7)觀測獨立性假設(shè)。即任意時刻的觀察狀態(tài)只僅僅依賴于當前時刻的隱藏狀態(tài),這也是一個為了簡化模型的假設(shè)。如果在時刻的隱藏狀態(tài)是,而對應的觀察狀態(tài)為,則該時刻觀察狀態(tài)在隱藏狀態(tài)下生成的概率滿足:(2-8)這樣可以組成觀測狀態(tài)生成的概率矩陣:(2-9)除此之外,我們需要一組在時刻的隱藏狀態(tài)概率分布:(2-10)一個HMM模型,可以由隱藏狀態(tài)初始概率分布,狀態(tài)轉(zhuǎn)移概率矩陣和觀測狀態(tài)概率矩陣決定。決定狀態(tài)序列,決定觀測序列。因此,HMM模型可以由一個三元組表示如下:(2-11)(四)DNN-HMM模型基于DNN-HMM的語音識別聲學模型結(jié)構(gòu)如下圖所示:圖2-5DNN-HMM模型結(jié)構(gòu)與傳統(tǒng)的基于GMM-HMM的聲學模型相比,唯一不同點在于用DNN替換了GMM來對輸入語音信號的觀察概率進行建模。相比于GMM,DNN的主要優(yōu)點包括:·DNN中不用假設(shè)聲學特征對應的分布情況;·DNN的輸入中用到的是一種連續(xù)式的拼接幀,所以可對上下文信息進行更好地利用;·DNN的訓練過程的實現(xiàn)用的是一種隨機優(yōu)化算法,并非是傳統(tǒng)優(yōu)化算法,所以在訓練數(shù)據(jù)具有較大規(guī)模時,其訓練也是非常高效的,所以,當訓練數(shù)據(jù)具有越大規(guī)模時,就能更加精確地得到聲學模型,對于語音識別的性能提高也是更有利的;·進行發(fā)音模式分類時,DNN模型的區(qū)分會顯得更為合適?!NN的輸入選擇的是傳統(tǒng)語音波形,將分幀與加窗處理后,將頻譜特征提取出,比方說,濾波器的聲學特征,PLP,以及MFCC等。對于FBK特征,一般使用的是Mel濾波器來將對數(shù)能量從功率譜上進行濾掉,接著表示為規(guī)整值的形式?,F(xiàn)階段,F(xiàn)BK特征成功得到了廣泛應用,這就驗證了,原始語音頻率是一種重要的基于DNN語音識別技術(shù)。相比于傳統(tǒng)的GMM,DNN的輸入是拼接了相鄰的多個幀以后形成的,其中含有的輸入向量會更多。通過研究說明了,相比于GMM,DNN采用拼接幀來進行輸入,之所以可以獲得更高性能優(yōu)勢,這是一個關(guān)鍵性的因素。DNN輸出向量中,其維度與HMM狀態(tài)個數(shù)是相對應的,一般來說,每一維輸出與綁定的triphone狀態(tài)相對應。進行訓練的過程中,為了準確將每幀語音DNN目標輸出值得到,有必要利用已經(jīng)完成訓練任務的GMM-HMM識別系統(tǒng),強制在訓練語料上進行對齊。也就是說,進行一個DNN-HMM聲學模型的訓練時,先要完成對GMM-HMM聲學模型的訓練,然后利用基于Viterbi算法將對應的HMM狀態(tài)標簽強制性地打在每個語音幀上,接著利用該狀態(tài)標簽來對DNN模型進行訓練。最后,使用DNN模型來對HMM模型中GMM部分進行替代,只是將其中的初始概率與轉(zhuǎn)移概率等部分進行了保留。(五)RNN模型RNN,英文全稱為RecurrentNeuralNetwork,這是一種對序列數(shù)據(jù)進行處理的神經(jīng)網(wǎng)絡(luò)。對于時間序列數(shù)據(jù),具體指的是收集到的不同時間點對應的數(shù)據(jù),這些數(shù)據(jù)主要是對某個現(xiàn)象或者事物是如何隨著時間進行變化的情況及程度進行反映。上述定義的是時間序列數(shù)據(jù),也可以對于其他類型的序列數(shù)據(jù)進行定義,比方說,文字序列,然而這些序列數(shù)據(jù)都具備一個共同點,即數(shù)據(jù)前后是具有某種聯(lián)系的。在圖2-6上展示的是某個標準RNN結(jié)構(gòu)圖,其中的每個箭頭就相當于完成一次變換,換句話說就是,箭頭連接帶上帶有相應的權(quán)值。左圖是折疊結(jié)構(gòu),右圖是對應的展開圖,左圖中的h箭頭就說明了,本結(jié)構(gòu)的隱層中發(fā)生了循環(huán)。圖2-SEQ圖\*ARABIC6RNN結(jié)構(gòu)圖在圖5中,x代表的是輸入,h代表的是隱層單元,o代表的是輸出,L代表的是損失函數(shù),y代表的是訓練集的標簽。上述元素右上角的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論