語音識別課程報告_第1頁
語音識別課程報告_第2頁
語音識別課程報告_第3頁
語音識別課程報告_第4頁
語音識別課程報告_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

語音識別xx目錄CONTENTS選題背景PART

ONE發(fā)展歷史PART

TWO研究現(xiàn)狀PART

THREE基本原理PART

FIVE案例解析PART

SIX難點問題PART

FOUR語音識別選題背景PART

ONE語音識別PART

ONE選題背景OVERVEWOFVOICERECOGNITION語音識別概述語言是人與人之間交流和傳遞信息最自然、有效的工具之一,也是最主要的途徑。語音與文明的進步、人類智力的發(fā)展都息息相關。語音識別是機器通過識別理解將語音信號轉換成相應的文本或命令的技術。最終目標是研制出能夠聽懂人類說話的機器,一方面可以將說話人語音轉換為文字信息,另一方面是對說話人語音做出正確響應,并不只是拘泥于詞準確轉換為書面文字。PART

ONE選題背景語音識別研究的背景隨著社會和科學的高速發(fā)展,計算機在人類生活中扮演了越來越重要的角色,人們希望能夠更快速、方便、高效地與計算機進行交互。而語音比鍵盤鼠標等這些交互方式有更高的效率,且語音能有復雜的情感表達,對交互的體驗有很大的提升。因此人與計算機設備之間如何用語音這種最自然的方式進行交流、怎樣讓計算機聽懂人類的語言,成為一項很有意義的工作。此外,語音識別也是實現(xiàn)智能的人機交互的一個前沿研究陣地,是完成自然語言理解、機器翻譯等后續(xù)研究的前提條件。BACKGROUNDOFVOICERECOGNITIONPART

ONE選題背景語音識別研究的意義SIGNIFICANCEOFVOICERECOGNITION全球語音識別市場規(guī)模巨大、應用前景良好,在電信行業(yè)、移動互聯(lián)網(wǎng)行業(yè)等都呈現(xiàn)出持續(xù)快速的增長。語音接口技術現(xiàn)在日趨成熟,在2016年麻省理工學院知名期刊《麻省理工科技評論》評選出的“2016年十大突破技術”中位列第三,可以看出語音技術是一個充滿潛力的研究方向,在未來的應用中定會大放異彩。在醫(yī)療領域,語音技術的加入使緊急語音求助、醫(yī)患關系存檔等多種應用場景可行;在智能車載領域,語音平臺可以幫助用戶實現(xiàn)導航、通話、短信收發(fā)等各種功能,防止手勢交互分散注意力;在教育領域,語音的多語種和方言也可以提供多種應用。PART

ONE選題背景語音控制利用聲音來控制一臺機器設備的運行,可以提高工作效率,并解放雙手。例如小愛同學、天貓精靈、小度、小雅、Siri、微軟小冰等。將聲音信號直接轉換成響應的文字輸入計算機系統(tǒng),可以代替鍵盤使文字的輸入更加省力和高效。身份識別與指紋類似,聲紋也具有較強的排他性,可以利用語音識別來進行身份的識別和確認工作。語音識別常見應用APPLICATIONOFVOICERECOGNITION語音輸入發(fā)展歷史PART

TWO語音識別PART

TWO發(fā)展歷史二十世紀五十年代貝爾實驗室開發(fā)出了Audry系統(tǒng),該系統(tǒng)能識別十個英文數(shù)字,方法是跟蹤語音中的共振峰,得到了98%的正確率。二十世紀六十年代主要成果包括線性預測分析技術(LP)和動態(tài)規(guī)劃算法(DP)。端點檢測技術成功應用在語音識別領域并大幅提升系統(tǒng)性能。二十世紀七十年代快速發(fā)展期,信號線性預測編碼技術(LPC)和動態(tài)時間規(guī)整技術(DTW)的提出,成為語音識別領域的重大成果,大大提高孤立詞識別效率。二十世紀八十年代語音識別技術進一步發(fā)展,隱馬爾可夫模型(HMM)被引入到語音識別領域,并成為大詞匯量連續(xù)語音識別系統(tǒng)的基礎。二十世紀九十年代解碼搜索算法不斷成熟,出現(xiàn)幾個成功的大詞匯量連續(xù)語音識別系統(tǒng),如IBM的ViaVoice,Microsoft的Whisper,CMU的SPHINX-II。二十一世紀以來得到廣泛應用,走入日常生活。如Microsoft推出的的游戲平臺XboxONE,iPhone的語音控制功能Siri等。研究現(xiàn)狀PART

THREE語音識別PART

THREE研究現(xiàn)狀國外語音識別現(xiàn)狀Nuance公司掌握全球最多的語音技術專利,并擁有巨大影響力,市面上幾乎70%的語音識別都是采用它的引擎。蘋果Siri語音助手、三星S-Voice以及多個金融電信行業(yè)采用的都是Nuance的語音技術。谷歌免費開放GoogleCloudSpeechAPI以及機器學習框架,以提供給開發(fā)者和企業(yè)快速開發(fā)商業(yè)應用,覆蓋達80種語言并支持實時和批量處理。2014年微軟公司開發(fā)出“微軟小冰”機器人,實現(xiàn)了人機智能對話;另外在win10系統(tǒng)中發(fā)布Cortana智能用戶助理,幫助用戶管理和控制系統(tǒng)。PRESENTOFVOICERECOGNITIONABROADPART

THREE研究現(xiàn)狀國內(nèi)語音識別現(xiàn)狀PRESENTOFVOICERECOGNITION國內(nèi)最有影響力和技術實力的語音技術公司為科大訊飛,2015年其在年度發(fā)布會中展示了同聲傳譯系統(tǒng),將演講者的演講直接同步轉成文字并取得了驚艷的效果。在循環(huán)卷積網(wǎng)絡(RNN)和長短時記憶模塊(LSTM)等模型的基礎上,訊飛推出了名為前饋型序列記憶網(wǎng)絡(FSMN)框架,融合了上述模型的優(yōu)點,具有更高的穩(wěn)定性和模型訓練效率。同時搜狗和百度也幾乎同時宣布自己的中文語音識別準確率達到97%。搜狗語音識別支持最快400字每秒的聽寫,百度則向開發(fā)者開放了情感合成、長語音方案等四項語音識別技術。難點問題PART

FOUR語音識別PART

FOUR難點熱點環(huán)境噪聲問題語音識別的應用場景千差萬別,并不能保證識別系統(tǒng)始終處于安靜的環(huán)境中工作,因此很容易受到背景噪聲的影響,且不同場景的噪聲各不相同。這導致很多識別系統(tǒng)在實驗室環(huán)境下識別效果很好,但到了實際應用中效果就大打折扣。協(xié)同發(fā)音及話音差異低計算資源語音識別共有難點問題COMMONDIFFICULTIESINVOICERECOGNITION人們在說話交流時基本不會一個字一個字孤立發(fā)音,因此原本孤立的聲學單元就會受到上下文的影響而發(fā)生模糊甚至變異,導致識別起來比較困難。同時任何兩個語音都是不同的,同一個人在不同時間說的同一句話也會存在很大差異,這使得語音識別具有很大的變數(shù),識別性能受到很大影響?,F(xiàn)在廣泛應用的識別平臺都是基于云端在線的服務,語音識別的另一個方向是在低數(shù)據(jù)低計算資源下做出實時、連續(xù)的鑒別,這也是語音識別技術中的難點。PART

FOUR難點熱點漢語語音識別難點問題DIFFICULTIESINCHINESEVOICERECOGNITION漢語方言語種眾多漢語同音詞及聲調中國幅員遼闊,不同地域漢語的發(fā)音不盡相同,甚至隔一個村落語言就完全不同。因此要實現(xiàn)一個對不同方言語音識別都有較好識別率的識別系統(tǒng)相當困難。漢語聲調多種多樣,同時同音詞也有很多,使得混淆性進一步加大,識別難度也加大?;驹鞵ART

FIVE語音識別PART

FIVE基本原理語音識別系統(tǒng)結構框圖所謂語音識別,就是將一段語音信號轉換成相對應的文本信息,系統(tǒng)主要包含特征提取、聲學模型,語言模型以及字典與解碼四大部分,此外為了更有效地提取特征往往還需要對所采集到的聲音信號進行濾波、分幀等音頻數(shù)據(jù)預處理工作,將需要分析的音頻信號從原始信號中合適地提取出來;特征提取工作將聲音信號從時域轉換到頻域,為聲學模型提供合適的特征向量;聲學模型中再根據(jù)聲學特性計算每一個特征向量在聲學特征上的得分;而語言模型則根據(jù)語言學相關的理論,計算該聲音信號對應可能詞組序列的概率;最后根據(jù)已有的字典,對詞組序列進行解碼,得到最后可能的文本表示。PART

FIVE基本原理語音識別流程的舉例(只是形象表述過程):語音信號:PCM文件等(我是機器人)

特征提?。禾崛√卣飨蛄縖1234560...]

聲學模型:[1234560]->wosijiqirn

字典:窩:wo;我:wo;是:si;機:ji;器:qi;人:rn;級:ji;忍:rn;

語言模型:我:0.0786,是:0.0546,我是:0.0898,機器:0.0967,機器人:0.6785;

輸出文字:我是機器人;PART

FIVE基本原理首尾端的靜音切除,降低對后續(xù)步驟造成的干擾,靜音切除的操作一般稱為VAD。聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀,使用移動窗函數(shù)來實現(xiàn),不是簡單的切開,各幀之間一般是有交疊的。預處理主要算法有線性預測倒譜系數(shù)(LPCC)和Mel倒譜系數(shù)(MFCC),目的是把每一幀波形變成一個包含聲音信息的多維向量。特征提取通過對語音數(shù)據(jù)進行訓練獲得,輸入是特征向量,輸出為音素信息。聲學模型AM字或者詞與音素的對應,簡單來說,中文就是拼音和漢字的對應,英文就是音標與單詞的對應。字典通過對大量文本信息進行訓練,得到單個字或者詞相互關聯(lián)的概率。語言模型LM就是通過聲學模型,字典,語言模型對提取特征后的音頻數(shù)據(jù)進行文字輸出。解碼123456PART

FIVE基本原理目前大多數(shù)語音識別系統(tǒng)到采用NN-HMM(神經(jīng)網(wǎng)絡-隱馬爾可夫模型)的混合系統(tǒng)。需要訓練一個聲學模型,語言模型,然后在結合詞典進行解碼。語音識別系統(tǒng)的目的,是把語音轉換成文字。具體來說,是輸入一段語音信號,要找一個文字序列(由詞或字組成),使得它與語音信號的匹配程度最高。用Y表示語音信號,W表示文字序列,則要求解的以下問題:求解輸入語音時,對應文字的最大條件概率。一般認為,語音是由文字產(chǎn)生的,利用貝葉斯公式轉換。對于輸入的一段語音,P(Y)是常數(shù),P(W)表示一個文字序列本身的概率。P(Y|W)表示給定文字后語音信號的概率,即這句話有多大的可能發(fā)成這串音。計算這兩項的值,就是語言模型和聲學模型的主要任務。PART

FIVE基本原理聲學模型AM聲學模型是將語音信號的觀測特征與句子的語音建模單元聯(lián)系起來,即計算。我們通常使用隱馬爾科夫模型(HiddenMarkovModel,HMM)解決語音與文本的不定長關系。比如下圖的隱馬爾科夫模型中。將聲學模型表示為:其中,初始狀態(tài)概率和狀態(tài)轉移概率可用通過常規(guī)統(tǒng)計的方法計算得出,發(fā)射概率可以通過混合高斯模型GMM或深度神經(jīng)網(wǎng)絡DNN求解。我們用幀去分割語音波形,每幀大概10、15、20、25ms,然后每幀提取可以代表該幀語音的39個數(shù)字,這39個數(shù)字也就是該幀語音的特征,用特征向量來表示。而如何提取特征向量是當下熱門的研究課題,但這些提取方法都是由頻譜衍生出來的。GMM-HMM模型PART

FIVE基本原理GMM-HMM和DNN-HMM的區(qū)別在于用DNN替換GMM來求解發(fā)射概率,GMM-HMM模型優(yōu)勢在于計算量較小且效果不俗。DNN-HMM模型提升了識別率,但對于硬件的計算能力要求較高。因此,模型的選擇可以結合實際的應用調整。RNN(LSTM),目前主流的聲學模型。聲學模型AMDNN-HMM模型PART

FIVE基本原理語言模型LM語言模型與文本處理相關,比如我們使用的智能輸入法,當我們輸入“nihao”,輸入法候選詞會出現(xiàn)“你好”而不是“尼毫”,候選詞的排列參照語言模型得分的高低順序。語音識別中的語言模型也用于處理文字序列,它是結合聲學模型的輸出,給出概率最大的文字序列作為語音識別結果。似然值P(W)則表示序列W出現(xiàn)的一個先驗概率,稱之為語言模型。PART

FIVE基本原理語言模型LM統(tǒng)計語言模型——傳統(tǒng)的N階語言模型N-Gram由于語言模型是表示某一文字序列發(fā)生的概率,一般采用鏈式法則表示,如是由詞組成,則可由條件概率相關公式表示為:由于條件太長,使得概率的估計變得困難,常見的做法是認為每個詞的概率分布只依賴于前幾個出現(xiàn)的詞語。馬爾科夫假設(MarkovAssumption):一個詞的出現(xiàn)僅與它之前的N個詞有關。這樣的語言模型成為n-gram模型。在n-gram模型中,每個詞的概率分布只依賴于前面n-1個詞。例如在trigram(n取值為3)模型,可將上式化簡:理論上N越大越好,但實際中能用小的N解決便用小的NPART

FIVE基本原理語言模型LM基于循環(huán)神經(jīng)網(wǎng)絡RNN的語言模型RNN循環(huán)神經(jīng)網(wǎng)絡,具有處理序列數(shù)據(jù)的能力,也就是前面的數(shù)據(jù)跟后面的數(shù)據(jù)出現(xiàn)順序是有關系的。實踐中,目前來看并沒有比傳統(tǒng)的統(tǒng)計語言模型好計算量大實驗階段,大范圍實踐存在困難同一種發(fā)音,可能被解析成不同的句子,然而其中有一種更符合語法規(guī)則。PART

FIVE基本原理詞典與解碼算法對于音字轉換問題,輸入拼音nixianzaiganshenme,可能對應著很多轉換結果,對于這個例子,可能的轉換結果如下圖所示(只畫出部分的詞語節(jié)點),各節(jié)點之間構成了復雜的網(wǎng)絡結構,從開始到結束的任意一條路徑都是可能的轉換結果,從諸多轉換結果中選擇最合適的結果的過程就需要解碼算法。PART

FIVE基本原理WFST

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論