版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
廣西民族大學公共計算機教研室課程團隊語音識別自動語音識別AutomaticSpeechRecognition(ASR)目標:將人類的語音中的詞匯內容轉換為計算機可讀的輸入本章小節(jié)一、發(fā)展歷史二、識別過程三、識別方法四、系統(tǒng)結構五、核心技術六、語音識別的應用發(fā)展歷史語音識別技術研究的開端,是Davis等人研究的Audry系統(tǒng),它是當時第一個可以獲取幾個英文字母的系統(tǒng)20世紀60年代,伴隨計算機技術的發(fā)展,語音識別技術也得以進步,動態(tài)規(guī)劃和線性預測分析技術解決了語音識別中最為重要的問題——語音信號產生的模型問題70年代,語音識別技術有了重大突破,動態(tài)時間規(guī)整技術(DTW)基本成熟,使語音變得可以等長,另外,矢量量化(VQ)和隱馬爾科夫模型理論(HMM)也不斷完善,為之后語音識別的發(fā)展做了鋪墊80年代對語音識別的研究更為徹底,各種語音識別算法被提出,其中的突出成就包括HMM模型人工神經網絡(ANN)1987年12月,李開復開發(fā)出世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”1997年,IBMViavoice首個語音聽寫產品問世2011年初,微軟的DNN深度神經網絡模型在語音搜索任務上獲得成功科大訊飛將DNN首次成功應用到中文語音識別領域2011年10月,蘋果發(fā)布iPhone4s,推出個人手機助理Siri2013年,Google發(fā)布GoogleGlass蘋果加大對iWatch的研發(fā)投入識別過程1.語音識別過程語音的識別過程一般包括從一段連續(xù)聲波中采樣,將每個采樣值量化,得到聲波的壓縮數字化表示語音線性預測系數作為語音信號的一種特征參數,已經廣泛應用于語音處理各個領域語音信號的特征參數提取STEP03語音識別當提取聲音特征集合以后,就可以識別這些特征所代表的單詞STEP04語音信號預處理首先要進行濾波、A/D變換、預加、分幀和端點檢測等預處理,然后才能進入識別、合成、增強等實際應用STEP02語音信號采集語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。STEP012.基于神經網絡的語音識別過程語音識別的第一步:將聲波輸入到計算機中(1)將聲音轉換成“位(Bit)”語音識別的第二步是采樣。每秒讀取數千次,并把聲波在該時間點的高度用一個數字記錄下來(2)給聲波采樣第三步則是對聲音信號進行預處理(3)預處理采樣聲音數據最后一步,是對這段語音進行短字符識別(4)從短聲音識別字符識別方法1.基于語音學和聲學通常將語言理解為由有限個不同的語音基元組成的整體,可以利用其語音信號的頻域或時域特性,通過兩步來區(qū)分。第一步01分段和標號首先,把語音信號以時間為基準分成離散的段,不同段具有不同語音基元的聲學特性。然后,根據相應聲學特性將每個分段進行相近的語音標號第二步02得到詞序列將所得的語音標號序列轉化成一個語音基元網格,從詞典查詢有效的詞序列,或結合句子的文法和語義同時進行2.模板匹配模板匹配的方法發(fā)展比較成熟,目前,相較于基于語音學和聲學的方法,模板匹配已經進入實用階段。模板匹配方法會經歷四個主要步驟:特征提取模板訓練模板分類判決1動態(tài)時間規(guī)整(DTW)2隱馬爾可夫法(HMM)3矢量量化常用的技術有三種:3.神經網絡神經網絡語音識別方法,是目前的一個研究熱點深度神經網絡/深信度網絡-隱馬爾科夫(DNN/DBN-HMM)相比傳統(tǒng)的基于GMM-HMM的語音識別系統(tǒng),其最大的改變是采用深度神經網絡替換GMM模型對語音的觀察概率進行建模卷積神經網絡(CNN)使用大量的卷積層直接對整句語音信號進行建模,更好地表達了語音的長時相關性人工神經網絡(ANN/BP)本質上是一個自適應非線性動力學系統(tǒng),模擬了人類神經活動的原理,具有自適應性、并行性、魯棒性、容錯性和學習特性循環(huán)神經網絡(RNN)循環(huán)神經網絡近年來逐漸替代傳統(tǒng)的DNN成為主流的語音識別建模方案系統(tǒng)結構語音識別研究的第一步是對單元的選擇識別。語音識別單元分為單詞(句)、音節(jié)和音素三種,針對不同的研究任務,我們需要選擇不同的語音識別單元(1)語音信號預處理與特征提取聲學模型是將獲取的語音特征通過訓練算法進行訓練后產生的。將輸入的語音特征同聲學模型(模式)進行匹配與比較,以得到最佳的識別結果(2)聲學模型與模式匹配語言模型包括由識別語音命令構成的語法網絡,或由統(tǒng)計方法構成的語言模型,可以對語言進行語法、語義分析(3)語言模型與語言處理核心技術(1)信號處理及特征提取模塊模塊從輸入信號中提取可供聲學模型處理的特征,利用一些信號處理技術降低環(huán)境噪聲、信道、說話人等因素的影響(5)解碼器解碼器模塊主要完成的工作是,給定輸入特征序列的情況下,在由聲學模型、發(fā)音詞典和語言模型等知識源組成的搜索空間(SearchSpace)中,通過一定的搜索算法,尋找使概率最大的詞序列(4)語言模型語言模型對系統(tǒng)所針對的語言進行建模,目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體(3)發(fā)音詞典發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射(2)統(tǒng)計聲學模型典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模語音識別的應用應用場景機器人語音交互提供麥克陣列前端算法,解決人機交互中,距離較遠帶來的識別率較低的問題,讓人機對話更加方便智能家居通過遠場語音識別技術,可以讓用戶,即使在三至五米的距離,也可對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 標準化廠房施工進場管理方案
- 2025年福建省特崗教師招聘筆試真題匯編附答案
- 2025年江西衛(wèi)生職業(yè)學院輔導員考試筆試題庫附答案
- 標準化廠房人員培訓方案
- 施工現場應急預案制定
- 婦幼保健院環(huán)境衛(wèi)生管理方案
- 邊坡施工質量控制方案
- 中國跨境數據流動安全評估與合規(guī)管理體系建設
- 中國角膜塑形鏡驗配標準化與渠道管理優(yōu)化報告
- 施工現場周邊交通管理方案
- 2025北京西城區(qū)初一(下)期末英語試題及答案
- 2026.01.01施行的《招標人主體責任履行指引》
- DB11∕T 689-2025 既有建筑抗震加固技術規(guī)程
- 2025年湖南公務員《行政職業(yè)能力測驗》試題及答案
- 提前招生面試制勝技巧
- 2024中國類風濕關節(jié)炎診療指南課件
- 2026年中國家居行業(yè)發(fā)展展望及投資策略報告
- 陜西省西安鐵一中2026屆高一物理第一學期期末教學質量檢測試題含解析
- DB3207∕T 1046-2023 香菇菌棒生產技術規(guī)程
- 2025-2030腦機接口神經信號解碼芯片功耗降低技術路線圖報告
- 空調安裝應急預案
評論
0/150
提交評論