基于深度學(xué)習(xí)的語音命令識別技術(shù)研究_第1頁
基于深度學(xué)習(xí)的語音命令識別技術(shù)研究_第2頁
基于深度學(xué)習(xí)的語音命令識別技術(shù)研究_第3頁
基于深度學(xué)習(xí)的語音命令識別技術(shù)研究_第4頁
基于深度學(xué)習(xí)的語音命令識別技術(shù)研究_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

摘要隨著人工智能技術(shù)的快速發(fā)展,各種智能設(shè)備已經(jīng)進(jìn)入大家的生活。伴隨著智能設(shè)備的普及,語音命令式的人機(jī)交互方式也憑借著其便捷智能的優(yōu)點走進(jìn)大眾的視野,受到了廣泛的關(guān)注與研究。本問主要以闡述基于深度學(xué)習(xí)的語音識別系統(tǒng)的基本原理以及實現(xiàn)流程為重點,介紹如何利用循環(huán)神經(jīng)網(wǎng)絡(luò)的一個變體,長短時記憶網(wǎng)絡(luò)(LSTM)來構(gòu)建一個基本的語音識別系統(tǒng)。本文的第一章介紹了語音命令識別技術(shù)的研究背景和意義,包括國內(nèi)的研究現(xiàn)狀以及國外的研究現(xiàn)狀。第二章介紹了語音識別技術(shù)的一些典型的算法及其基本原理,重點介紹了深度學(xué)習(xí)技術(shù)中的幾個神經(jīng)網(wǎng)絡(luò)以及本文中用到的長短時記憶網(wǎng)絡(luò)。第三章則詳細(xì)講述如何通過長短時記憶網(wǎng)絡(luò)實現(xiàn)一個基本的語音識別系統(tǒng)的軟件設(shè)計,本文利用的編程語言為python。第四章即給出了對第三章實現(xiàn)的語音命令識別系統(tǒng)的實驗測試以及結(jié)果分析。第五章對本文語音命令識別系統(tǒng)的設(shè)計過程進(jìn)行了總結(jié),找出不足與改進(jìn),最后對未來的展望。文本之所以選擇長短時網(wǎng)絡(luò)(LSTM)進(jìn)行系統(tǒng)設(shè)計是基于LSTM能夠有效的捕捉和存儲長期的關(guān)系以達(dá)到聯(lián)系上下文預(yù)測的優(yōu)勢考慮。此外,LSTM還能夠有效地避免梯度消失/爆炸問題,這在語音識別中是很常見的。最后通過實驗與結(jié)果分析來驗證與評估本文設(shè)計的語音識別系統(tǒng)的準(zhǔn)確率。通過本文的理論研究以及實驗分析與評估,不難看出,在未假如噪聲因素的前提下,本文所涉及的語音識別系統(tǒng)通過訓(xùn)練后的聲學(xué)模型以及語言模型的配合工作,能夠基本上達(dá)到理想的文本輸出,從而應(yīng)用于對機(jī)器的語音命令場景,為智能設(shè)備的語音命令控制提供了一定的參考。關(guān)鍵詞:語音識別技術(shù);深度神經(jīng)網(wǎng)絡(luò);語音信號處理AbstractWiththerapiddevelopmentofartificialintelligencetechnology,varioussmartdeviceshaveenteredeveryone'slife.Accompaniedbythepopularizationofsmartdevices,thevoicecommand-basedhuman-computerinteractionmodehasalsoenteredthepubliceyeduetoitsconvenientandintelligentadvantages,andhasreceivedwidespreadattentionandresearch.Thispaperfocusesonelaboratingthebasicprinciplesandimplementationprocessesofadeeplearning-basedspeechrecognitionsystem,introducinghowtouseavariantofrecurrentneuralnetworks,LongShort-TermMemory(LSTM),tobuildabasicspeechrecognitionsystem.Thefirstchapterofthispaperintroducestheresearchbackgroundandsignificanceofvoicecommandrecognitiontechnology,includingthecurrentresearchstatusbothdomesticallyandinternationally.Thesecondchapterintroducessometypicalalgorithmsandtheirbasicprinciplesofspeechrecognitiontechnology,focusingonseveralneuralnetworksindeeplearningtechnologyandtheLongShort-TermMemorynetworkusedinthispaper.ThethirdchapterdetailshowtoimplementthesoftwaredesignofabasicspeechrecognitionsystemusingLongShort-TermMemory.TheprogramminglanguageusedinthispaperisPython.ThefourthchapterpresentstheexperimentaltestingandresultanalysisofthevoicecommandrecognitionsystemimplementedinChapter3.Thefifthchaptersummarizesthedesignprocessofthevoicecommandrecognitionsysteminthispaper,identifiesshortcomingsandimprovements,andfinallyprovidesanoutlookforthefuture.ThereasonwhyLSTMischosenforsystemdesignisbasedonitsabilitytoeffectivelycaptureandstorelong-termrelationshipstoachievetheadvantageofcontextualprediction.Inaddition,LSTMcaneffectivelyavoidtheproblemofgradientvanishing/exploding,whichiscommoninspeechrecognition.Finally,theaccuracyofthespeechrecognitionsystemdesignedinthispaperisverifiedandevaluatedthroughexperimentsandresultanalysis.Throughthetheoreticalresearch,experimentalanalysis,andevaluationinthispaper,itisnotdifficulttoseethat,withoutconsideringnoisefactors,thespeechrecognitionsysteminvolvedinthispapercanbasicallyachieveidealtextoutputthroughthecoordinatedworkofthetrainedacousticmodelandlanguagemodel.Thus,itcanbeappliedtovoicecommandscenesformachines,providingacertainreferenceforvoicecommandcontrolofsmartdevices.Keywords:SpeechRecognitionTechnology;DeepNeuralNetwork;SpeechSignalProcessing目錄TOC\o"1-3"\h\u序言 —序言在傳統(tǒng)的人機(jī)交互模式中,往往需要鍵入的方式來對計算機(jī)下達(dá)指令以完成相應(yīng)的工作互動行為,在某些特定的應(yīng)用場景中,這樣的人機(jī)交互方式則不是很適用,例如在智能家居控制,車載系統(tǒng)控制,殘疾人士的使用等場景。語音命令式的人機(jī)交互模式則應(yīng)運而生,彌補了傳統(tǒng)人機(jī)交互模式的短板,同時也為人機(jī)交互場景提供了更多的選擇。傳統(tǒng)的語音識別技術(shù)是將提取到的語音信號的特征與已有的語音模板進(jìn)行進(jìn)行模式匹配和判別,找出最佳匹配的語音模板最后進(jìn)行輸出,這樣的識別方式原理簡單容易實現(xiàn)但存在著一些不足之處。首先,由于識別方式是與標(biāo)準(zhǔn)的語音模板進(jìn)行匹配,所以在對非標(biāo)準(zhǔn)語音的識別上存在著先天不足,例如對于方言,或者帶有獨特口音的普通話的語音的識別,準(zhǔn)確性會大幅度降低。其次傳統(tǒng)語音識別技術(shù)對噪聲干擾較為敏感,在噪聲較大的環(huán)境,如工廠生產(chǎn)中則會大幅度降低識別率,此外傳統(tǒng)語音識別技術(shù)在大詞匯量以及長時間連續(xù)語音信號的識別方面效果欠佳。近年來,隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,深度學(xué)習(xí)技術(shù)開始用于語音識別領(lǐng)域并取得了一些突破性的成就。相比于傳統(tǒng)的語音識別技術(shù),基于深度神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)具有較為顯著的優(yōu)勢。在對語音信號的特征提取方面,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠自動提取語音信號中較為高級的聲學(xué)特征,從而避免了手動提取特征而導(dǎo)致的特征繁瑣,信息丟失等問題。在其他方面,基于深度學(xué)習(xí)的語音識別可以大規(guī)模的處理數(shù)據(jù)集,訓(xùn)練速度較快,因此在大規(guī)模的語音識別場景如長時間語音轉(zhuǎn)寫,多種語言識別中更加高效。除此之外,深度學(xué)習(xí)模型還能更好的建模語音信號的復(fù)雜性和變異性,具有更好的表征學(xué)習(xí)能力,在結(jié)合了語言學(xué),生理學(xué),心理學(xué)多方面學(xué)科后,還能根據(jù)接收到的語音識別出相應(yīng)的情感方面的信息,在情感識別,人際交流方面有著不可替代的作用。語音識別技術(shù)給我們的學(xué)習(xí)工作生活帶來了便捷,去除了很多不必要的繁瑣操作,但傳統(tǒng)的語音識別技術(shù)具有一定的局限性,不能很好地滿足我們的語音識別需求,在這樣的情況下基于深度神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)為我們提供了更多的可能。第1章緒論1.1語音命令識別技術(shù)的研究背景及意義語音命令識別技術(shù)指的是用戶通過口頭語音信號的方式輸入給電腦識別和理解,從而達(dá)到某種指令實現(xiàn)的效果,在智能設(shè)備普及和人工智能技術(shù)快速發(fā)展的今天,語音命令識別技術(shù)已經(jīng)成為了人機(jī)交互的重要方式之一。語音識別技術(shù)的背景可以追溯到20世紀(jì)50年代,當(dāng)時主要研究聲學(xué)模型的語音識別算法,后來隨著計算機(jī)技術(shù)和機(jī)器學(xué)習(xí)算法的發(fā)展,語音識別逐漸向深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面發(fā)展語音識別的意義在于為人機(jī)交互提供了一種新的方式,避免了人機(jī)交互中很多不必要的重復(fù)的步驟,如指令鍵入,讓特殊環(huán)境下的人機(jī)交互變得更加便利,如車載導(dǎo)航指令的輸入。如今語音識別技術(shù)已經(jīng)隨著各種智能設(shè)備廣泛應(yīng)用于生產(chǎn)生活中,如智能家居,語音助手,車載系統(tǒng)。甚至在結(jié)合了心理學(xué)等方面的知識后,語音識別能夠捕捉到語音中包含的情感表征,實現(xiàn)人類與機(jī)器人交心聊天的場景。由于語音命令識別技術(shù)的核心仍然是語音識別,因此本文仍以介紹語音識別技術(shù)為中心。本文將以長短期記憶網(wǎng)絡(luò)(LSTM)為核心對語音識別,語音識別系統(tǒng)的實現(xiàn)以及系統(tǒng)詳細(xì)功能結(jié)構(gòu)進(jìn)行介紹。1.2語音識別技術(shù)的國內(nèi)外研究現(xiàn)狀1.1.2國內(nèi)研究現(xiàn)狀近年來,國內(nèi)學(xué)者在語音識別領(lǐng)域開展了多方面的研究探索和實踐,為語音識別領(lǐng)域提供了豐富的實踐經(jīng)驗和理論基礎(chǔ),為該領(lǐng)域做出了積極貢獻(xiàn)并推動了該領(lǐng)域的進(jìn)步和不斷完善。柳若邊(2019)在其著作中詳細(xì)介紹了深度學(xué)習(xí)技術(shù)在語音識別中的實踐應(yīng)用,為該領(lǐng)域的研究提供了寶貴的經(jīng)驗。同年,馬樹文(2019)在其研究中探討了深度學(xué)習(xí)在語音情感識別中的應(yīng)用與分析,為深度學(xué)習(xí)技術(shù)在語音識別領(lǐng)域的應(yīng)用提供了有益的參考。董鈺、郭軍華(2020)對基于深度學(xué)習(xí)的語音問答系統(tǒng)的研究則為智能語音交互技術(shù)的發(fā)展做出了貢獻(xiàn)。馬鵬翀(2021)對語音識別技術(shù)進(jìn)行了深入研究,為該技術(shù)的發(fā)展提供了理論支持。董炳辰、湯鯤(2022)探討了基于深度學(xué)習(xí)網(wǎng)絡(luò)的語音情感識別方法,為語音情感識別技術(shù)的提升提供了新思路。王琦、米佳帥(2024)則關(guān)注了基于深度學(xué)習(xí)的單像素成像研究,探索了深度學(xué)習(xí)在圖像處理領(lǐng)域的潛在應(yīng)用價值。綜上所述,在國內(nèi),關(guān)于語音識別技術(shù)的研究取得了一系列重要的進(jìn)展。1.1.2國外研究現(xiàn)狀在國外,語音識別技術(shù)領(lǐng)域的研究也有顯著的進(jìn)展。SoutheastUniversity的一份報告(2019)概述了基于深度信念網(wǎng)絡(luò)的特征融合方法研究,用于噪聲環(huán)境下語音情感識別。SoutheastUniversity的報告突出了在噪聲環(huán)境下語音情感識別的重要性,為語音命令識別技術(shù)在復(fù)雜環(huán)境下的應(yīng)用提供了新的思路。WanyuX等人(2020)在其研究中探討了基于深度學(xué)習(xí)的DNN-HMM技術(shù)在語音準(zhǔn)確識別中的應(yīng)用。WanyuX等人的研究為深度學(xué)習(xí)技術(shù)在語音識別領(lǐng)域的應(yīng)用提供了有益的參考,為國內(nèi)研究者提供了借鑒和學(xué)習(xí)的機(jī)會。關(guān)于深度神經(jīng)網(wǎng)絡(luò)在圖像/語音識別方面的研究發(fā)現(xiàn),為材料研究領(lǐng)域的發(fā)展提供了新的視角和方法。總的來說,國外研究者在語音識別領(lǐng)域的探索研究豐富多彩,成果頗豐,在為該領(lǐng)域注入新的活力的同時還拓展了語音識別技術(shù)的應(yīng)用領(lǐng)域,為國際學(xué)術(shù)界以及工業(yè)界提供了寶貴的經(jīng)驗和研究方向上的啟示。1.3本文結(jié)構(gòu)安排本文首先介紹了語音識別命令技術(shù)給人們生產(chǎn)生活帶來的好處,介紹了傳統(tǒng)語音識別技術(shù)的缺陷并引出了基于深度神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)以及其背景和現(xiàn)狀,接著介紹了幾種常見的基于深度學(xué)習(xí)的語音識別技術(shù),其中重點講述了長短時記憶網(wǎng)絡(luò)以及利用該網(wǎng)絡(luò)建立語音識別系統(tǒng)的設(shè)計過程,最后利用實驗評測該系統(tǒng)的性能。第一章介紹了語音識別技術(shù)的背景和意義,并簡單介紹了近年來國內(nèi)外在該方面的研究現(xiàn)狀。第二章主要介紹了本文建立語音識別技術(shù)所需要用到的幾種技術(shù)原理,本文選用的是長短時記憶網(wǎng)絡(luò)來實現(xiàn)語音識別系統(tǒng)。第三章則詳細(xì)介紹了基于長短時記憶(LSTM)網(wǎng)絡(luò)的語音識別系統(tǒng)的設(shè)計及實現(xiàn),重點講述了系統(tǒng)各部分的設(shè)計詳情。第四章則設(shè)計了一個簡單的實驗來評估該系統(tǒng)的性能及試驗結(jié)果的分析。第五章則總結(jié)了本文的系統(tǒng)設(shè)計的不足,存在的問題以及可能該井的方向,最后對語音識別技術(shù)的發(fā)展趨勢進(jìn)行分析和展望。語音識別技術(shù)基本原理本章節(jié)將詳細(xì)介紹本論文中所用到的一些語音識別技術(shù)領(lǐng)域的基本原理,最后介紹語音識別系統(tǒng)的性能評價指標(biāo),這將在后面的第五章節(jié)用來作為指評估價所實現(xiàn)的語音識別系統(tǒng)。2.1語音信號特征近期新興的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)及人工智能技術(shù)將提升數(shù)據(jù)特征提取和模型構(gòu)建的智能化水平。錢鳳魁,王化軍,王祥國,等.基于WOFOST模型與遙感數(shù)據(jù)同化的縣級尺度玉米估產(chǎn)研究[J/OL].沈陽農(nóng)業(yè)大學(xué)學(xué)報,2024,(02):138-152[2024-04-14]./kcms/detail/21.1134.S.20240410.1234.016.html.錢鳳魁,王化軍,王祥國,等.基于WOFOST模型與遙感數(shù)據(jù)同化的縣級尺度玉米估產(chǎn)研究[J/OL].沈陽農(nóng)業(yè)大學(xué)學(xué)報,2024,(02):138-152[2024-04-14]./kcms/detail/21.1134.S.20240410.1234.016.html.(1)梅爾頻譜倒譜系數(shù)(MFCC)。MFCC基于人的聽覺特征,能夠模擬人耳對不同頻率的感知方式。Mel頻率尺度是基于人耳聽覺特性的非線性頻率尺度,與Hz頻率成非線性對應(yīng)關(guān)系。在Mel頻率尺度上,低頻信號的分辨率比高頻信號更高,更符合于人耳的聽覺特性。線性預(yù)測編碼(LPC)。LPC是一種高效的編碼方法,被廣泛應(yīng)用于語音信號處理和音頻壓縮中,該編碼認(rèn)為語音是由一個激勵信號(如白噪聲或脈沖)通過一個線性時不變系統(tǒng)(代表聲道)產(chǎn)生的,這個線性系統(tǒng)可以用一個差分方程來描述,LPC的目標(biāo)則是找到這個差分方程的最佳預(yù)測系數(shù),即線性預(yù)測系數(shù)(LPC系數(shù))。短時能量和短時過零率。短時能量是衡量在短時間窗口內(nèi)信號強度的特征。通常濁音(如元音)的能量要比清音(如輔音和靜音段)的能量高,因此對于語音信號來說,短時能量可以用來區(qū)分語音段和非語音段,以及判斷清音和濁音。短時過零率是指在一個短時窗口內(nèi),信號從正到負(fù)或從負(fù)到正穿過零點的次數(shù)。因為清音往往具有較高的過零率,而濁音的過零率相對較低,所以這個特征對于語音信號中的清音和濁音的區(qū)分特別有用。為了提供更全面的語音信號特征描述,短時能量和短時過零率通常一起使用。2.2TensorFlow深度學(xué)習(xí)框架本論文的語音識別系統(tǒng)是基于TensorFlow深度學(xué)習(xí)框架編寫的,接下來詳細(xì)介紹該框架。TensorFlow是由美國Google公司開發(fā)并維護(hù)的一個開源的深度學(xué)習(xí)框架,其設(shè)計目標(biāo)是提供一個可擴(kuò)展、高性能的深度學(xué)習(xí)框架以適用于各種應(yīng)用場景,它支持GPU、CPU和TPU硬件,可用于訓(xùn)練和部署深度學(xué)習(xí)模型。其基本概念包括以下三個部分:計算圖(Graph):它表示TensorFlow中的計算模型,由一系列操作(Operation)和張量組成,用于描述數(shù)據(jù)流和計算過程。會話(Session):會話用于執(zhí)行TensorFlow計算圖中的操作,可以訓(xùn)練和測試神經(jīng)網(wǎng)絡(luò)模型。變量(Variable):代表TensorFlow中的可訓(xùn)練參數(shù),如神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置。除了這些基概念外,TensorFlow的核心是張量(Tensor),它是一個多維數(shù)組,能夠表示數(shù)據(jù)和模型參數(shù),這個框架提供了一種簡潔的語法,可以方便地表示和操作張量,使得它非常適合用于深度學(xué)習(xí)任務(wù)。2.3基于深度學(xué)習(xí)的語音識別算法2.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種常用于處理具有網(wǎng)格結(jié)構(gòu)數(shù)據(jù)(如圖像、音頻)的深度學(xué)習(xí)模型,在圖像識別、計算機(jī)視覺和模式識別等領(lǐng)域取得了顯著的成功。周林錦,楊君子,孫朝云,等.基于深度學(xué)習(xí)的宏觀風(fēng)資源評估與風(fēng)電場選址[J].農(nóng)業(yè)與技術(shù),2024,44(06):86-90.DOI:10.19754/j.nyyjs.20240330019.周林錦,楊君子,孫朝云,等.基于深度學(xué)習(xí)的宏觀風(fēng)資源評估與風(fēng)電場選址[J].農(nóng)業(yè)與技術(shù),2024,44(06):86-90.DOI:10.19754/j.nyyjs.20240330019.CNN主要包括卷積層,池化層和全連接層三個部分,下面詳細(xì)介紹這三個部分的原理:卷積層:該層的主要功能是通過卷積操作,參數(shù)共享和局部感知等方式來提取輸入數(shù)據(jù)的局部特征,并使用激活函數(shù)等技術(shù)來提高網(wǎng)絡(luò)的表達(dá)能力和訓(xùn)練穩(wěn)定性。卷積操作通過濾波器與輸入數(shù)據(jù)進(jìn)行卷積運算,可以有效捕獲輸入數(shù)據(jù)的空間結(jié)構(gòu)信息,生成特征圖。卷積操作的數(shù)學(xué)表達(dá)式如下:zzij表示卷積后的特征圖中的元素,xi+m,j+n表示輸入數(shù)據(jù)的元素,wmnReLU激活函數(shù):在卷積層后面通常會加一個激活函數(shù),ReLU就是一個典型的激活函數(shù),其作用是引入非線性特性,使得模型可以擬合復(fù)雜的非線性函數(shù),ReLU函數(shù)具有簡單高效的特點,同時還能加速訓(xùn)練過程,其數(shù)學(xué)表達(dá)如下:f(x)=max(0,x)即輸入值x大于0時輸出x,小于0時輸出0。池化層:該層的主要作用是降低數(shù)據(jù)維度,減少計算量,增強模型的魯棒性。池化操作通過在特征圖上滑動一個大小固定的窗口,并對窗口內(nèi)數(shù)據(jù)的最大值,平均值等進(jìn)行聚合操作得到一個更小的特征圖,從而達(dá)到降低數(shù)據(jù)維度,節(jié)省計算資源的作用。此外池化操作不會改變數(shù)據(jù)的微小變化,從而增強了模型的魯棒性。池化操作的數(shù)學(xué)表達(dá)如下:yyij全連接層:全連接層位于整個神經(jīng)網(wǎng)絡(luò)的后部,該層的作用是整合前面卷積層和池化層所提取到的特征,并進(jìn)行分類和決策。全連接層中的神經(jīng)元與前一層的所有神經(jīng)元相連,通過權(quán)重和偏置項進(jìn)行線性變換和激活函數(shù)處理,得到最終的輸出結(jié)果。全連接層的數(shù)學(xué)表達(dá)式為:y=fW是權(quán)重矩陣,x是輸入特征向量,b是偏置向量,f是激活函數(shù),y是輸出結(jié)果。2.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一類專門用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其基本結(jié)構(gòu)可包括輸入層,隱藏層和輸出層。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同的是,RNN在隱藏層引入了一個通過在時間步之間共享網(wǎng)絡(luò)參數(shù)實現(xiàn)的循環(huán)連接,使得網(wǎng)絡(luò)能夠記住之前的信息,并用于當(dāng)前的計算,這樣RNN就能捕捉序列信息中的時間依賴關(guān)系,因此在自然語言處理、語音識別、時間序列預(yù)測等領(lǐng)域有著廣泛的應(yīng)用。接下來將詳細(xì)介紹RNN中隱藏狀態(tài)和循環(huán)連接這兩種關(guān)鍵技術(shù)隱藏狀態(tài):隱藏狀態(tài)充當(dāng)著網(wǎng)絡(luò)記憶的角色,在每一個時間步隱藏狀態(tài)都會更新,它允許RNN將過去的信息傳遞到未來的時間步中,從而能夠考慮到先前的上下文來做出決策。RNN的隱藏狀態(tài)的更新公式為:?y其中xt為輸入,?t?1為前一個時間步的隱藏狀態(tài),?t為當(dāng)前時間步的隱藏狀態(tài),yt為預(yù)測結(jié)果,Whx和Whh是輸入到隱藏層和隱藏層到隱藏層的權(quán)重矩陣,Wyh是隱藏層到輸出層的權(quán)重矩陣,b循環(huán)連接:循環(huán)連接實現(xiàn)了隱藏狀態(tài)在時間步之間的傳遞,是RNN的核心特性,它允許信息在網(wǎng)絡(luò)中隨時間流動,從而使得RNN能夠處理序列數(shù)據(jù)中的時間依賴性。連接方式:在每個時間步,RNN的隱藏層不僅接收來自當(dāng)前時間步的輸入,還通過循環(huán)連接接收上一個時間步的隱藏狀態(tài)。這種連接形成了一個“循環(huán)”,使得信息能夠在時間步之間傳遞。參數(shù)共享:RNN的重要特點是它的參數(shù)在所有時間步中共享,無論序列的長度多長,RNN對于每個時間步的輸入和隱藏狀態(tài)的時候都以同樣的權(quán)重來進(jìn)行處理。2.3.3長短期記憶網(wǎng)絡(luò)RNN的優(yōu)勢在于能夠處理不定長的序列數(shù)據(jù),并且能夠捕捉序列中的長期依賴關(guān)系。但傳統(tǒng)的RNN存在梯度消失或梯度爆炸的問題,以至于難以訓(xùn)練長序列數(shù)據(jù)。,長短時記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)等變種結(jié)構(gòu)的提出,有效改善了RNN的性能。LSTM網(wǎng)絡(luò)結(jié)構(gòu)是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的變種,通過門控機(jī)制來解決RNN無法處理長距離依賴的問題。LSTM網(wǎng)絡(luò)結(jié)構(gòu)是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的變種,通過門控機(jī)制來解決RNN無法處理長距離依賴的問題。楊武俊.基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的購物評價情感分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2024,(04):66-68.本論文即用的是長短期記憶網(wǎng)絡(luò)來實現(xiàn)的語音識別系統(tǒng)。楊武俊.基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的購物評價情感分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2024,(04):66-68.LSTM網(wǎng)絡(luò)由一系列LSTM單元組成,每個LSTM單元包含一個記憶單元(cell)和三個門控單元:輸入門(inputgate)、遺忘門(forgetgate)和輸出門(outputgate)。這些門控單元用于控制信息的流動和更新。接下來將詳細(xì)介紹這三個單元輸入門:該門控單元控制著新信息流入記憶單元(cellstate)的程度。與遺忘門協(xié)同工作,決定了哪些新信息將被添加到記憶單元中,以及添加信息的量。LSTM單元在每個時間步都會接收到當(dāng)前的輸入數(shù)據(jù)和上一個時間步的隱藏狀態(tài)以及記憶單元狀態(tài)。輸入門運用sigmoid激活函數(shù)來得到一個處于0和1之間的數(shù)值。這個數(shù)值決定了當(dāng)前輸入信息進(jìn)入記憶單元的比例。如果sigmoid函數(shù)的輸出值接近0,那么幾乎不允許任何新信息流入;而當(dāng)其輸出值接近1時,則表示大部分乃至全部的新信息都被允許流入記憶單元。計算出的值與當(dāng)前輸入的候選記憶單元值(通常通過tanh激活函數(shù)得到)相乘,從而控制新信息流入記憶單元的量。t時間步時輸入門的值的計算公式如下:it其中Wxi是當(dāng)前輸入與輸入門之間的權(quán)重矩陣,Whi是上一個時間步的隱藏狀態(tài)與輸入門之間的權(quán)重矩陣,xt是當(dāng)前時間步的輸入數(shù)量,?t?1是上一個時間步的隱藏狀態(tài)向量,bi是輸入門的偏置項,σ是Sigmoid激活函數(shù),其作用是將結(jié)果壓縮到0到1之間。同時LSTM還會計算一個候選的記憶單元值C~t,其計算方式通常如下:C~其中Wxc是前輸入與候選記憶單元之間的權(quán)重矩陣,Whc是上一個時間步的隱藏狀態(tài)與候選記憶單元之間的權(quán)重矩陣,bc是候選記憶單元的偏置項,tan?是雙曲正切激活函數(shù),用于將結(jié)果壓縮到-1和1之間。最后,利用輸入門和候選記憶單元的值來更新當(dāng)前的記憶單元狀態(tài)CtC其中ft是遺忘門的值(由另一個類似的sigmoid函數(shù)計算得出),

Ct?1是上一個時間步的記憶單元狀態(tài),⊙表示逐元素的乘法(Hadamard積)。輸入門更新記憶單元狀態(tài)的流程大致如下圖所示:遺忘門:遺忘門的作用是防止信息過載,從而有選擇性的丟棄無關(guān)的信息,從而控制信息的流入。葛學(xué)志.基于深度學(xué)習(xí)的機(jī)器閱讀理解算法研究[D].電子科技大學(xué),2019.遺忘門決定了記憶單元(cellstate)中哪些信息應(yīng)該被“遺忘”或丟棄,使得LSTM能夠處理長期依賴并保持信息的關(guān)鍵部分,忘記不重要的信息,從而防止信息過載。遺忘門接受的輸入與輸入門一致,同時也是利用Sigmoid激活函數(shù)來計算值,只是相關(guān)公式不一樣,以下是遺忘門涉及到的相關(guān)公式。葛學(xué)志.基于深度學(xué)習(xí)的機(jī)器閱讀理解算法研究[D].電子科技大學(xué),2019.計算時間步t的遺忘門值:fWxf是當(dāng)前輸入與遺忘門之間的權(quán)重矩陣,Whf是上一個時間步的隱藏狀態(tài)與遺忘門之間的權(quán)重矩陣,xt是當(dāng)前時間步的輸入向量,ht?1是上一個時間步的隱藏狀態(tài)向量,bf是遺忘門的偏置項。在計算得遺忘門的值后,記憶單元會根據(jù)以下公式進(jìn)行更新:CCt?1是上一個時間步的記憶單元狀態(tài),it是輸入門的值,C~t是當(dāng)前時間步的候選記憶單元值。輸出門:輸出門的主要作用是根據(jù)記憶單元的狀態(tài)和上一個時間步的隱藏狀態(tài)來決定當(dāng)前時間步的輸出,控制從記憶單元(cellstate)到LSTM單元輸出的信息流。輸出門也使用一個sigmoid激活函數(shù)來計算一個介于0和1之間的值,計算出輸出門的值后,記憶單元的狀態(tài)會通過一個tanh激活函數(shù),將其值壓縮到-1和1之間。然后輸出門的值與經(jīng)過tanh處理的記憶單元狀態(tài)相乘,得到LSTM單元的最終輸出。輸出門的計算公式如下:oWxo是當(dāng)前輸入與輸出門之間的權(quán)重矩陣,

Who是上一個時間步的隱藏狀態(tài)與輸出門之間的權(quán)重矩陣,

xt是當(dāng)前時間步的輸入向量,ht是上一個時間步的隱藏狀態(tài)向量,bo是輸出門的偏置項。當(dāng)前時間步的隱藏狀態(tài),即LSTM單元的最終輸出由以下公式得到:?其中Ct是當(dāng)前時間步的記憶單元狀態(tài)。2.4語音識別系統(tǒng)的性能評價指標(biāo)語音識別系統(tǒng)的性能評價需要依據(jù)參考序列和識別輸出序列的相同程度,測試集的錯誤率也是衡量模型性能好壞的重要指標(biāo)。黃夢婷.基于發(fā)音特征CNN識別模型的昆曲演唱字音研究[D].東華大學(xué),2023.DOI:10.27012/ki.gdhuu.2023.001075.語音識別系統(tǒng)的性能評價指標(biāo)用于評估一個語音識別系統(tǒng)的各方面性能,反映出系統(tǒng)的不足從而進(jìn)行改進(jìn),常用的評價指標(biāo)有識別準(zhǔn)確率(Accuracy)、誤識率(FalseAcceptanceRate,FAR)、拒識率(FalseRejectionRate,FRR)、召回率(Recall)、精確率(Precision)等。識別準(zhǔn)確率是判斷系統(tǒng)整體性能好壞的關(guān)鍵標(biāo)準(zhǔn),它顯示了系統(tǒng)能正確認(rèn)出多少語音指令。誤識率和拒識率則是評估系統(tǒng)會不會認(rèn)錯或者漏掉一些指令,召回率和精確率能更深入地展現(xiàn)系統(tǒng)的工作效果。在語音識別領(lǐng)域,還有識別速度、反應(yīng)時間和穩(wěn)定性這幾個指標(biāo),識別速度就是系統(tǒng)處理語音指令的快慢,一般看系統(tǒng)每秒能處理多少條指令。反應(yīng)時間這個指標(biāo),主要是看系統(tǒng)能不能快速地處理用戶實時的語音輸入。穩(wěn)定性就是看系統(tǒng)在各種環(huán)境下,比如嘈雜的環(huán)境或者遇到不同口音時,是否能準(zhǔn)確地識別語音指令。下表是其中幾個常用的評價指標(biāo)及其公式:黃夢婷.基于發(fā)音特征CNN識別模型的昆曲演唱字音研究[D].東華大學(xué),2023.DOI:10.27012/ki.gdhuu.2023.001075.指標(biāo)定義公式識別準(zhǔn)確率正確識別語音命令的比例Accuracy=誤識率錯誤接受的比例FAR=拒識率錯誤拒絕的比例FRR=召回率正確識別為正例的比例Recall=精確率正確識別為正例的比例Precision=第3章基于長短期記憶網(wǎng)絡(luò)的語音命令識別系統(tǒng)設(shè)計與實現(xiàn)在上一章中介紹了幾個深度神經(jīng)網(wǎng)絡(luò)的原理,其中,對長短時記憶網(wǎng)絡(luò)(LSTM)的原理進(jìn)行了較為闡述。在此基礎(chǔ)上,本章將詳細(xì)研究基于LSTM的語音識別系統(tǒng)的設(shè)計,并給出具體過程。3.1語音識別基本流程語音識別的基本流程可大致分為模型訓(xùn)練和語音識別兩個過程,本文采用的是基于長短時記憶網(wǎng)絡(luò)的序列對序列的模型算法,下圖為語音識別的基本流程:圖3.1.1語音識別基本流程語音信號進(jìn)入系統(tǒng)前都要進(jìn)行預(yù)處理,以便于模型更好識別,不同的是模型訓(xùn)練階段用的是標(biāo)注好的語音數(shù)據(jù)集,這些數(shù)據(jù)集已經(jīng)進(jìn)行了標(biāo)注對齊,具有一定的規(guī)模,模型訓(xùn)練需要這樣有一定規(guī)模的標(biāo)注好了的數(shù)據(jù),而識別過程則是利用已經(jīng)訓(xùn)練好了的識別模型,此時模型已經(jīng)學(xué)習(xí)了語音到文字的映射,則不需要標(biāo)注,直接通過麥克風(fēng)或別的方式獲取即可。與處理過后的語音信號接下來會交給LSTM模型進(jìn)行特征提取,該模型能自動提取出音頻信號中的高級特征,以供于模型識別或訓(xùn)練。訓(xùn)練過程中,提取到的特征會用于模型的訓(xùn)練,模型通過這些特征和所給的特征對應(yīng)的標(biāo)簽(文字或拼音等的序列)來學(xué)習(xí)特征到文字的映射;識別時,提取到的特征則直接交給模型,因為此時模型已經(jīng)能夠通過語音特征映射到相應(yīng)的標(biāo)簽序列上。模型最后會基于語音信號特征輸出語音信號對應(yīng)的標(biāo)簽的概率密度,而語言模型則分析這些概率密度,產(chǎn)生最有可能的結(jié)果并輸出。3.2系統(tǒng)總體設(shè)計思路語音識別系統(tǒng)分為訓(xùn)練和識別兩個部分,本文章的總體設(shè)計思路是先構(gòu)建一個語音識別模型,通過收集到的標(biāo)記過好的數(shù)據(jù)集先實現(xiàn)訓(xùn)練部分,經(jīng)過訓(xùn)練部分得到訓(xùn)練好的模型后,再識別部分可以直接使用這個模型進(jìn)行使用。在訓(xùn)練部分,思路是將音頻信號提取出來的特征(本文使用的是MFCC特征)放入模型中進(jìn)行學(xué)習(xí),模型學(xué)習(xí)后輸出一個關(guān)于特征的概率分布圖,最后用語音信號所對應(yīng)的標(biāo)簽(本文使用的是文本對應(yīng)的拼音)跟模型輸出的概率分布圖進(jìn)行對比,并通過這個對比結(jié)果調(diào)整模型內(nèi)的超參數(shù),最后達(dá)到理想的輸出結(jié)果,這是一種有監(jiān)督學(xué)習(xí)的方式,其流程大致如下;圖3.2.1訓(xùn)練部分流程訓(xùn)練好的模型保存后就可以直接用于語音識別了,其過程就簡單很多,但由模型學(xué)習(xí)到的只是局部特征,因此輸出的字可能只是分開的單個的字的概率分布,想要最終將語音信號的語句整句合理輸出,還需要再添加一個語言模型,語言模型會分析這個概率密度,最終得到最有可能的語句并進(jìn)行輸出,這個流程大致如下:圖3.2.2語音識別流程3.3語音命令識別系統(tǒng)軟件設(shè)計及實現(xiàn)根據(jù)3.2節(jié)所介紹的系統(tǒng)設(shè)計思路,本章將具體介紹系統(tǒng)的各部分的具體實現(xiàn)。3.3.1數(shù)據(jù)集與預(yù)處理模型訓(xùn)練需要大量的音頻數(shù)據(jù)以及音頻數(shù)據(jù)對應(yīng)的標(biāo)簽。本文中清晰語音樣本來自于清華大學(xué)語音與語言技術(shù)中心發(fā)布的開源中文語音數(shù)據(jù)集THCHS30,總時長大約40h,采樣率為16kHz,采樣大小16bit。代欣學(xué),范松濤,周燕.基于ResUnet和TFGAN網(wǎng)絡(luò)的激光麥克風(fēng)語音增強方法[J].紅外與激光工程,2023,52(10):81-91.代欣學(xué),范松濤,周燕.基于ResUnet和TFGAN網(wǎng)絡(luò)的激光麥克風(fēng)語音增強方法[J].紅外與激光工程,2023,52(10):81-91.而語音識別時則需要使用麥克風(fēng)進(jìn)行采樣輸入,本文的系統(tǒng)是基于python實現(xiàn)的,語音信號輸入我門采用的是python中的sounddevice庫。該庫是一個用于音頻錄制和播放的Python庫,提供了對PortAudio音頻I/O庫的封裝,以直觀的API進(jìn)行音頻處理,并且該庫是跨平臺的,支持多種操作系統(tǒng)和硬件設(shè)備。由于識別部分和訓(xùn)練部分對音頻信號的預(yù)處理過程是一樣的,且訓(xùn)練部分所使用的數(shù)據(jù)集采樣率為16kHz,采樣大小為16bits,因此在語音輸入算法中,我們默認(rèn)將采樣率和采樣大小設(shè)置為16kHz和16bits,然后將錄音的數(shù)據(jù)保存在一個numpy數(shù)組中并寫入一個WAV文件,以與訓(xùn)練數(shù)據(jù)集保持一致,使系統(tǒng)統(tǒng)一化。音頻信號的采集流程如圖3.3.1-1所示。圖3.3.1-1音頻信號采集流程圖有了數(shù)據(jù)集和語音輸入之后,需要對音頻信號進(jìn)行預(yù)處理,本文章對音頻信號的預(yù)處理主要包括:對語音信號的高頻部分進(jìn)行預(yù)加重,增強分辨率,對預(yù)加重后語音信號進(jìn)行分幀加窗,將其轉(zhuǎn)化為短時平穩(wěn)分析幀。王益君,龍苗苗.情感框架、意見領(lǐng)袖與政府信任[J].情報探索,2024,(02):41-47.以下是這些步驟的詳細(xì)介紹。王益君,龍苗苗.情感框架、意見領(lǐng)袖與政府信任[J].情報探索,2024,(02):41-47.預(yù)加重:預(yù)加重的原理提升高頻部分,增加語音的高頻分辨率,從而去除口唇輻射的影響,通過一個一階FIR高通濾波器來實現(xiàn),其傳遞函數(shù)為H(z)=1-αz^(-1),其中α是預(yù)加重系數(shù),通常取值在0.9到1.0之間。音頻信號預(yù)加重前后對比大致如圖3.1.1-2所示3.3.1-2預(yù)加重前后對比圖分幀加窗:由于語音信號是時變的,為了處理方便,會將語音信號分成多個短時幀,以保證在短時間內(nèi)語音信號的特性可以看作是平穩(wěn)的。同時,為了保持幀與幀之間的連續(xù)性,相鄰幀之間會有一定的重疊,本文章采用的幀長是30毫秒,幀移是10毫秒,采用的窗函數(shù)是漢明窗。對信號的分幀示意圖如下:3.3.1-3信號分幀示意圖其中N為幀長,M為幀移。加窗的目的是為了減少頻譜泄漏,并使得幀與幀之間的過渡更加平滑。常用的窗函數(shù)包括Hamming窗、Hanning窗等,本文所使用的窗函數(shù)為漢明窗,其公式為漢明窗的時域波形圖和幅度特性圖如圖3.3.1-4所示3.3.1-4漢明窗的時域波形圖和幅度特性圖在幅度特性圖中,我們使用了FFT(快速傅里葉變換)來計算漢明窗的頻譜,并將其轉(zhuǎn)換為分貝值后進(jìn)行繪制。在進(jìn)行了一系列預(yù)處理過程后,我們需要提取出音頻信號中的升學(xué)特征,這些聲學(xué)特征將會被用到模型的訓(xùn)練和識別過程中,本文選用的音頻信號的聲學(xué)特征為梅爾頻率倒譜系數(shù)(MFCC),上文中已經(jīng)介紹過該特征。在python中提取MFCC的步驟可以使用Librosa庫便捷的計算出來,接下來我將介紹其具體過程和相應(yīng)的原理??焖俑道锶~變換(FFT)。其作用是將音頻信號從時域轉(zhuǎn)換到頻域,在具體操作時,需要將分幀后的每一幀進(jìn)行快速傅里葉變換從而得到每一幀的頻譜表示。快速傅里葉變換的公式如下:X其中,0≤k≤N?1,j

是虛數(shù)單位。Mel濾波器組。

Mel濾波器組通過一組相互交疊的、中心頻率呈非線性分布的三角形帶通濾波器組將線性頻譜轉(zhuǎn)化為基于Mel頻率尺度的非線性頻譜,符合人耳的聽覺特性,具有良好的識別性能和抗噪能力,已被廣泛應(yīng)用于語音識別和水下目標(biāo)識別中。王勇,宋玉寶,魏春華,等.基于Mel譜特征提取的直升機(jī)聲信號識別[J].計算機(jī)仿真,2022,39(05):66-70.線性頻譜轉(zhuǎn)化為Mel刻度的數(shù)學(xué)表示如下:王勇,宋玉寶,魏春華,等.基于Mel譜特征提取的直升機(jī)聲信號識別[J].計算機(jī)仿真,2022,39(05):66-70.MMel濾波器的設(shè)計思路是在Mel刻度上均勻選擇一系列點作為濾波器的中心頻率,然后在這些中心頻率上設(shè)計三角濾波器,每個三角濾波器的形狀由三個點確定:濾波器的起始點、中心點和終止點。這些點在Mel刻度上是等距的,但在線性頻率上是不等距的。對于每個三角濾波器,其響應(yīng)函數(shù)是一個三角形,在中心頻率處取最大值,然后向左右兩邊逐漸減小,直到頻率為0;當(dāng)輸入信號的頻率落在濾波器的帶寬內(nèi)時,濾波器會有響應(yīng)輸出,將信號的頻譜(上一步計算得到的FFT結(jié)果)與Mel濾波器組進(jìn)行卷積操作。這個過程可以看作是將信號的頻譜分量與每個濾波器的響應(yīng)函數(shù)相乘,并求和,每個濾波器都會輸出一個對應(yīng)的能量值,表示在該濾波器對應(yīng)的頻帶內(nèi)信號的強度。以下是一個包含23個Mel濾波器的頻率響應(yīng)圖。3.3.1-5濾波器相應(yīng)圖對數(shù)運算。對數(shù)運算能夠增強低能量頻段的特征,有助于后續(xù)的特征提取,其具體操作是對每一個濾波器的輸出取對數(shù),壓縮數(shù)據(jù)并使其更符合人耳的感知特性。其公式為:y其中?是防止對0取對數(shù)的極小正數(shù)。將對數(shù)運算的結(jié)果進(jìn)行離散余弦變換(DCT),公式如下所示,該公式所運算得到的結(jié)果即為MFCC系數(shù)。XX[k]

表示離散余弦變換(DCT)的系數(shù),它是一個以k為索引的序列,n=0∑N?1表示對從0到N?1的所有整數(shù)n進(jìn)行求和,是變換的核函數(shù),cos(2Nπk(2n+1)它是一個余弦函數(shù),其頻率和相位由k、n和N共同決定。綜上所述,本文音頻信號預(yù)處理以及提取MFCC系數(shù)的步驟如圖3.3.1-6所示3.3.1-6MFCC系數(shù)提取步驟3.3.2編碼器設(shè)計本文所設(shè)計的語音識別模型是一個基于序列到序列(Seq2Seq)的模型,采用的是編碼器-解碼器(Encoder-Decoder)架構(gòu)。接下來我將詳細(xì)介紹其中的編碼器設(shè)計輸入層:該層的作用是接收原始數(shù)據(jù)并將其傳遞給后續(xù)的神經(jīng)網(wǎng)絡(luò)層進(jìn)行處理,在本文的數(shù)據(jù)處理中將MFCC系數(shù)設(shè)置為了13,即對每幀提取13個MFCC系數(shù),同時為了方便模型訓(xùn)練時的批處理,將所有音頻文件填充至了510幀,相當(dāng)于十秒左右,這意味著在使用這個模型進(jìn)行語音識別時輸入音頻的時長不能超過十秒,這在語音識別中顯得很短,但受限于數(shù)據(jù)集音頻長度才設(shè)置為這個值,同時在語音命令識別中也是能夠滿足大多數(shù)場景使用的。因此本文將輸入層的輸入形狀設(shè)計為(510,13)。輸入形狀是一個矩陣,其具體形狀大致如:其中每一行代表第幾個時間步,每一列代表在該時間步中第幾個特征值。3.3.3解碼器設(shè)計解碼器接受編碼器的上下文信息(通過LSTM的狀態(tài)傳遞)并生成一個輸出序列,這個輸出序列通過時間分布的全連接層和softmax激活函數(shù)轉(zhuǎn)換為每個時間步的類別預(yù)測概率,損失函數(shù)被設(shè)計為在計算時忽略填充值,以適應(yīng)可變長度的序列。接下來將詳細(xì)介紹解碼器中的各個組成部分。輸入層:輸入層接受的是處理后的音頻信號對應(yīng)的標(biāo)簽(本文采用的是拼音),其形狀為(48,1),這意味著每個拼音序列長度都為48,為了便于批處理,本文已經(jīng)對拼音序列進(jìn)行了填充,填充方法是用數(shù)字-1進(jìn)行填充,后面將詳細(xì)介紹這個數(shù)字的作用。因為LSTM天然的能處理變產(chǎn)序列的對齊,并且標(biāo)簽序列通常遠(yuǎn)小于音頻信號特征序列,因此并沒有將標(biāo)簽序列填充到跟音頻特征序列一樣的長度。LSTM層:編碼器中的LSTM層將輸入序列編碼為一個內(nèi)部表示(即狀態(tài)),這個內(nèi)部表示被傳遞給解碼器作為其初始狀態(tài),LSTM層則利用這個初始狀態(tài)來生成輸出序列,然后通過比對輸出序列與輸入序列,學(xué)習(xí)到輸入序列和輸出序列之間的復(fù)雜映射關(guān)系。本文中系統(tǒng)設(shè)置的LSTM層的單元數(shù)為128,即隱藏層神經(jīng)元的數(shù)量。時間分布全連接層:全連接層接收LSTM層的輸出,對每個時間步的輸出都應(yīng)用一個全連接層。然后全連接層將LSTM的輸出轉(zhuǎn)換為與輸出類別數(shù)量(output_dim)相同的維度,在本文中這個維度代表的是1209個獨特的拼音標(biāo)簽(其中包括一個表示填充部分的-1),并通過softmax激活函數(shù)進(jìn)行歸一化,從而得到每個類別的預(yù)測概率。損失函數(shù)和優(yōu)化器:本文所使用的損失函數(shù)為自定義的損失函數(shù),在該損失函數(shù)中給填充值-1一個很小,接近于0的權(quán)重以減少填充部分對模型識別的影響。最后使用Adam優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置為0.001。綜上所述,本文章設(shè)計的語音識別系統(tǒng)的整體結(jié)構(gòu)大概如圖3.3.2所示3.3.2模型結(jié)構(gòu)第4章實驗設(shè)計及結(jié)果分析4.1實驗設(shè)計簡介對于訓(xùn)練好的語音識別模型,保存后即可用于實際使用中了。但在實際使用之前,還需要對模型進(jìn)行評估和調(diào)整,使其能以較好的性能投入使用中。本文的實驗以識別準(zhǔn)確率(SpeechRecognitionAccuracyRate)為基礎(chǔ)進(jìn)行設(shè)計。在訓(xùn)練模型前,我已經(jīng)從THCHS30數(shù)據(jù)集中分離出一部分語音數(shù)據(jù)集與對應(yīng)的標(biāo)簽,這些標(biāo)簽未被用于模型的訓(xùn)練,因此模型并未見過這些數(shù)據(jù),因此用這些數(shù)據(jù)集來進(jìn)行測試。但考慮到訓(xùn)練數(shù)據(jù)跟測試數(shù)據(jù)都來自一個數(shù)據(jù)集,擁有相同的錄制環(huán)境和錄制設(shè)備,為了實驗的嚴(yán)謹(jǐn)性,我們還將自己錄制一個手動標(biāo)記的數(shù)據(jù)集進(jìn)行測試,這里我們稱之為自備數(shù)據(jù)集。4.2實驗方法和流程本文所設(shè)計的實驗方法是將測試集和自備數(shù)據(jù)集用于語音識別系統(tǒng),將識別的結(jié)果保存,最后通過一段代碼來比較模型輸出結(jié)果與真實標(biāo)記從而計算語音識別準(zhǔn)確率。由于語音命令的嚴(yán)謹(jǐn)性,本文的識別準(zhǔn)確率公式將以一條語音為計量單位,即模型輸出與真實標(biāo)簽之間不一致即視為該語音識別失敗,這樣,我們的語音識別準(zhǔn)確率公式可以這么表示:同時為了比較自備語音數(shù)據(jù)集與測試集之間的區(qū)別,我們將得到兩個識別準(zhǔn)確率。實驗流程:首先將測試集和自備數(shù)據(jù)集保存至兩個不同的目錄中,同時也準(zhǔn)備兩個相應(yīng)的以命名區(qū)分的目錄用來存放模型的輸出,然后將自備語音數(shù)據(jù)集與測試集分別用于模型中并將模型輸出存入相應(yīng)的模型輸出存放目錄下,緊接著使用代碼來分別檢查計算兩個數(shù)據(jù)集的語音識別準(zhǔn)確率并保存,該代碼的運行原理是創(chuàng)建兩個變量,分別為語音識別正確數(shù)(CorrectSpeechRecognitionCount)和語音識別數(shù)(SpeechRecognitionCount/Number),并根據(jù)文件目錄進(jìn)行逐個比對,若一個文件比對成功,則語音識別正確數(shù)和語音識別總數(shù)均加1,若比對失敗,則只增加語音識別數(shù),最后語音識別數(shù)即為語音總數(shù)代入上述公式中進(jìn)行語音識別正確率計算。整個流程大概如圖4.2所示4.2實驗流程4.3實驗結(jié)果及分析本文是將THCHS30文件里以D開頭的音頻信號劃作了測試集,一共有2495段音頻,而由于音頻的手動標(biāo)記的工程量巨大,我們所準(zhǔn)備的自備數(shù)據(jù)集則小得多,一共有300段音頻。下表是這兩個數(shù)據(jù)集在實驗中得到的結(jié)果:數(shù)據(jù)集正確識別數(shù)識別總數(shù)識別正確率測試集2176249587.2%自備數(shù)據(jù)集23430078.00%4.3實驗結(jié)果結(jié)果分析:根據(jù)上表可以看出本模型在測試數(shù)據(jù)集中的表現(xiàn)要遠(yuǎn)好于自備數(shù)據(jù)集,分析原因可能是因為自備數(shù)據(jù)集的錄音環(huán)境比較差,同時也與本文中識別正確率的的計算方法有關(guān),有一個字錯即算做識別失敗,還有就是THCH30數(shù)據(jù)集是在安靜的辦公室環(huán)境下,通過單個碳粒麥克風(fēng)進(jìn)行錄取的,而自備數(shù)據(jù)集則是本人在家中錄制,很難達(dá)到訓(xùn)練集的錄音質(zhì)量,同時還存在說話口音的干擾因素。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論