【《回歸算法在深度學(xué)習(xí)中的應(yīng)用研究》17000字(論文)】_第1頁(yè)
【《回歸算法在深度學(xué)習(xí)中的應(yīng)用研究》17000字(論文)】_第2頁(yè)
【《回歸算法在深度學(xué)習(xí)中的應(yīng)用研究》17000字(論文)】_第3頁(yè)
【《回歸算法在深度學(xué)習(xí)中的應(yīng)用研究》17000字(論文)】_第4頁(yè)
【《回歸算法在深度學(xué)習(xí)中的應(yīng)用研究》17000字(論文)】_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

v回歸算法在深度學(xué)習(xí)中的應(yīng)用研究目錄TOC\o"1-3"\h\u5104第一章緒論 231177一、課題的背景與研究意義 220128二、研究現(xiàn)狀 412322三、研究的主要內(nèi)容 520986第二章深度學(xué)習(xí)與卷積、遞歸神經(jīng)網(wǎng)絡(luò) 59743一、人工智能、深度學(xué)習(xí)與自然語(yǔ)言處理 55861(一)人工智能 628497(二)深度學(xué)習(xí) 620154(三)自然語(yǔ)言處理 731271二、語(yǔ)音識(shí)別與自然語(yǔ)言處理 720437(一)N-gram模型 826648(二)RNNLM模型 1012250(三)HMM模型 1120899(四)DNN-HMM模型 1216651(五)RNN模型 1429884三、本章小結(jié) 154956第三章基于深度學(xué)習(xí)語(yǔ)音識(shí)別中聲學(xué)模型的分析與實(shí)現(xiàn) 153087一、聲學(xué)模型建模技術(shù) 1524368二、構(gòu)建聲學(xué)模型 1615695(一)GRU-CTC模型 1611996(二)DFSMN模型 2216167(三)DFCNN模型 231380三、CTC中的前向后向算法 247042四、實(shí)驗(yàn)設(shè)計(jì) 2729717(一)模型框架與數(shù)據(jù)集介紹 2722855(二)算法實(shí)現(xiàn)調(diào)試與分析 2824032(三)實(shí)驗(yàn)訓(xùn)練與測(cè)試結(jié)果 3128858五、本章小節(jié) 3224231第四章基于深度學(xué)習(xí)語(yǔ)音識(shí)別中語(yǔ)言模型的分析與實(shí)現(xiàn) 3318466一、語(yǔ)言模型建模技術(shù) 3315834二、構(gòu)建語(yǔ)言模型 338806(一)CBHG模型 3320248(二)Transformer模型 3430647三、優(yōu)化算法——Adam優(yōu)化器 3630889四、實(shí)驗(yàn)設(shè)計(jì) 3712431(一)模型框架與數(shù)據(jù)集介紹 375912(二)算法實(shí)現(xiàn)調(diào)試與分析 3815745(三)實(shí)驗(yàn)測(cè)試結(jié)果 4028202五、本章小結(jié) 416832第五章總結(jié)與展望 42第一章緒論本章重點(diǎn)探討了語(yǔ)音識(shí)別的語(yǔ)言模型及聲學(xué)模型,首先對(duì)該課題的研究背景與意義進(jìn)行了分析,然后對(duì)本課題相關(guān)的國(guó)內(nèi)外研究現(xiàn)狀展開(kāi)了梳理與介紹,最后詳細(xì)說(shuō)明了本課題的研究任務(wù),同時(shí)對(duì)本文的章節(jié)安排和組織結(jié)構(gòu)進(jìn)行了介紹。一、課題的背景與研究意義人類交流與通信的形式主要是語(yǔ)言,這是最方便,最重要,最有效,同時(shí)也是最為常用的,而語(yǔ)音屬于語(yǔ)言具體的聲學(xué)表現(xiàn)方式,人類長(zhǎng)期以來(lái)就有個(gè)夢(mèng)想,希望能夠?qū)崿F(xiàn)同機(jī)器實(shí)現(xiàn)語(yǔ)音交流。由于計(jì)算機(jī)技術(shù)的發(fā)展非??欤谡Z(yǔ)音識(shí)別技術(shù)方面的突破性成就也很多,人類正在逐步實(shí)現(xiàn)與機(jī)器的語(yǔ)音直接溝通。語(yǔ)音識(shí)別技術(shù)具有非常廣泛的應(yīng)用范圍,除了可以在人類日常生活中各方面使用以外,在軍事領(lǐng)域所發(fā)揮的作用也在不斷凸顯。該技術(shù)有利于推動(dòng)信息社會(huì)實(shí)現(xiàn)自動(dòng)化與智能化,便于人類更快捷地獲取與處理信息,進(jìn)而促進(jìn)人類工作效率的提升。語(yǔ)音識(shí)別技術(shù)最開(kāi)始出現(xiàn)是在上世紀(jì)的五十年代。那時(shí)候的語(yǔ)音識(shí)別研究重點(diǎn)方向都在識(shí)別數(shù)字,元音,孤立詞,以及輔音等方面。語(yǔ)音識(shí)別技術(shù)的應(yīng)用領(lǐng)域很廣泛,市場(chǎng)應(yīng)用前景也非常廣闊。人們通過(guò)使用語(yǔ)音輸入控制系統(tǒng),就能舍棄掉鍵盤,按照語(yǔ)音識(shí)別的要求對(duì)具體的命令與請(qǐng)求進(jìn)行快速響應(yīng),這一方面能夠提高信息輸入的速度,避免了容易出錯(cuò)的問(wèn)題,另一方面還能將系統(tǒng)響應(yīng)時(shí)間大大縮短,提高了人際交流的便捷性與快速性,比方說(shuō),聲控智能玩具,聲控語(yǔ)音撥號(hào)系統(tǒng),以及智能家電系統(tǒng)等。人們?cè)谑褂弥悄軐?duì)話查詢系統(tǒng)時(shí),將語(yǔ)音命令發(fā)出后,便能直接從遠(yuǎn)端數(shù)據(jù)庫(kù)內(nèi)完成對(duì)有關(guān)信息的提取與查詢,使得數(shù)據(jù)庫(kù)檢索服務(wù)變得更加友好與自然,比方說(shuō),查詢信息網(wǎng)絡(luò),銀行服務(wù),以及醫(yī)療服務(wù)等。另外,語(yǔ)音識(shí)別技術(shù)還可用來(lái)自動(dòng)翻譯口語(yǔ),也就是說(shuō),結(jié)合口語(yǔ)識(shí)別技術(shù),語(yǔ)音合成技術(shù),以及機(jī)器翻譯技術(shù)等,實(shí)現(xiàn)一種語(yǔ)音到另一種語(yǔ)言的翻譯與輸出,最終實(shí)現(xiàn)跨語(yǔ)言交流的目的。在軍事領(lǐng)域中,語(yǔ)音識(shí)別技術(shù)的應(yīng)用價(jià)值與應(yīng)用空間都是非常大的。部分語(yǔ)音識(shí)別技術(shù)本身就是為某種軍事活動(dòng)而開(kāi)發(fā)的,首先在軍事領(lǐng)域中進(jìn)行應(yīng)用,在軍事應(yīng)用領(lǐng)域,對(duì)語(yǔ)音識(shí)別系統(tǒng)的響應(yīng)時(shí)間,識(shí)別精度,以及應(yīng)對(duì)惡劣環(huán)境能力等的要求非常高。現(xiàn)階段,在航空飛行控制方面開(kāi)始應(yīng)用了語(yǔ)音識(shí)別技術(shù),能夠?qū)⑵渥鲬?zhàn)效率進(jìn)行快速提高,飛行員工作負(fù)擔(dān)得到顯著減輕,飛行員只要輸入語(yǔ)音即可,不用手動(dòng)操作大量的設(shè)備與開(kāi)關(guān),也能將顯示信息進(jìn)行重新編排,有助于飛行員集中精力在其他操作與目標(biāo)判斷方面,更有利于戰(zhàn)術(shù)優(yōu)勢(shì)的發(fā)揮。研究語(yǔ)音識(shí)別技術(shù),對(duì)于提高人們生活水平與促進(jìn)社會(huì)信息化發(fā)展等具有深遠(yuǎn)影響。由于計(jì)算機(jī)信息技術(shù)的發(fā)展不斷進(jìn)步,語(yǔ)音識(shí)別技術(shù)方面的成果也比較多,接下來(lái)將更深入研究語(yǔ)音識(shí)別系統(tǒng),其發(fā)展空間也會(huì)更為廣闊。二、研究現(xiàn)狀語(yǔ)音識(shí)別對(duì)于提取語(yǔ)音內(nèi)容來(lái)說(shuō),就如同一把金鑰匙,最初是在50多年前就開(kāi)始進(jìn)行研究了。二十一世紀(jì)初期,根據(jù)語(yǔ)音識(shí)別技術(shù)開(kāi)發(fā)出來(lái)了一些產(chǎn)品,其中代表產(chǎn)品有美國(guó)在2000年開(kāi)發(fā)出來(lái)的軍事語(yǔ)音翻譯機(jī),并應(yīng)用于伊拉克戰(zhàn)場(chǎng)。到了2011年,蘋果公司首次將siri語(yǔ)音助手軟件安裝在了iphone4S產(chǎn)品中,后續(xù)的谷歌,亞馬遜,訊飛,微軟,以及百度等知名企業(yè)也都紛紛推出了自己的語(yǔ)音交互產(chǎn)品。目前國(guó)內(nèi)外出現(xiàn)了很多的研究機(jī)構(gòu),國(guó)內(nèi)的百度,訊飛等,國(guó)外的谷歌,IBM,微軟,以及亞馬遜等。而學(xué)術(shù)機(jī)構(gòu)就更多了,比方說(shuō),國(guó)內(nèi)的中科大,上交,以及清華等,國(guó)外的JHU,MIT,以及劍橋等。中國(guó)直到上世紀(jì)50年代才開(kāi)始研究語(yǔ)音識(shí)別系統(tǒng),可是近些年取得了很快的發(fā)展,并逐步將實(shí)驗(yàn)室的研究成果應(yīng)用到了實(shí)際中。在1987年發(fā)布的國(guó)家863研究計(jì)劃后,國(guó)家智能計(jì)算機(jī)專家組就專門成立了語(yǔ)音識(shí)別技術(shù)研究項(xiàng)目,并每?jī)赡赀M(jìn)行一次滾動(dòng)。目前,中國(guó)的語(yǔ)音識(shí)別技術(shù)水平已經(jīng)基本上同步于國(guó)外,并具備自己的優(yōu)勢(shì)與特點(diǎn),尤其是在漢語(yǔ)語(yǔ)音識(shí)別方面,其技術(shù)水平以達(dá)到國(guó)際先進(jìn)。在中國(guó)的很多科研院所與機(jī)構(gòu)中都建立了專門的實(shí)驗(yàn)室去研究語(yǔ)音識(shí)別技術(shù),比方說(shuō),中科院自動(dòng)化所,北京大學(xué),哈工大,華中科大,以及上交等,其中有兩個(gè)國(guó)家重點(diǎn)實(shí)驗(yàn)室,分別是中科院自動(dòng)化所的模式識(shí)別實(shí)驗(yàn)室與清華大學(xué)電子工程系的實(shí)驗(yàn)室。清華大學(xué)電子工程系組建了語(yǔ)音技術(shù)課題研究組,其研發(fā)的非特定人漢語(yǔ)數(shù)碼串連續(xù)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長(zhǎng)數(shù)字串)和96.8%(定長(zhǎng)數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長(zhǎng)數(shù)字串)和98.7%(定長(zhǎng)數(shù)字串),它的識(shí)別結(jié)果是國(guó)際上最先進(jìn)的,性能方面也與實(shí)用水平非常接近了。他們研發(fā)的語(yǔ)音識(shí)別系統(tǒng),其對(duì)5000詞郵包校核識(shí)別率約為98.73%,對(duì)于前三選具有99.96%的識(shí)別率。另外,在對(duì)四川話與普通話的識(shí)別方面,基本上與實(shí)用要求是一致的。然而,當(dāng)前語(yǔ)音識(shí)別也面臨著諸多的應(yīng)用難點(diǎn),具體有以下三部分:一是噪聲魯棒性,在部分較大噪聲場(chǎng)景下,比方說(shuō),公共汽車,馬路,會(huì)議室,以及飛機(jī)場(chǎng)等,對(duì)識(shí)別的精度要求是很高的,挑戰(zhàn)性較大。二是多類復(fù)雜性,以往的很多語(yǔ)音識(shí)別系統(tǒng)都只是針對(duì)的單一場(chǎng)景或者環(huán)境,怎樣才能讓語(yǔ)音識(shí)別系統(tǒng)可以應(yīng)對(duì)各種不同類別與復(fù)雜場(chǎng)景,這個(gè)難度不小。三是多語(yǔ)言與數(shù)據(jù)資源較低,現(xiàn)階段的很多語(yǔ)音識(shí)別的應(yīng)用與研究,基本上使用的基礎(chǔ)都是大語(yǔ)種,包括漢語(yǔ),法語(yǔ),以及英語(yǔ)等,但是全球的語(yǔ)言類型多達(dá)六千多種,因此很難研發(fā)出一種語(yǔ)言識(shí)別系統(tǒng)可以應(yīng)對(duì)任何語(yǔ)言,這樣的研究在戰(zhàn)略層面也是有重大意義的。三、研究的主要內(nèi)容本論文的研究?jī)?nèi)容主要是搭建一個(gè)完整的中文語(yǔ)音識(shí)別系統(tǒng),包括聲學(xué)模型和語(yǔ)言模型,能夠?qū)⑤斎氲囊纛l信號(hào)識(shí)別為漢字。其中聲學(xué)模型包括DFCNN、GRU-CTC、DFSMN,語(yǔ)言模型包含Transformer、CBHG。實(shí)驗(yàn)結(jié)果表明,基于DFCNN搭建的聲學(xué)模型以及基于Transformer搭建的語(yǔ)言模型在所有模型中的性能是最佳的。深度學(xué)習(xí)與卷積、遞歸神經(jīng)網(wǎng)絡(luò)一、人工智能、深度學(xué)習(xí)與自然語(yǔ)言處理本章首先介紹人工智能、深度學(xué)習(xí)與自然語(yǔ)言處理的關(guān)系。圖2-1即為三者關(guān)系的簡(jiǎn)單表達(dá)。即深度學(xué)習(xí)為人工智能的一種,它包含于人工智能之中,并且是人工智能研究中一個(gè)重要的分支。自然語(yǔ)言處理同樣是人工智能中一個(gè)細(xì)化的分支,與深度學(xué)習(xí)為相輔相成的關(guān)系,深度學(xué)習(xí)可以為解決自然語(yǔ)言處理問(wèn)題的一個(gè)重要工具,自然語(yǔ)言處理也是深度學(xué)習(xí)的一個(gè)重要研究方向。圖2-1人工智能、深度學(xué)習(xí)與自然語(yǔ)音處理的關(guān)系(一)人工智能人工智能,簡(jiǎn)稱AI。這是一種新技術(shù)科學(xué),主要研究與開(kāi)發(fā)對(duì)人的智能理論或者方法的擴(kuò)展與模擬。人工智能屬于計(jì)算機(jī)科學(xué)的分支,主要目的是要對(duì)智能實(shí)質(zhì)進(jìn)行了解,然后根據(jù)人類智能類似方式,生產(chǎn)出智能機(jī)器,這方面的研究主要包括了自然語(yǔ)言處理,機(jī)器人,圖像識(shí)別,專家系統(tǒng),以及語(yǔ)言識(shí)別等。自從誕生了人工智能,技術(shù)與理論也變得越來(lái)越成熟,其應(yīng)用領(lǐng)域也越來(lái)越大,設(shè)想一下,將來(lái)人工智能科技產(chǎn)品必然是人類智慧的容器。人工智能通過(guò)模擬人類的思維過(guò)程,但并非人的智能,會(huì)具有像人類一樣的思考能力,也許未來(lái)會(huì)超越人類的智能。尼爾遜教授是這樣定義人工智能的,它是關(guān)于知識(shí)的學(xué)科,就是要對(duì)知識(shí)進(jìn)行表示,從通過(guò)何種途徑去得到知識(shí),怎樣去對(duì)知識(shí)進(jìn)行使用。但是溫斯頓教授的觀點(diǎn)是,人工智能是研究怎樣使用使用計(jì)算機(jī)去實(shí)現(xiàn)人的智能工作。上述說(shuō)法都可以體現(xiàn)出人工智能的基本內(nèi)容及基本思想。也就是說(shuō),人工智能是對(duì)人類智能活動(dòng)規(guī)律的研究,并建立了具有智能的人工系統(tǒng),去研究使用計(jì)算機(jī)怎樣完成以往通過(guò)人力才可以完成的工作,即研究通過(guò)使用計(jì)算機(jī)對(duì)人類智能行為的模擬。(二)深度學(xué)習(xí)深度學(xué)習(xí),英文簡(jiǎn)稱DL,這是機(jī)器學(xué)習(xí)研究領(lǐng)域中的新方向,將其引入到機(jī)器學(xué)習(xí)中,其最初的目的是要實(shí)現(xiàn)人工智能[5]。深度學(xué)習(xí)就是對(duì)樣本數(shù)據(jù)的表示層次與內(nèi)在規(guī)律進(jìn)行學(xué)習(xí),在這個(gè)學(xué)習(xí)過(guò)程中可以獲得大量的信息數(shù)據(jù),包括聲音,圖像,以及文字等,有助于更好的解釋。其最終目標(biāo)是為了使得機(jī)器可以如同人類擁有學(xué)習(xí)與分析的能力,可以對(duì)聲音,圖像,以及文字等數(shù)據(jù)進(jìn)行識(shí)別。深度學(xué)習(xí)這種機(jī)器學(xué)習(xí)算法是非常復(fù)雜的,對(duì)于圖像與語(yǔ)音的識(shí)別,其效果要比之前的技術(shù)要好很多[5]。深度學(xué)習(xí)在很多領(lǐng)域中取得成果是非常豐富,比方說(shuō),在搜索技術(shù),自然語(yǔ)言處理,機(jī)器翻譯,數(shù)據(jù)挖掘,個(gè)性化技術(shù),以及多媒體學(xué)習(xí)等。通過(guò)深度學(xué)習(xí),使得機(jī)器能夠?qū)θ祟惖乃伎寂c視聽(tīng)等活動(dòng)進(jìn)行模仿,很好地將模式識(shí)別相關(guān)難題進(jìn)行了解決,有助于推動(dòng)人工智能技術(shù)的進(jìn)步[5]。(三)自然語(yǔ)言處理自然語(yǔ)言處理,英文簡(jiǎn)稱為NLP,屬于人工智能與計(jì)算機(jī)科學(xué)領(lǐng)域的重要研究方向。它的研究目的是要通過(guò)相關(guān)的方法與理論來(lái)實(shí)現(xiàn)人與計(jì)算機(jī)的自然語(yǔ)言溝通。自然語(yǔ)言處理融合了多門學(xué)科,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),以及語(yǔ)言學(xué)等。所以,該領(lǐng)域的研究會(huì)與自然語(yǔ)言相關(guān),也就是說(shuō),人們?nèi)粘J褂玫恼Z(yǔ)言,因此緊密聯(lián)系著語(yǔ)言學(xué)的研究,區(qū)別也是有的。對(duì)自然語(yǔ)言的處理,并非是對(duì)自然語(yǔ)言的一般性研究,是為了研制出一種計(jì)算機(jī)系統(tǒng),將自然語(yǔ)言進(jìn)行有效實(shí)現(xiàn),尤其是軟件系統(tǒng)的實(shí)現(xiàn)。所以說(shuō),自然語(yǔ)言處理也是一部分計(jì)算機(jī)科學(xué)[3]。自然語(yǔ)言處理主要應(yīng)用于機(jī)器翻譯、輿情監(jiān)測(cè)、自動(dòng)摘要、觀點(diǎn)提取、文本分類、問(wèn)題回答、文本語(yǔ)義對(duì)比、語(yǔ)音識(shí)別、中文OCR等方面[4]。語(yǔ)音識(shí)別與自然語(yǔ)言處理自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR),簡(jiǎn)稱語(yǔ)音識(shí)別,是一種廣義的自然語(yǔ)言處理技術(shù),是用于人與人、人與機(jī)器進(jìn)行更順暢的交流的技術(shù)。語(yǔ)音識(shí)別目前已使用在生活的各個(gè)方面:手機(jī)端的語(yǔ)音識(shí)別技術(shù),比如蘋果的siri;智能音箱助手,比如阿里的天貓精靈,還有諸如科大訊飛一系列的智能語(yǔ)音產(chǎn)品等等。聲音從本質(zhì)是一種波,也就是聲波,這種波可以作為一種信號(hào)來(lái)進(jìn)行處理,因此,語(yǔ)音識(shí)別輸入信號(hào)數(shù)據(jù)就是一系列的隨時(shí)間變化的信號(hào)序列,輸出是一系列文本信息。圖SEQ圖\*ARABIC2-2語(yǔ)音識(shí)別的輸入與輸出語(yǔ)音識(shí)別就是實(shí)現(xiàn)語(yǔ)音片段到文本數(shù)據(jù)的轉(zhuǎn)化過(guò)程。完整的語(yǔ)音識(shí)別系統(tǒng)一般含有4個(gè)重要模塊,分別是信息處理模塊,語(yǔ)言模塊,聲學(xué)模型模塊,以及解碼搜索模塊。語(yǔ)言識(shí)別系統(tǒng)如下圖所示:圖2-3語(yǔ)音識(shí)別系統(tǒng)我們將信號(hào)處理與特征提取這個(gè)環(huán)節(jié)當(dāng)做是音頻數(shù)據(jù)的預(yù)處理,一般是很難得到一段不含噪聲且高保真的語(yǔ)言,實(shí)際中的語(yǔ)言片段往往會(huì)含有一定的噪聲,因此在輸入到聲學(xué)模型以前,我們要使用預(yù)處理技術(shù)來(lái)增強(qiáng)信道與消除噪聲,使得信號(hào)實(shí)現(xiàn)時(shí)域到頻域的轉(zhuǎn)換,接著就是在聲學(xué)模型中將有效的特征向量實(shí)現(xiàn)有效的提取。在聲學(xué)模型中,特征向量就將變成相應(yīng)的聲學(xué)模型分?jǐn)?shù),同時(shí),語(yǔ)言模型被自然語(yǔ)言處理成與RNN與n-gram類似的模型,于是就獲得了語(yǔ)言模型分?jǐn)?shù),最后就是解碼搜索階段,綜合前面得到的語(yǔ)言模型分?jǐn)?shù)與聲學(xué)模型分?jǐn)?shù),最終的識(shí)別機(jī)構(gòu)就是分?jǐn)?shù)最高的詞序列。上述就是語(yǔ)音識(shí)別的一般性原理。在語(yǔ)音識(shí)別中,語(yǔ)音識(shí)別的建模必不可少,由于采取的建模技術(shù)不同,其獲得的的識(shí)別性能也是不同的,因此,語(yǔ)音識(shí)別建模成了語(yǔ)音識(shí)別團(tuán)隊(duì)的一個(gè)重點(diǎn)研究方向。于是,出現(xiàn)了各種各樣的語(yǔ)音識(shí)別模型,其中代表性較強(qiáng)的語(yǔ)言模型有RNNLM模型與N-gram模型等,接下來(lái)就對(duì)以上典型模型進(jìn)行簡(jiǎn)單的介紹。(一)N-gram模型N-Gram,別名N元模型,屬于一種重要的自然語(yǔ)言處理概念,一般在進(jìn)行NLP時(shí),我們往往都需要使用一定的語(yǔ)料庫(kù),使用N-gram可以對(duì)句子的合理性進(jìn)行評(píng)估。另外,N-Gram也能對(duì)兩個(gè)字符間的差異性進(jìn)行評(píng)估。這都是模糊匹配的常見(jiàn)手段之一。N-gram模型的基本原理是基于馬爾可夫假設(shè),在訓(xùn)練N-gram模型時(shí)使用最大似然估計(jì)模型參數(shù)——條件概率[1]。1.馬爾可夫假設(shè)馬爾科夫假設(shè)中很重要的一點(diǎn)是有限視野假設(shè),即每一個(gè)狀態(tài)只與它前面的個(gè)狀態(tài)有關(guān),這被稱為階馬爾可夫鏈。N-gram模型應(yīng)用在語(yǔ)言模型中時(shí),就是指每一個(gè)詞的概率只與前邊的個(gè)詞有關(guān)系,這就被稱為元語(yǔ)言模型,當(dāng)時(shí),被稱為二元模型,此時(shí)上述公式展開(kāi)為:(2-1)經(jīng)過(guò)馬爾可夫假設(shè)的簡(jiǎn)化,計(jì)算的概率也會(huì)變得容易很多,當(dāng)然隨著的增加,相應(yīng)的計(jì)算復(fù)雜度也會(huì)增加,而越大,越逼近數(shù)據(jù)的真實(shí)分布,通常取值為2、3、4、5。概率估計(jì)通過(guò)2中的描述,可以明確的是:1)每一個(gè)句子都可以拆分成不同的詞的全排列2)每一個(gè)句子都可以通過(guò)條件概率公式計(jì)算得到一個(gè)表示該句子的合理性概率3)通過(guò)引入馬爾可夫假設(shè),簡(jiǎn)化句子的計(jì)算概率以二元模型為例,從概率統(tǒng)計(jì)中可知的計(jì)算公式為:(2-2)在大語(yǔ)料的情況下,基于大數(shù)定理,詞語(yǔ)、的共同出現(xiàn)次數(shù)除以的出現(xiàn)次數(shù)可以近似等于,所以有:(2-3)所以一般情況下,統(tǒng)計(jì)語(yǔ)言模型都要求語(yǔ)料足夠大,這樣得到的結(jié)果相對(duì)會(huì)準(zhǔn)確一些。但當(dāng)出現(xiàn)或的情況,計(jì)算出的結(jié)果顯然是不合理的。因此N-grad模型還引入了平滑技術(shù)。N-grad模型中的平滑技術(shù)為了解決3中描述的次數(shù)統(tǒng)計(jì)比值不合理情況,N-grad模型引入了平滑技術(shù),常見(jiàn)的平滑技術(shù)包括:·加法平滑·古德-圖靈估計(jì)法·Katz平滑方法·Jelinek-Mercer平滑方法·Witten-Bell平滑方法·絕對(duì)減值法·Kneser-Ney平滑方法(二)RNNLM模型RNNLM模型是一個(gè)根據(jù)上下文,預(yù)測(cè)下一個(gè)詞語(yǔ)概率的模型。這個(gè)模型更加貼近于語(yǔ)言模型的定義,得到語(yǔ)言模型中每個(gè)因數(shù)參數(shù)的計(jì)算,其主要結(jié)構(gòu)如圖所示:圖2-4RNNLM模型結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(RNNLM)解決了前饋神經(jīng)網(wǎng)絡(luò)模型窗口固定的問(wèn)題。前饋神經(jīng)網(wǎng)絡(luò)模型假設(shè)每個(gè)輸入都是獨(dú)立的,但是這個(gè)假設(shè)并不合理。而循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)能利用文字的這種上下文序列關(guān)系,更好地對(duì)語(yǔ)句之間的關(guān)系進(jìn)行建模。RNNLM模型的優(yōu)點(diǎn)包括:·可以處理任意長(zhǎng)度的輸入·理論上可以追溯前面時(shí)間步的信息·模型參數(shù)大小固定,與輸入長(zhǎng)度無(wú)關(guān)缺點(diǎn)是計(jì)算時(shí)間長(zhǎng),在實(shí)際應(yīng)用中,難以追溯很久遠(yuǎn)的時(shí)間步信息。(三)HMM模型隱馬爾科夫模型,英文簡(jiǎn)稱是HMM,這是一種典型的機(jī)器學(xué)習(xí)模型,被廣泛應(yīng)用于語(yǔ)言識(shí)別,模式識(shí)別,以及自然語(yǔ)言處理等領(lǐng)域中。HMM模型的定義如下:在HMM模型中,我們首先假設(shè)定義為全部可能的隱藏狀態(tài)集合,定義為全部觀測(cè)狀態(tài)集合,于是就有:(2-4)在上式中,N代表的是可能的隱藏狀態(tài)數(shù)量,M代表的是觀察到的全部可能狀態(tài)數(shù)量。用T表示長(zhǎng)度等于T的序列,其對(duì)應(yīng)狀態(tài)序列用I來(lái)表示,對(duì)應(yīng)的觀察序列用O表示,于是有:(2-5)在上式中,對(duì)于任意隱藏狀態(tài)滿足,任意觀察狀態(tài)滿足HMM模型的建立是基于以下兩個(gè)重要假設(shè)的:齊次馬爾科夫鏈假設(shè)。即任意時(shí)刻的隱藏狀態(tài)只依賴于它前一個(gè)隱藏狀態(tài)。當(dāng)然這樣假設(shè)有點(diǎn)極端,因?yàn)楹芏鄷r(shí)候我們的某一個(gè)隱藏狀態(tài)不僅僅只依賴于前一個(gè)隱藏狀態(tài),可能是前兩個(gè)或者是前三個(gè)。但是這樣假設(shè)的好處就是模型簡(jiǎn)單,便于求解。如果在時(shí)刻的隱藏狀態(tài)是,在時(shí)刻的隱藏狀態(tài)是,則從時(shí)刻到時(shí)刻的HMM狀態(tài)轉(zhuǎn)移概率可以表示為:(2-6)這樣可以組成馬爾科夫鏈的狀態(tài)轉(zhuǎn)移矩陣:(2-7)觀測(cè)獨(dú)立性假設(shè)。即任意時(shí)刻的觀察狀態(tài)只僅僅依賴于當(dāng)前時(shí)刻的隱藏狀態(tài),這也是一個(gè)為了簡(jiǎn)化模型的假設(shè)。如果在時(shí)刻的隱藏狀態(tài)是,而對(duì)應(yīng)的觀察狀態(tài)為,則該時(shí)刻觀察狀態(tài)在隱藏狀態(tài)下生成的概率滿足:(2-8)這樣可以組成觀測(cè)狀態(tài)生成的概率矩陣:(2-9)除此之外,我們需要一組在時(shí)刻的隱藏狀態(tài)概率分布:(2-10)一個(gè)HMM模型,可以由隱藏狀態(tài)初始概率分布,狀態(tài)轉(zhuǎn)移概率矩陣和觀測(cè)狀態(tài)概率矩陣決定。決定狀態(tài)序列,決定觀測(cè)序列。因此,HMM模型可以由一個(gè)三元組表示如下:(2-11)(四)DNN-HMM模型基于DNN-HMM的語(yǔ)音識(shí)別聲學(xué)模型結(jié)構(gòu)如下圖所示:圖2-5DNN-HMM模型結(jié)構(gòu)與傳統(tǒng)的基于GMM-HMM的聲學(xué)模型相比,唯一不同點(diǎn)在于用DNN替換了GMM來(lái)對(duì)輸入語(yǔ)音信號(hào)的觀察概率進(jìn)行建模。相比于GMM,DNN的主要優(yōu)點(diǎn)包括:·DNN中不用假設(shè)聲學(xué)特征對(duì)應(yīng)的分布情況;·DNN的輸入中用到的是一種連續(xù)式的拼接幀,所以可對(duì)上下文信息進(jìn)行更好地利用;·DNN的訓(xùn)練過(guò)程的實(shí)現(xiàn)用的是一種隨機(jī)優(yōu)化算法,并非是傳統(tǒng)優(yōu)化算法,所以在訓(xùn)練數(shù)據(jù)具有較大規(guī)模時(shí),其訓(xùn)練也是非常高效的,所以,當(dāng)訓(xùn)練數(shù)據(jù)具有越大規(guī)模時(shí),就能更加精確地得到聲學(xué)模型,對(duì)于語(yǔ)音識(shí)別的性能提高也是更有利的;·進(jìn)行發(fā)音模式分類時(shí),DNN模型的區(qū)分會(huì)顯得更為合適?!NN的輸入選擇的是傳統(tǒng)語(yǔ)音波形,將分幀與加窗處理后,將頻譜特征提取出,比方說(shuō),濾波器的聲學(xué)特征,PLP,以及MFCC等。對(duì)于FBK特征,一般使用的是Mel濾波器來(lái)將對(duì)數(shù)能量從功率譜上進(jìn)行濾掉,接著表示為規(guī)整值的形式?,F(xiàn)階段,F(xiàn)BK特征成功得到了廣泛應(yīng)用,這就驗(yàn)證了,原始語(yǔ)音頻率是一種重要的基于DNN語(yǔ)音識(shí)別技術(shù)。相比于傳統(tǒng)的GMM,DNN的輸入是拼接了相鄰的多個(gè)幀以后形成的,其中含有的輸入向量會(huì)更多。通過(guò)研究說(shuō)明了,相比于GMM,DNN采用拼接幀來(lái)進(jìn)行輸入,之所以可以獲得更高性能優(yōu)勢(shì),這是一個(gè)關(guān)鍵性的因素。DNN輸出向量中,其維度與HMM狀態(tài)個(gè)數(shù)是相對(duì)應(yīng)的,一般來(lái)說(shuō),每一維輸出與綁定的triphone狀態(tài)相對(duì)應(yīng)。進(jìn)行訓(xùn)練的過(guò)程中,為了準(zhǔn)確將每幀語(yǔ)音DNN目標(biāo)輸出值得到,有必要利用已經(jīng)完成訓(xùn)練任務(wù)的GMM-HMM識(shí)別系統(tǒng),強(qiáng)制在訓(xùn)練語(yǔ)料上進(jìn)行對(duì)齊。也就是說(shuō),進(jìn)行一個(gè)DNN-HMM聲學(xué)模型的訓(xùn)練時(shí),先要完成對(duì)GMM-HMM聲學(xué)模型的訓(xùn)練,然后利用基于Viterbi算法將對(duì)應(yīng)的HMM狀態(tài)標(biāo)簽強(qiáng)制性地打在每個(gè)語(yǔ)音幀上,接著利用該狀態(tài)標(biāo)簽來(lái)對(duì)DNN模型進(jìn)行訓(xùn)練。最后,使用DNN模型來(lái)對(duì)HMM模型中GMM部分進(jìn)行替代,只是將其中的初始概率與轉(zhuǎn)移概率等部分進(jìn)行了保留。(五)RNN模型RNN,英文全稱為RecurrentNeuralNetwork,這是一種對(duì)序列數(shù)據(jù)進(jìn)行處理的神經(jīng)網(wǎng)絡(luò)。對(duì)于時(shí)間序列數(shù)據(jù),具體指的是收集到的不同時(shí)間點(diǎn)對(duì)應(yīng)的數(shù)據(jù),這些數(shù)據(jù)主要是對(duì)某個(gè)現(xiàn)象或者事物是如何隨著時(shí)間進(jìn)行變化的情況及程度進(jìn)行反映。上述定義的是時(shí)間序列數(shù)據(jù),也可以對(duì)于其他類型的序列數(shù)據(jù)進(jìn)行定義,比方說(shuō),文字序列,然而這些序列數(shù)據(jù)都具備一個(gè)共同點(diǎn),即數(shù)據(jù)前后是具有某種聯(lián)系的。在圖2-6上展示的是某個(gè)標(biāo)準(zhǔn)RNN結(jié)構(gòu)圖,其中的每個(gè)箭頭就相當(dāng)于完成一次變換,換句話說(shuō)就是,箭頭連接帶上帶有相應(yīng)的權(quán)值。左圖是折疊結(jié)構(gòu),右圖是對(duì)應(yīng)的展開(kāi)圖,左圖中的h箭頭就說(shuō)明了,本結(jié)構(gòu)的隱層中發(fā)生了循環(huán)。圖2-SEQ圖\*ARABIC6RNN結(jié)構(gòu)圖在圖5中,x代表的是輸入,h代表的是隱層單元,o代表的是輸出,L代表的是損失函數(shù),y代表的是訓(xùn)練集的標(biāo)簽。上述元素右上角的t表示的是在t時(shí)刻隨影的狀態(tài),應(yīng)該留意到,由于策單元h在t時(shí)刻的表現(xiàn)除了與該時(shí)刻的輸入有關(guān)以外,還受到該時(shí)刻之前狀態(tài)的影響。V、W、U是權(quán)值,同一類型的權(quán)連接權(quán)值相同。對(duì)于t時(shí)刻有:(2-12)其中,代表的是激活函數(shù),一般選用tanh函數(shù),b代表的是偏置。得到t時(shí)刻的輸出如下:(2-13)得到的最終模型輸出就是:(2-14)在上式中,代表的是激活函數(shù),通常RNN用于分類,故這里一般用softmax函數(shù)。三、本章小結(jié)本章簡(jiǎn)單介紹了人工智能、深度學(xué)習(xí)與自然語(yǔ)言處理之間的關(guān)系,并由此引出介紹了目前流行的聲學(xué)模型HMM、DNN、RNN以及語(yǔ)言模型N-gram、RNNLM?;谏疃葘W(xué)習(xí)語(yǔ)音識(shí)別中聲學(xué)模型的分析與實(shí)現(xiàn)本章主要是要對(duì)語(yǔ)音識(shí)別建模技術(shù)展開(kāi)分析,并通過(guò)GRU-CTC、DFCNN、DFSMN等模型完成聲學(xué)模型得搭建,實(shí)現(xiàn)語(yǔ)音音頻信號(hào)識(shí)別。一、聲學(xué)模型建模技術(shù)近些年,語(yǔ)音技術(shù)對(duì)人們的工作方式與生活方式產(chǎn)生了很大影響。在部分嵌入式設(shè)備中,語(yǔ)音屬于一種主要的人機(jī)交互方式。主要是因?yàn)殡S著計(jì)算能力得到提升后,使用GPU等設(shè)備,獲得高計(jì)算能力,于是就可實(shí)現(xiàn)了對(duì)更強(qiáng)大與更復(fù)雜的聲學(xué)模型的訓(xùn)練,出現(xiàn)的部分嵌入式處理器具有高性能,有可能改變語(yǔ)音識(shí)別的終端應(yīng)用。聲學(xué)模型屬于人工智能領(lǐng)域中的一個(gè)基本模型,以深度學(xué)習(xí)為基礎(chǔ)的聲學(xué)模型有助于推動(dòng)人工智能交互方式的延伸與拓展,起到了重要作用。二、構(gòu)建聲學(xué)模型本次設(shè)計(jì)的實(shí)驗(yàn)是基于Thchs30數(shù)據(jù)集的聲學(xué)模型構(gòu)建,輸入一段.wav語(yǔ)音文件,最終能夠輸出例如[‘sheng1’,’xue2’,’mo2’,’xing2’]的結(jié)果。本次實(shí)驗(yàn)構(gòu)建的聲學(xué)模型主要采用了GRU-CTC、DFCNN、DFSMN三種結(jié)構(gòu),其中DFCNN的效果是所有網(wǎng)絡(luò)模型中最好的,能夠取得較為不錯(cuò)的泛化能力。GRU-CTC模型中循環(huán)神經(jīng)網(wǎng)絡(luò)可以利用語(yǔ)音上下文相關(guān)的信息,得到更加準(zhǔn)確地信息,而GUR又能選擇性的保留需要的長(zhǎng)時(shí)信息,使用雙向RNN又能夠充分的利用上下文信號(hào)。實(shí)驗(yàn)中發(fā)現(xiàn),該模型的缺點(diǎn)在于需要完整輸入一句話后才能進(jìn)行識(shí)別,且訓(xùn)練相對(duì)CNN較慢。DFSMN模型,其前饋記憶神經(jīng)網(wǎng)絡(luò)也也解決了雙向GRU的參數(shù)過(guò)多和實(shí)時(shí)性較差的缺點(diǎn),它利用一個(gè)記憶模塊,包含了上下幾幀信息,能夠得到不輸于雙向GRU-CTC的識(shí)別結(jié)果。該網(wǎng)絡(luò)實(shí)質(zhì)上是用一個(gè)特殊的CNN就可以取得相同的效果,實(shí)驗(yàn)中我將CNN的寬設(shè)置為memorysize,將高度設(shè)置為featuredim,將channel設(shè)置為hiddenunits,這樣一個(gè)CNN的層就可以模仿fsmn的實(shí)現(xiàn)了。在使用GRU作為語(yǔ)音識(shí)別的時(shí)候我們會(huì)遇到以下兩個(gè)問(wèn)題:·一是我們常常使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)才能取得更好的識(shí)別效果,這樣會(huì)影響解碼實(shí)時(shí)性。·二是隨著網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性增加,雙向GRU的參數(shù)是相同節(jié)點(diǎn)數(shù)全連接層的6倍,這樣會(huì)導(dǎo)致訓(xùn)練速度非常緩慢。而DFCNN建立的這種共享機(jī)制中需要使用到CNN參數(shù),能夠使得參數(shù)數(shù)量級(jí)顯著降低,下降幅度多達(dá)好幾個(gè)數(shù)量級(jí),其中的池化層與卷積層屬于比較深層次,可以對(duì)語(yǔ)言信號(hào)的信息進(jìn)行全面考慮,并較快將其相應(yīng)識(shí)別結(jié)果得到,獲得的實(shí)時(shí)性也是較好的。(一)GRU-CTC模型一、門控循環(huán)單元GRUGRU具有很好的控制效果,屬于LSTM網(wǎng)絡(luò)中的一種,與傳統(tǒng)的LSTM網(wǎng)絡(luò)相比該種網(wǎng)絡(luò)具有更為簡(jiǎn)單的結(jié)構(gòu),并且在控制效果上具有更好的表現(xiàn),因此該種網(wǎng)絡(luò)流行性比較好。由于GRU是一種LSTM網(wǎng)絡(luò)的變體,因此該網(wǎng)絡(luò)在解決傳統(tǒng)網(wǎng)絡(luò)問(wèn)題方面具有很好的作用,同時(shí)還具有解決新型問(wèn)題的能力。首先,本文對(duì)傳統(tǒng)的LSTM網(wǎng)絡(luò)進(jìn)行了結(jié)構(gòu)性研究,該種網(wǎng)絡(luò)有三個(gè)門函數(shù),分別為輸出門、輸入門以及遺忘門,不同的門函數(shù)控制的數(shù)值也會(huì)不同,因此在實(shí)際使用中,LSTM網(wǎng)絡(luò)具有較為復(fù)雜的結(jié)構(gòu)。而GRU模型只有兩個(gè)門,分別為更新門和重置門,該整網(wǎng)絡(luò)的結(jié)構(gòu)較為簡(jiǎn)單,且運(yùn)行較為可靠,具體的結(jié)構(gòu)如圖3-1所示。圖3-1GRU模型結(jié)構(gòu)從圖中可以看出,GRU模型結(jié)構(gòu)較為簡(jiǎn)單,運(yùn)行方式較為單一,在運(yùn)行過(guò)程中能夠通過(guò)簡(jiǎn)單的運(yùn)行結(jié)構(gòu),使整個(gè)模型可靠性得以提升。由于在整個(gè)圖形中主要有更新門和重置門兩個(gè)門函數(shù),極大的降低了模型的內(nèi)部結(jié)構(gòu),使該種模型能夠在較為簡(jiǎn)便的空間內(nèi)進(jìn)行運(yùn)轉(zhuǎn)。另外,更新門的值越大,說(shuō)明前一時(shí)刻的狀態(tài)信息帶入就越多。通過(guò)這一判斷標(biāo)準(zhǔn)能夠?qū)RU模型工作狀態(tài)進(jìn)行相應(yīng)的評(píng)價(jià)。同時(shí),重置門也能表現(xiàn)出一些信息的特征,例如重置門越小,則說(shuō)明在前一時(shí)刻被寫(xiě)入的信息就越少。網(wǎng)絡(luò)的前向傳播公式如下:(3-1)(3-2)(3-3)(3-4)(3-5)其中:[]——兩個(gè)向量相連;*——矩陣的乘積。GRU的訓(xùn)練過(guò)程:從上述公式可以看出,在進(jìn)行GRU的訓(xùn)練過(guò)程中,需要對(duì)、、、進(jìn)行學(xué)習(xí),由于前三個(gè)向量都是由拼接而產(chǎn)生的,因此在進(jìn)行訓(xùn)練時(shí)滿足:(3-6)(3-7)(3-8)輸入為:(3-9)輸出為:(3-10)通過(guò)上述計(jì)算結(jié)果,網(wǎng)絡(luò)中的某一時(shí)刻損失量滿足:(3-11)因此每一個(gè)樣品的所有時(shí)刻損失為:(3-12)采用后向誤差傳播法來(lái)進(jìn)行網(wǎng)絡(luò)的學(xué)習(xí),才對(duì)損失函數(shù)的各個(gè)參數(shù)進(jìn)行偏導(dǎo)的求解具體如下:(3-13)(3-14)(3-15)(3-16)(3-17)(3-18)(3-19)其中各中間參數(shù)為:(3-20)(3-21)(3-22)(3-23)(3-24)通過(guò)上述有關(guān)參數(shù)偏導(dǎo)的求解完成后,可以對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行更新,從而根據(jù)迭代的方式進(jìn)行損失的計(jì)算。通過(guò)這樣的方式,GRU能夠根據(jù)門函數(shù)進(jìn)行特征的計(jì)算,并最終保持重要的特征數(shù)據(jù),并且在傳播過(guò)程中不會(huì)造成數(shù)據(jù)的丟失。由于在參數(shù)的數(shù)量上少于LSTM,因此GRU在訓(xùn)練速度上也是優(yōu)于LSTM。二、連接時(shí)序分類CTCCTC能夠被用來(lái)解決輸入序列和輸出系列的難題,特別是在語(yǔ)音識(shí)別中,想要提高語(yǔ)音識(shí)別的效率,就必須對(duì)音頻、音素和翻譯字符進(jìn)行一一對(duì)應(yīng),才能夠更好的進(jìn)行語(yǔ)音的翻譯。在這一過(guò)程中,通過(guò)CTC能夠更好的進(jìn)行輸入序列和輸出序列問(wèn)題的解決。如下圖所示:圖3-2輸入和輸出序列對(duì)應(yīng)示圖有人說(shuō)話快,有人說(shuō)話慢,每個(gè)人說(shuō)話快慢不同,手動(dòng)地對(duì)音素和字符對(duì)齊的方法又太耗時(shí)。考慮到LSTM的影響,則:。表示m維特征,則有如下:(3-25)(3-26)當(dāng)真的一個(gè)系統(tǒng)中輸出和輸入能夠一一對(duì)應(yīng)時(shí),則實(shí)際上n為輸出:(3-27)(3-28)如果對(duì)英文的26個(gè)字母進(jìn)行識(shí)別,則需要考慮沒(méi)有字母的位置如何進(jìn)行表征,例如,將一個(gè)字符加入到字符集合中:(3-29)對(duì)于LSTM而言,在進(jìn)行輸出維度n的表示時(shí)。27個(gè)字符必須在位置上和時(shí)間上進(jìn)行一一對(duì)應(yīng)。在實(shí)際計(jì)算中,根據(jù)不同的概率以及每個(gè)時(shí)間所對(duì)應(yīng)的元素進(jìn)行輸出系列的排布,其輸出空間可以記為。定義B變換,將LSTM的輸出序列轉(zhuǎn)換為真實(shí)輸出,將連續(xù)的相同字符刪除為1,刪除空白字符。當(dāng)T=12時(shí):(3-30)(3-31)(3-32)(3-33)表示一種LSTM的輸出序列,當(dāng)我們優(yōu)化LSTM時(shí),我們只需要最大化以下概率,給定輸入x,輸出的概率是真實(shí)的輸出。對(duì)下式取負(fù)號(hào),就可以使用梯度下降對(duì)其求最小。(3-34)假設(shè)時(shí)間步長(zhǎng)之間的輸出獨(dú)立,任何輸出序列的概率計(jì)算公式如下:(3-35)其中下標(biāo)表示的是,輸出序列在t時(shí)間步選取的元素對(duì)應(yīng)的索引,比如該序列在第一個(gè)時(shí)間步選取的元素是a,那么得到的值就是1。選取的是z,那么得到的值就是26。選取的是空白符,那么得到的值就是27。為了方便觀測(cè),也用對(duì)應(yīng)的字符表示,其實(shí)是一個(gè)意思,如下式所示。(3-36)(3-37)然而,對(duì)于實(shí)際輸出,例如上述state,可以通過(guò)B轉(zhuǎn)換來(lái)獲得多個(gè)LSTM輸出序列。所有這些序列都是我們想要的結(jié)果,我們想要給定的輸出序列的概率。時(shí)間復(fù)雜度是指數(shù)級(jí)的,因?yàn)橛蠺個(gè)位置,每個(gè)位置都有n個(gè)選擇(字符集的大?。?,那么就有種可能。因此CTC借用了HMM中的“前向-后向算法”(forward-backwardalgorithm)來(lái)計(jì)算。HMM中的“前向-后向算法”這里就不再做贅述。(二)DFSMN模型Deep-FSMN(DFSMN)網(wǎng)絡(luò)是阿里巴巴開(kāi)源的一項(xiàng)語(yǔ)言識(shí)別模型,以基于BLSTM的統(tǒng)計(jì)參數(shù)語(yǔ)音合成系統(tǒng)為基線系統(tǒng),采用跳轉(zhuǎn)連接技術(shù),由于該整技術(shù)被廣泛的使用,因此該技術(shù)具有一定的成熟度。在執(zhí)行反向傳播算法時(shí),梯度可以繞過(guò)非線性變換,與業(yè)內(nèi)使用最廣泛的LSTM模型相比,它具有更快的訓(xùn)練速度和更高的識(shí)別精度。DFSMN網(wǎng)絡(luò)模型結(jié)構(gòu)框圖如下:圖3-3DFSMN網(wǎng)絡(luò)模型結(jié)構(gòu)在圖中,從輸入層到輸出層,經(jīng)歷了諸多計(jì)算模塊。在這些計(jì)算模塊中進(jìn)行儲(chǔ)存和跳轉(zhuǎn),不斷地對(duì)數(shù)據(jù)進(jìn)行計(jì)算和積累,最終把數(shù)據(jù)儲(chǔ)存到高級(jí)的儲(chǔ)存模塊,通過(guò)這樣的數(shù)據(jù)訓(xùn)練,能夠很好的將高級(jí)儲(chǔ)存模塊與低級(jí)儲(chǔ)存模塊之間進(jìn)行記憶模塊的互換,加強(qiáng)了客服網(wǎng)絡(luò)深度梯度消失的問(wèn)題,極大地促進(jìn)了深度網(wǎng)絡(luò)能夠在穩(wěn)定的狀態(tài)下進(jìn)行訓(xùn)練。記憶模塊中引入了步幅因子,具體計(jì)算公式如下:(3-38)對(duì)于實(shí)時(shí)語(yǔ)音識(shí)別系統(tǒng),可以通過(guò)靈活地設(shè)置未來(lái)的階數(shù)來(lái)控制模型的延遲。在極端情況下,每一個(gè)記憶模塊都能對(duì)未來(lái)結(jié)束進(jìn)行設(shè)置,并以0作為最普遍的設(shè)置方式,可以通過(guò)無(wú)延遲的方式進(jìn)行聲音的模仿。在這一過(guò)程中,完成某些任務(wù)能夠降低延遲對(duì)任務(wù)完成的影響,從而設(shè)置一個(gè)更小的未來(lái)階數(shù)。DFSMN是在CFSMN的基礎(chǔ)上改進(jìn)的,相對(duì)于CFSMN,DFSMN通過(guò)跳轉(zhuǎn)連接可以訓(xùn)練很深的網(wǎng)絡(luò)。對(duì)于原來(lái)的CFSMN,由于每個(gè)隱層已經(jīng)通過(guò)矩陣的低秩分解拆分成了兩層的結(jié)構(gòu),這樣對(duì)于一個(gè)包含4層CFSMN層以及兩個(gè)DNN層的網(wǎng)絡(luò),總共包含的層數(shù)將達(dá)到13層,從而采用更多的CFSMN層,會(huì)使得層數(shù)更多而使得訓(xùn)練出現(xiàn)梯度消失問(wèn)題,導(dǎo)致訓(xùn)練的不穩(wěn)定性。DFSMN通過(guò)跳轉(zhuǎn)連接避免了深層網(wǎng)絡(luò)的梯度消失問(wèn)題,使得訓(xùn)練深層的網(wǎng)絡(luò)變得穩(wěn)定。因此DFSMN在實(shí)驗(yàn)可以訓(xùn)練到數(shù)十層,并且相比于CFSMN可以獲得顯著的性能提升。(三)DFCNN模型自2016年以來(lái),科大訊飛提出了一種稱為深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)的語(yǔ)音識(shí)別框架,這是一種前饋序列記憶網(wǎng)絡(luò)的新框架,能夠更好的對(duì)語(yǔ)音進(jìn)行識(shí)別,同時(shí)在未來(lái)還有較大的發(fā)展空間。DFCNN的結(jié)構(gòu)如下圖所示,它不僅輸入頻譜信號(hào),而且直接將語(yǔ)音轉(zhuǎn)換為圖像作為輸入,通過(guò)這樣的聲音傳輸方式,根據(jù)傅立葉變換將語(yǔ)音信號(hào)轉(zhuǎn)化成圖片信號(hào)后,再將圖片信號(hào)進(jìn)行二維的傳播,最終通過(guò)卷積層和池化層對(duì)整個(gè)語(yǔ)音進(jìn)行建模分析。同時(shí)對(duì)于語(yǔ)音中的音節(jié)以及漢字進(jìn)行一一對(duì)應(yīng),從而完成語(yǔ)音的識(shí)別。圖3-4DFCNN模型結(jié)構(gòu)從圖3-4可以看出,與其他以傳統(tǒng)語(yǔ)音特征為輸入的語(yǔ)音識(shí)別框架相比,DFCNN具有自然的優(yōu)勢(shì),可以解決傳統(tǒng)語(yǔ)音特征必須采用非常大的幀位移來(lái)考慮計(jì)算復(fù)雜度的問(wèn)題。因此,導(dǎo)致了時(shí)域上的信息丟失問(wèn)題。DFCNN不同于CNN的傳統(tǒng)語(yǔ)音識(shí)別實(shí)踐,它利用了圖像識(shí)別中的最佳網(wǎng)絡(luò)配置。每個(gè)卷積層都使用一個(gè)3x3的小卷積核,并在多個(gè)卷積層后添加一個(gè)池化層,這大大提高了CNN的表達(dá)能力。DFCNN可以看到很長(zhǎng)的歷史和未來(lái)的信息,這確保了DFCNN可以很好地表達(dá)語(yǔ)音的長(zhǎng)期相關(guān)性。DFCNN還可以與最近的熱CTC方案完美結(jié)合,實(shí)現(xiàn)整個(gè)模型的端到端訓(xùn)練,池化層等特殊結(jié)構(gòu)可以使端到端訓(xùn)練更加穩(wěn)定。三、CTC中的前向后向算法語(yǔ)音識(shí)別中,真實(shí)輸出是一個(gè)序列,序列可以通過(guò)一個(gè)路徑圖中的一條路徑來(lái)表示,我們也稱輸出序列為路徑。定義路徑為“在路徑每?jī)蓚€(gè)元素之間以及頭尾插入空白符”,如:(3-39)(3-40)對(duì)某個(gè)時(shí)間步的某個(gè)字符求導(dǎo),恰好是與概率相關(guān)的路徑。(3-41)以第二部分中連接時(shí)序ctc介紹中為例子,畫(huà)出兩條路徑,如下圖所示。圖3-5路徑圖我們知道,四條路徑都在時(shí)經(jīng)過(guò)了字符a,觀察4條路徑,可以得到如下式子:(3-42)(3-43)(3-44)(3-45)(3-46)令:(3-47)(3-48)那么可以做如下表示:(3-49)上述的forward和backward只包含了4條路徑,如果推廣一下forward和backward的含義,考慮所有路徑,可做如下表示:(3-50)定義forward為,可以得到以下初始條件:(3-51)(3-52)(3-53)圖3-6路徑圖從上圖中可以看出,如果t=6時(shí)字符是a,那么t=5時(shí)只能是字符a,t,空白符三選一,否則經(jīng)過(guò)B變換后無(wú)法得到state??梢缘玫揭韵逻f推關(guān)系:(3-54)更一般地,可以得到如下遞推關(guān)系:(3-55)定義backward為,則式子定義如下:

(3-56)t=T時(shí),符號(hào)只能是空白符或,可以得到以下初始條件:(3-57)(3-58)(3-59)同理,可以得到如下遞推關(guān)系:(3-60)根據(jù)forward和backward的式子定義,它們相乘可以得到:(3-61)又因?yàn)閷?duì)求導(dǎo)時(shí),只跟那些的路徑有關(guān),那么求導(dǎo)時(shí)可以簡(jiǎn)寫(xiě)如下式子;(3-62)結(jié)合兩式,得到:(3-63)最終得到求導(dǎo)式:(3-64)求導(dǎo)式里的forward和backward可以用前面的dp遞推式計(jì)算出來(lái)。推導(dǎo)出LSTM輸出y,然后根據(jù)y對(duì)LSTM中的權(quán)重參數(shù)進(jìn)行w鏈定,因此可以用梯度下降的方法來(lái)更新參數(shù)。四、實(shí)驗(yàn)設(shè)計(jì)本文在進(jìn)行模型的建立時(shí),通過(guò)卷積網(wǎng)絡(luò)進(jìn)行模型的結(jié)構(gòu)原理學(xué)習(xí),利用cnn+dnn+ctc搭建一個(gè)完整的端到端聲學(xué)模型。本實(shí)驗(yàn)使用python版本為3.6.0,tensorflow版本為1.12.0,keras版本為2.2.4。(一)模型框架與數(shù)據(jù)集介紹1.TensorFlowTensorFlow[16]是一個(gè)由GoogleBrain的研究人員和工程師團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源軟件庫(kù),通常用于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),由于其計(jì)算框架的通用性和可擴(kuò)展性,TensorFlow在其他計(jì)算領(lǐng)域也被廣泛地應(yīng)用。2.thchs30數(shù)據(jù)集THCHS30是由清華大學(xué)語(yǔ)音與語(yǔ)言技術(shù)中心(CSLT)發(fā)布的一個(gè)開(kāi)放的中文語(yǔ)音數(shù)據(jù)庫(kù),可用于中文語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)。該數(shù)據(jù)集的語(yǔ)音數(shù)據(jù)可以在一個(gè)安靜的辦公室環(huán)境中使用30多個(gè)小時(shí)。采樣頻率為16kHz,采樣大小為16bits。這個(gè)數(shù)據(jù)集包括以下內(nèi)容:數(shù)據(jù)集音頻時(shí)長(zhǎng)(h:mm)句子數(shù)詞數(shù)train25:0010000198252dev2:1489317743test6:1589349085為了構(gòu)建一個(gè)中文ASR系統(tǒng),使用THCHS-30發(fā)布了一些額外的資源。這些資源主要包含了漢語(yǔ)的諸多訓(xùn)練方法和模型,能夠更好的幫助中文模型的建立。實(shí)驗(yàn)中采用的是data_thchs30.tgz[6.4G](speechdataandtranscripts)數(shù)據(jù)集。(二)算法實(shí)現(xiàn)調(diào)試與分析本章節(jié)實(shí)驗(yàn),利用thchs30為例建立一個(gè)完整的端到端聲學(xué)模型,采用cnn+dnn+ctc的聲學(xué)模型結(jié)構(gòu)。1.特征提取·讀取音頻文件本章節(jié)實(shí)驗(yàn)的輸入為音頻數(shù)據(jù),需要轉(zhuǎn)化為頻譜圖數(shù)據(jù),然后通過(guò)CNN處理圖片的能力進(jìn)行識(shí)別。通過(guò)“filepath=test.wav”“fs,wavsignal=wav.read(filepath)”讀取音頻?!?gòu)造漢明窗語(yǔ)音信號(hào)是一個(gè)非常不平穩(wěn)的信號(hào),在進(jìn)行語(yǔ)音信號(hào)的識(shí)別是由于發(fā)聲器官會(huì)受到各種因素的影響,并且每次的震動(dòng)以及發(fā)出的頻率都會(huì)有所改變。因此,在對(duì)語(yǔ)音信號(hào)進(jìn)行識(shí)別時(shí),要設(shè)置相應(yīng)的聲音變化區(qū)間才能夠更好的對(duì)語(yǔ)音信號(hào)進(jìn)行識(shí)別。由于計(jì)算機(jī)只能處理有限長(zhǎng)度的信號(hào),因此原始的語(yǔ)音信號(hào)都需要以T,即采樣時(shí)間來(lái)進(jìn)行截?cái)啵蔀閄T(t)后再進(jìn)一步處理,而這一步一般選擇加漢明窗的形式,漢明窗為非矩形框,這是由于直接對(duì)信號(hào)加矩形框來(lái)進(jìn)行截?cái)鄷?huì)產(chǎn)生頻譜泄露,而漢明窗的幅頻特性是旁瓣衰減較大,主瓣峰值與第一個(gè)旁瓣峰值衰減可以達(dá)到43db,這樣一來(lái)就可以改善頻譜泄露的情況。漢明窗的函數(shù)為:?W這里的α取0.54。代碼表示為“x=np.linspace(0,400-1,400,dtype=64)”“w=0.54-0.46*np.cos(2*np.pi*(x)/(400-1))”·數(shù)據(jù)分幀設(shè)置幀長(zhǎng)為25ms,幀移為10ms。則令采樣點(diǎn)(s)為fs,采樣點(diǎn)(ms)為fs/1000,采樣點(diǎn)(幀)=fs/1000*幀長(zhǎng)。則“time_window=25”“window_length=fs//1000*time_window”·分幀加窗 分幀部分:設(shè)定p_begin=0,則p_end=p_begin+window_length,frame=wavsignal[p_begin:p_end]。 加窗部分:“frame=frame*w” ·傅里葉變換 傅里葉變換是將一個(gè)信號(hào)波形分為多個(gè)不同頻率的余弦波形,成為頻率分量。每個(gè)頻率的余弦波形都有其對(duì)應(yīng)的頻率、幅值、相位。如下圖所示,黑色的是原信號(hào)波形,其他顏色的均為頻率分量,直線代表該頻率分量幅值為0。圖3-7信號(hào)波形 對(duì)時(shí)域信息frame進(jìn)行快速傅里葉變換,轉(zhuǎn)換成頻域信息。就此,我們已經(jīng)完成音頻文件的時(shí)頻信息提取。2.數(shù)據(jù)處理·從鏈接/18/下載得到thchs30數(shù)據(jù)集文件?!ど梢纛l文件和標(biāo)簽文件列表考慮到神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中的輸入輸出,因此batch_size內(nèi)數(shù)據(jù)需要統(tǒng)一數(shù)據(jù)的shape。格式為“[batch_size,time_step,feature_dim]”。由于輸入的每一個(gè)sample可能存在時(shí)間軸都不一樣長(zhǎng)的情況,所以需要對(duì)時(shí)間軸進(jìn)行處理,選擇batch內(nèi)最長(zhǎng)的那個(gè)時(shí)間為基準(zhǔn),對(duì)其他時(shí)間軸tensor進(jìn)行padding操作。這樣一個(gè)batch內(nèi)的數(shù)據(jù)都相同,就可以進(jìn)行并行訓(xùn)練。定義一個(gè)source_get函數(shù),回去音頻文件及標(biāo)注文件列表,形如:“E:\Data\thchs30\data_thchs30\data\A11_0.wav.trn”。同時(shí)需要保證相同id對(duì)應(yīng)的音頻文件和標(biāo)簽文件相同?!?biāo)簽數(shù)據(jù)處理read_label函數(shù)被定義為讀取音頻文件的相應(yīng)標(biāo)簽,并建立該標(biāo)簽的映射id,即字典。然后用字典,讀取label映射到對(duì)應(yīng)的id。·音頻數(shù)據(jù)處理獲取音頻數(shù)據(jù)對(duì)應(yīng)的音頻文件名,然后提取所需時(shí)頻圖即可。這部分我們首先利用特征提取部分的函數(shù),將音頻數(shù)據(jù)轉(zhuǎn)換成時(shí)頻圖,并且要求轉(zhuǎn)換后的數(shù)據(jù)需要各個(gè)維度能夠被8整除,這是由于聲學(xué)模型網(wǎng)絡(luò)結(jié)構(gòu)中有3個(gè)maxpooling層的原因?!?shù)據(jù)生成器設(shè)置batch_size為4,total_nums為10000,batch_num為total_nums除以batch_size并保留整數(shù)部分。利用兩個(gè)list存放batch_size的信號(hào)時(shí)頻圖和標(biāo)簽數(shù)據(jù)。3.模型構(gòu)建本章節(jié)搭建的語(yǔ)音識(shí)別模型,采用了CNN+CTC的結(jié)構(gòu),具體結(jié)構(gòu)模型如下:圖3-8CNN+CTC模型結(jié)構(gòu)分別定義3*3的卷積層、batch_norm層、最大池化層、dense層。隨后搭建cnn+dnn+ctc的聲學(xué)模型。準(zhǔn)備好訓(xùn)練所需的數(shù)據(jù)與模型結(jié)構(gòu)設(shè)計(jì),隨后采用如下的參數(shù)進(jìn)行訓(xùn)練:·batch_size=4·batch_num=10000//4·epochs=1訓(xùn)練結(jié)束后,定義decode_ctc函數(shù)為解碼器,通過(guò)“result=am.model.predict(x,steps=1)”得到數(shù)字結(jié)果。通過(guò)“result,text=decode_ctc(result,vocab)”將數(shù)字結(jié)果轉(zhuǎn)化為文本結(jié)果。(三)實(shí)驗(yàn)訓(xùn)練與測(cè)試結(jié)果本次實(shí)驗(yàn)中我們一共進(jìn)行五十輪訓(xùn)練,每輪訓(xùn)練結(jié)束中我們都會(huì)利用所得到的結(jié)果與理想結(jié)果利用交叉熵函數(shù)計(jì)算出損失,并輸出損失函數(shù)計(jì)算結(jié)果。隨后迭代更新參數(shù)。圖3-9實(shí)驗(yàn)結(jié)果1Loss最初的值為400多,可以看到,在最初的幾個(gè)epoch后,loss值下降得非???,并在50輪后達(dá)到0.4580。圖3-10實(shí)驗(yàn)結(jié)果2輸入音頻文件,輸出數(shù)字結(jié)果、文本結(jié)果以及原文結(jié)果,可以看到,本次訓(xùn)練出的模型效果極佳。五、本章小節(jié)本章首先分析了當(dāng)前常用聲學(xué)模型GRU-CTC、DFSMN、DFCNN,并通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)DFCNN的性能表現(xiàn)最佳,能夠取得較好的泛化能力。并且,由于其模型結(jié)構(gòu)的特性,可以在較短的時(shí)間內(nèi)就可以得到識(shí)別結(jié)果,具有較好的實(shí)時(shí)性。同時(shí)介紹了深度學(xué)習(xí)平臺(tái)tensorflow與thchs30數(shù)據(jù)集,最終選擇采用DFCNN模型作為聲學(xué)模型。

基于深度學(xué)習(xí)語(yǔ)音識(shí)別中語(yǔ)言模型的分析與實(shí)現(xiàn)本章的主要目的是分析語(yǔ)音識(shí)別建模的技術(shù),并通過(guò)CBHG、Transformer等模型完成語(yǔ)言模型得搭建,實(shí)現(xiàn)語(yǔ)音音頻信號(hào)識(shí)別。一、語(yǔ)言模型建模技術(shù)語(yǔ)言模型是一種基于語(yǔ)言客觀事實(shí)的對(duì)應(yīng)關(guān)系。語(yǔ)言模型與語(yǔ)言客觀事實(shí)之間的關(guān)系就像數(shù)學(xué)中抽象直線與具體直線之間的關(guān)系,在進(jìn)行語(yǔ)言模型的建立時(shí),必須對(duì)語(yǔ)言模型與語(yǔ)言客觀事實(shí)之間的關(guān)系進(jìn)行確認(rèn),從而才能夠更好的輔助語(yǔ)言模型的建立。語(yǔ)言模型本身具有一定的抽象性,同時(shí)該種模型也是一種非常簡(jiǎn)單且統(tǒng)一的模型,再進(jìn)行語(yǔ)音模型的構(gòu)建時(shí),需要對(duì)語(yǔ)音的特征以及語(yǔ)音的描述進(jìn)行細(xì)致的分析。了解電子計(jì)算機(jī)進(jìn)行語(yǔ)音識(shí)別的過(guò)程,以及學(xué)需要進(jìn)行識(shí)別的重要要素。然后針對(duì)語(yǔ)音模型進(jìn)行建立,對(duì)于自然語(yǔ)言的信息進(jìn)行處理,能夠更好地提高與模型建立的意義。語(yǔ)言模型主要有三種類型:①生成性模型,②分析性模型,③辨識(shí)性模型。二、構(gòu)建語(yǔ)言模型本次設(shè)計(jì)的實(shí)驗(yàn)是基于zh.tsv數(shù)據(jù)集的語(yǔ)音模型構(gòu)建,輸入一段測(cè)試拼音,如“yu3yan2mo2xing4”,最終能夠輸出“語(yǔ)音模型”的結(jié)果。本次實(shí)驗(yàn)構(gòu)建的語(yǔ)言模型主要采用了CBHG、Transformer兩種方法,其中利用self-attention來(lái)對(duì)語(yǔ)音模型進(jìn)行建模效果更佳。CBHG模塊善于提取序列特征,因此常被用在語(yǔ)音合成、語(yǔ)音識(shí)別上。Transformer是Google的團(tuán)隊(duì)在2017年提出的一種NLP經(jīng)典模型,現(xiàn)在比較火熱的Bert也是基于Transformer。Transformer模型使用了Self-Attention機(jī)制,不采用RNN的順序結(jié)構(gòu),使得模型可以并行化訓(xùn)練,而且能夠擁有全局信息。(一)CBHG模型CBHG模型最開(kāi)始提出即為一種用來(lái)從序列中提取高層次特征的模塊,圖4-1為CBHG模塊示意圖。圖4-1GBHG模塊示意圖CBHG模塊使用了卷積+highway+殘差鏈接+雙向GRU的組合,輸入序列并輸出序列。圖中,卷積部分使用了K個(gè)1-D卷積核集合,卷積的寬度從1到K都存在,因此可以建模上下文信息。CBHG模塊的步驟如下:·輸入序列首先通過(guò)K1-D卷積來(lái)處理,輸入序列的K卷積核通道為k,這些卷積核可以有效地建模當(dāng)前信息和上下文信息?!ぞ矸e輸出堆疊在一起,沿時(shí)間軸池最大,以增加當(dāng)前信息不變性。stride取為1維持時(shí)間分辨率?!ぽ斎攵鄠€(gè)固定寬度的一維卷積,以將輸出增加到起始輸入序列,使用批量標(biāo)準(zhǔn)化的所有卷積?!ふ?qǐng)輸入一個(gè)highway網(wǎng)絡(luò)。來(lái)提取更高級(jí)別的特征。·在頂部添加一個(gè)雙向GRU,以提取序列的上下文特征。(二)Transformer模型與大多數(shù)seq2seq模型一樣,transformer的結(jié)構(gòu)也是由encoder和decoder組成,但其結(jié)構(gòu)相比于Attention更加復(fù)雜,總體結(jié)構(gòu)圖見(jiàn)圖4-2。EncoderEncoder由N個(gè)相同的layer組成,layer指的是圖4-2中左側(cè)的單元,由“Nx”表示。在論文《AttentionIsAllYouNeed》中由六層構(gòu)成。每個(gè)layer層由兩個(gè)sub-layer組成,因此可以將sub-layer的輸出表示為:(4-1)·Multi-headself-attentionattention可由以下形式表示:(4-2)將不同的attention結(jié)果拼接起來(lái):(4-3)(4-4)在針對(duì)attention的計(jì)算中,采用了scaleddot-product,即:(4-5)圖4-2Encoder和Decoder結(jié)構(gòu)圖DecoderDecoder和Encoder幾乎具有相同的結(jié)構(gòu),而不同的是,由于二者之間存在一定輸出輸入編碼的差異:·輸出:對(duì)應(yīng)i位置的輸出詞的概率分布·輸入:encoder的輸出以及其對(duì)應(yīng)i-1位置decoder的輸出?!そ獯a:訓(xùn)練時(shí),解碼為一次性解碼,用上一步的ground-truth預(yù)測(cè)。預(yù)測(cè)時(shí),由于沒(méi)有g(shù)round-truth,需要一個(gè)個(gè)預(yù)測(cè)。PositionalEncoding除了主要的Encoder和Decoder,還有數(shù)據(jù)預(yù)處理的部分。Transformer拋棄了RNN,而RNN最大的優(yōu)點(diǎn)就是在時(shí)間序列上對(duì)數(shù)據(jù)的抽象,因此Transformer提出PositionEncoding的方式,將encoding后的數(shù)據(jù)與embedding數(shù)據(jù)求和,加入了相對(duì)位置信息。其位置計(jì)算公式如下:(4-6)(4-7)圖4-3PositionEncoding結(jié)構(gòu)圖三、優(yōu)化算法——Adam優(yōu)化器2014年12月,Kingma和LeiBa結(jié)合AdaGrad和RMSProp優(yōu)化算法的優(yōu)點(diǎn),提出了Adam優(yōu)化器??紤]了梯度的一階和二階矩估計(jì)來(lái)計(jì)算更新步驟。Adam更新規(guī)則如下:(4-8)(4-9)(4-10)(4-11)(4-12)其中:——對(duì)梯度的一階矩估計(jì)和二階矩估計(jì);——對(duì)期望的估計(jì);——對(duì)的校正。通過(guò)上述計(jì)算方式能夠發(fā)現(xiàn),在沒(méi)有額外要求的情況下對(duì)梯度進(jìn)行評(píng)估??梢愿鶕?jù)梯度的具體運(yùn)動(dòng)狀態(tài)進(jìn)行相應(yīng)的計(jì)算,在整個(gè)學(xué)習(xí)過(guò)程中采用動(dòng)態(tài)約束的方法對(duì)整個(gè)計(jì)算率進(jìn)行明確的范圍約束。四、實(shí)驗(yàn)設(shè)計(jì)通過(guò)研究卷積網(wǎng)絡(luò)的典型結(jié)構(gòu)和模型原理,利用變壓器模型構(gòu)建端到端語(yǔ)言模型。利用Transformer模型搭建端到端的語(yǔ)言模型。本實(shí)驗(yàn)使用python版本為3.6.0,tensorflow版本為1.12.0,keras版本為2.2.4。(一)模型框架與數(shù)據(jù)集介紹1.TensorFlowTensorFlow[16]是一個(gè)由GoogleBrain的研究人員和工程師團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源軟件庫(kù),通常用于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),由于其計(jì)算框架的通用性和可擴(kuò)展性,TensorFlow在其他計(jì)算領(lǐng)域也被廣泛地應(yīng)用。2.thchs30數(shù)據(jù)集THCHS30是由清華大學(xué)語(yǔ)音與語(yǔ)言技術(shù)中心(CSLT)發(fā)布的一個(gè)開(kāi)放的中文語(yǔ)音數(shù)據(jù)庫(kù),可用于中文語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)。該數(shù)據(jù)集的語(yǔ)音數(shù)據(jù)可以在一個(gè)安靜的辦公室環(huán)境中使用30多個(gè)小時(shí)。采樣頻率為16kHz,采樣大小為16bits。這個(gè)數(shù)據(jù)集包括以下內(nèi)容:數(shù)據(jù)集音頻時(shí)長(zhǎng)(h:mm)句子數(shù)詞數(shù)train25:0010000198252

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論