chap15-序列生成模型_第1頁
chap15-序列生成模型_第2頁
chap15-序列生成模型_第3頁
chap15-序列生成模型_第4頁
chap15-序列生成模型_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、序列生成模型,神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),https:/nndl.github.io/,序列數(shù)據(jù),在深度學(xué)習(xí)的應(yīng)用中,有很多數(shù)據(jù)是以序列的形式存在,比如聲音、語言、視頻、DNA序列或者其它的時(shí)序數(shù)據(jù)等。,序列數(shù)據(jù)的潛在規(guī)律,以自然語言為例, 后一個(gè)句子在人腦的語義整合時(shí)需要更多的處理時(shí)間,更不符合自然語言規(guī)則。 規(guī)則是什么?,語言模型,自然語言理解 一個(gè)句子的可能性/合理性 !在報(bào)那貓告做只 那只貓?jiān)谧鲌?bào)告! 那個(gè)人在作報(bào)告! 一切都是概率!,序列概率模型,給定一個(gè)序列樣本,其概率為 p 1:T =p( 1 , 2 , T ) 和一般的概率模型類似,序列概率模型有兩個(gè)基本問題: (1)學(xué)習(xí)問題:給定一

2、組序列數(shù)據(jù),估計(jì)這些數(shù)據(jù)背后的概率分布; (2)生成問題:從已知的序列分布中生成新的序列樣本。,序列概率模型,給定一個(gè)序列樣本,其概率為 p 1:T =p( 1 , 2 , T ) 序列數(shù)據(jù)有兩個(gè)特點(diǎn): (1)樣本是變長的; (2)樣本空間為非常大。 對于一個(gè)長度為的序列,其樣本空間為 V 。因此,我們很難用已知的概率模型來直接建模整個(gè)序列的概率。,序列概率模型,序列概率 p 1:T = t p t 1:t1 t p( t | t1 , t+1 ) = t ( ) 因此,序列數(shù)據(jù)的概率密度估計(jì)問題可以轉(zhuǎn)換為單變量的條件概率估計(jì)問題,即給定 1:t1 時(shí) t 的條件概率p t 1:t1 。,序列

3、概率模型,序列概率 p( 1 , 2 , T ) = t p( t | t1 , 1 ) t p( t | t1 , t+1 ) = t ( ) 因此,序列數(shù)據(jù)的概率密度估計(jì)問題可以轉(zhuǎn)換為單變量的條件概率估計(jì)問題,即給定 1:(1) 時(shí) 的條件概率 ( | 1:(1) )。,自回歸生成模型,在這種序列模型方式中,每一步都需要將前面的輸出作為當(dāng)前步的輸入,是一種自回歸(autoregressive)的方式。 自回歸生成模型(Autoregressive Generative Model),序列生成,自回歸的方式可以生成一個(gè)無限長度的序列。為了避免這種情況,通常會設(shè)置一個(gè)特殊的符號“”來表示序列的

4、結(jié)束。在訓(xùn)練時(shí),每個(gè)序列樣本的結(jié)尾都加上符號“”。在測試時(shí),一旦生成了符號“”,就中止生成過程。,序列生成,機(jī),習(xí),$,生成最可能序列,當(dāng)使用自回歸模型生成一個(gè)最可能的序列時(shí),生成過程是一種從左到右的貪婪式搜索過程。在每一步都生成最可能的詞。 這種貪婪式的搜索方式是次優(yōu)的,生成的序列并不保證是全局最優(yōu)的。,束搜索,一種常用的減少搜索錯(cuò)誤的啟發(fā)式方法是束搜索(Beam Search)。 在每一步的生成中,生成K 個(gè)最可能的前綴序列,其中K 為束的大?。˙eam Size),是一個(gè)超參數(shù)。,N元統(tǒng)計(jì)模型,平滑技術(shù),N元模型的一個(gè)主要問題是數(shù)據(jù)稀疏問題。 數(shù)據(jù)稀疏問題的一種解決方法是平滑技術(shù)(Smo

5、othing),即給一些沒有出現(xiàn)的詞組合賦予一定先驗(yàn)概率。平滑技術(shù)是N元模型中的一項(xiàng)必不可少的技術(shù),比如加法平滑的計(jì)算公式為: = 1時(shí),稱為加1平滑。,深度序列模型,深度序列模型一般可以分為三個(gè)部分:嵌入層、特征層、輸出層。,嵌入層,詞嵌入(Word Embeddings),https:/indico.io/blog/visualizing-with-t-sne/,上海,北京,高興,難過,分布式表示-來自神經(jīng)科學(xué)的證據(jù),詞嵌入,Socher et al. (2013),From Mikolov et al. (2013),W(woman)W(man) W(aunt)W(uncle) W(wo

6、man)W(man) W(queen)W(king) W(中國)W(北京) W(英國)W(倫敦),特征層,特征層可以通過不同類型的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),比如前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。常見的網(wǎng)絡(luò)類型有以下三種:,特征層,前饋神經(jīng)網(wǎng)絡(luò)模型,特征層,前饋網(wǎng)絡(luò)模型和循環(huán)網(wǎng)絡(luò)模型的不同之處在于循環(huán)神經(jīng)網(wǎng)絡(luò)利用隱藏狀態(tài)來記錄以前所有時(shí)刻的信息,而前饋神經(jīng)網(wǎng)絡(luò)只能接受前n 1個(gè)時(shí)刻的信息。,輸出層,輸出層為一般使用softmax分類器,接受歷史信息的向量表示,輸出為詞表中每個(gè)詞的后驗(yàn)概率。,循環(huán)神經(jīng)網(wǎng)絡(luò)模型,評價(jià)方法,困惑度,困惑度(Perplexity)是信息論的一個(gè)概念,可以用來衡量一個(gè)分布的不確定性。 給

7、定一個(gè)測試文本集合,一個(gè)好的序列生成模型應(yīng)該使得測試集合中的句子的聯(lián)合概率盡可能高。,困惑度,BLEU,BLEU(Bilingual Evaluation Understudy)是衡量模型生成序列和參考序列之間的N元詞組(N-Gram)的重合度,最早用來評價(jià)機(jī)器翻譯模型的質(zhì)量,目前也廣泛應(yīng)用在各種序列生成任務(wù)中。,BLEU,ROUGE,ROUGE(Recall-Oriented Understudy for Gisting Evaluation)最早應(yīng)用于文本摘要領(lǐng)域。和 BLEU類似,但ROUGE計(jì)算的是召回率(Recall)。,序列到序列模型,序列到序列模型,序列到序列模型,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列模型,基于前饋神經(jīng)網(wǎng)絡(luò)的序列到序列模型,基于注意力的序列到序列模型,基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列模型,Transformer,Transformer,基于Transformer的序列到序列模型,其它應(yīng)用,文本摘要,文本摘要,對話,Li J, Monroe W, Ritter A, et al. Deep reinf

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論