【《注意力算法原理基礎(chǔ)綜述》1400字(論文)】_第1頁
【《注意力算法原理基礎(chǔ)綜述》1400字(論文)】_第2頁
【《注意力算法原理基礎(chǔ)綜述》1400字(論文)】_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

注意力算法原理基礎(chǔ)綜述目錄TOC\o"1-3"\h\u15586注意力算法原理基礎(chǔ)綜述 116491.1注意力算法的目的 1193411.2注意力算法的結(jié)構(gòu) 193621.3注意力權(quán)重的計(jì)算 3141831.4注意力算法的其他表示形式 3注意力算法是由Bahdanau等人在《NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate》中首次提出,本章以編碼器-解碼器模型下(編碼器、解碼器均選用遞歸神經(jīng)網(wǎng)絡(luò))的注意力算法為例對其原理進(jìn)行詳細(xì)介紹。如圖2-2所示,在傳統(tǒng)的RNN模型中,輸入序列為,其中是輸入序列的長度,并將其編碼為固定長度的向量。解碼器將單個(gè)固定長度向量作為其輸入,并逐個(gè)生成輸出序列,其中是輸出序列的長度,和分別表示位置的編碼器隱藏層狀態(tài)和位置解碼器的隱藏層狀態(tài)。圖2-2傳統(tǒng)的RNN模型1.1注意力算法的目的注意力算法通過允許解碼器訪問整個(gè)編碼的輸入序列來解決上述問題。注意力算法的目的是在計(jì)算解碼器隱藏層狀態(tài)和輸出序列時(shí),模型不再僅僅考慮編碼器所傳遞的一個(gè)固定長度的語義向量,而是對不同位置的解碼器隱藏層狀態(tài)和輸出序列引入不同的注意力分布得到不同的語義向量,以實(shí)現(xiàn)有選擇性地關(guān)注輸入序列的機(jī)制并且保留更多的輸入序列信息。1.2注意力算法的結(jié)構(gòu)注意力算法的結(jié)構(gòu)如圖2-3所示,該模型的注意力模塊會可以自動捕獲編碼器隱藏狀態(tài)和解碼器隱藏狀態(tài)之間的相關(guān)性,并在此基礎(chǔ)上計(jì)算注意力權(quán)重。圖2-3注意力算法的結(jié)構(gòu)這些注意力權(quán)重用于構(gòu)建語義向量,并將該向量作為輸入傳遞給解碼器。在每個(gè)解碼位置,語義向量是編碼器所有隱藏狀態(tài)及其相應(yīng)注意力權(quán)重的加權(quán)平均,即:通過編碼器所有隱藏狀態(tài)及其相應(yīng)注意力權(quán)重進(jìn)行加權(quán)平均得到語義向量,這便是注意力算法的核心思想。基于此,解碼器便能夠訪問整個(gè)輸入序列,也可以專注于輸入序列中的某些特定位置。這不僅可以提高模型處理任務(wù)的性能,還可以提高模型的輸出質(zhì)量。表2-1用數(shù)學(xué)公式分別表示了編碼器-解碼器體系框架下的傳統(tǒng)模型和加入注意力算法后的模型。其中,它們的區(qū)別主要在于語義向量的形成部分。在傳統(tǒng)模型中,語義向量僅通過編碼器的最后一個(gè)隱藏狀態(tài)獲得,但在加入注意力后,每個(gè)位置上的語義向量是編碼器的所有隱藏層狀態(tài)及其相應(yīng)注意力權(quán)重的加權(quán)平均。在表2-1中,表示非線性函數(shù),表示對齊函數(shù),表示注意力分布函數(shù)。表2-1加入注意力算法前后編碼器-解碼器模型比對未加入注意力加入注意力編碼器語義向量解碼器生成器1.3注意力權(quán)重的計(jì)算注意力權(quán)重的計(jì)算是通過在注意力算法中加入一個(gè)全連接層來實(shí)現(xiàn)的。該全連接層通過獲取編碼器隱藏狀態(tài)和解碼器隱藏狀態(tài)來學(xué)習(xí)特定的注意力權(quán)重。在全連接層獲取編碼器隱藏狀態(tài)和解碼器隱藏狀態(tài)后,利用對齊函數(shù)來計(jì)算編碼器隱藏狀態(tài)和解碼器隱藏狀態(tài)的相關(guān)程度,函數(shù)也被稱為對齊函數(shù)。然后將對齊函數(shù)值輸入至注意力分布函數(shù)中,該函數(shù)將對齊函數(shù)值進(jìn)行歸一化處理轉(zhuǎn)換為注意力權(quán)重,分布函數(shù)通常是softmax函數(shù)。同時(shí),我們可以發(fā)現(xiàn)構(gòu)成了模型的離散型注意力分布(或概率分布)。1.4注意力算法的其他表示形式注意力算法還有一種采用矩陣形式的通用表示方式,它可以看作是鍵值對通過查詢序列到注意力分布的映射,其中鍵序列是編碼器隱藏狀態(tài),值序列也是編碼器隱藏狀態(tài),查詢序列是解碼器隱藏狀態(tài)。注意力分布強(qiáng)調(diào)了在給定查詢序列時(shí),與任務(wù)最相關(guān)的鍵。除計(jì)算對象采用矩陣的形式外,其計(jì)算過程與1.2節(jié)中的的注意力算法無異:之后,該算法通過注意力權(quán)重及其相應(yīng)值序列進(jìn)行計(jì)算得到注意力函數(shù)值,即1.2節(jié)中所描述的語義序列:雖然Bahdanau等人提出的注意力算法中沒有區(qū)分鍵序列和值序列,即,但一些最新研究成果采用此

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論