注意力約束的Transformer_第1頁
注意力約束的Transformer_第2頁
注意力約束的Transformer_第3頁
注意力約束的Transformer_第4頁
注意力約束的Transformer_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Attention-ConstrainedTransformer

注意力約束的Transformer2020-5-28MotivationTransformer結(jié)構(gòu)是NLP中非常流行也是非常成功的的一個模型Multi-headAttention是其中最重要的一個模塊,通過計算dot-product的方法來建模word之間的關(guān)聯(lián)但是在長文本以及噪音文本的環(huán)境下,全局的attention分布會給真正需要關(guān)注的單詞權(quán)重,干擾語義學(xué)習(xí)和表示希望使得注意力權(quán)重更加集中在真正關(guān)聯(lián)的單詞上,而減少對于不相關(guān)的單詞的關(guān)注度Proposal:Attention-ConstrainedTransformer基于這樣的思想:“二八定律”“重要的東西往往是有限的”希望限制單個單詞關(guān)注的其他單詞的數(shù)量,只關(guān)注對其而言最重要的環(huán)境文本保持transformer整體框架不變的情況下,修改multi-headattention部分使用select-mask的做法,首先選擇出對于每個單詞最重要的其他單詞,然后mask住其他單詞的影響Related-workAttention機(jī)制是NLP最受到關(guān)注的機(jī)制之一,有很多對于attention機(jī)制的研究和改進(jìn)[1]添加了局部attention的限制,即限制了計算attention的作用范圍,但是這樣的做法損害了模型對于全局的長距離依賴的建模

[2]對于LongShortTermMemory進(jìn)行稀疏化改進(jìn)的[3]Transformer-XL則引入了分塊兒化的attention計算并且通過記憶memory來串聯(lián)各個分塊間的信息傳遞[1]RewonChild,ScottGray,AlecRadford,andIlyaSutskever.Generatinglongsequenceswithsparsetransformers.arXivpreprintarXiv:1904.10509,2019[2]NanRosemaryKe,AnirudhGoyal,OlexaBilaniuk,JonathanBinas,MichaelC.Mozer,ChrisPal,andYoshuaBengio.Sparseattentivebacktracking:Temporalcreditassignmentthroughreminding.InNeurIPS2018,pp.7651–7662,2018[3]ZihangDai,ZhilinYang,YimingYang,JaimeG.Carbonell,QuocVietLe,RuslanSalakhutdinov:Transformer-XL:AttentiveLanguageModelsbeyondaFixed-LengthContext.ACL(1)2019:2978-2988Methods:VanillaTransformer

Methods:Proposal

CoreCodeImplementationFairSeq/pytorch/fairseqDataset&BaselinesSrc-TgtCorpus#TrainingPairs#VocabSizeDe-EnIWSLT2014160K14,000En-ViIWSLT2015133K17,200BaselinesDesc.Imp.NPMT-LM*TowardsNeuralPhrase-basedMachineTranslation(ICLR2018)TakeresultsNP2MT*Neuralphrase-to-phrasemachinetranslation(arxiv2018)TakeresultsVanillaTransformerOriginalVersionofTransformerOurImp.OurMethodOurMethodOurImpResult1:MainResultMethodDe-EnEn-ViNPMT-LM*30.128.1NP2MT*31.730.6VanillaTransformer35.330.6OurMethod35.631.1Results2:OtherSrc-Tgt481632De-En36.3536.7836.7236.69En-Vi27.5727.6727.3227.54MethodTraining(tokens/s)Testing(tokens/s)VanillaTransformer49k7.0kOurMethod48k6.6kTheinfluenceofkTrainingSpeedConclusion基于“重要的關(guān)注內(nèi)容的數(shù)量往往是有限”這樣的原則,設(shè)計了對于attention權(quán)重的選擇和遮掩機(jī)制,來使得最終參與attention計算的元素數(shù)量受到限制,從而使得attention權(quán)重分布更加集中在最為重要的top-k個元素中開展了神經(jīng)機(jī)器翻譯的實驗,在De-En和En-Vi兩組翻譯任務(wù)中,改進(jìn)的Transformer模型表現(xiàn)均超過了原始的模型表現(xiàn)并且超過了baseline的結(jié)果,這說明了我們模型的有效性和通用。而在進(jìn)一步的實驗中,發(fā)現(xiàn)在這兩組翻譯任務(wù)中,理想的k取值范圍在8左右,這也進(jìn)一步驗證了限制attention注意元素的最大值的理想情況雖然的方法引入了額外的計算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論