上下文詞嵌入Contextualized Embedding_第1頁
上下文詞嵌入Contextualized Embedding_第2頁
上下文詞嵌入Contextualized Embedding_第3頁
上下文詞嵌入Contextualized Embedding_第4頁
上下文詞嵌入Contextualized Embedding_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

上下文詞嵌入

ContextualizedWordEmbedding1目錄WordEmbeddingsPre-TrainingLanguageModelNextSentencePredictionFine-Tuning處理輸入處理輸出實驗任務(wù)和數(shù)據(jù)集結(jié)果AblationStudy簡介2WordEmbeddingsEmbedding:嵌入,保持結(jié)構(gòu)的單射。用向量表示詞。3w1Modele1w2Modele2w3Modele3w1e1w2Modele2w3e3StaticWordEmbedding如:Word2vec、GloVeContextualWordEmbedding如:BERT、GPT如何獲得CWE4Model隨機初始化或用其他模型已有的參數(shù)Pre-train無標注的語料庫后續(xù)需要的特殊符號Pre-trainedModel具有較好的參數(shù)Fine-tunePre-trainedModel有標注的數(shù)據(jù)添加任務(wù)相關(guān)的結(jié)構(gòu)Task-specificStructurePre-trainedModelTask-specificStructurePre-trainedModelTask-specificStructure目錄WordEmbeddingsPre-TrainingLanguageModelNextSentencePredictionFine-Tuning處理輸入處理輸出實驗任務(wù)和數(shù)據(jù)集結(jié)果AblationStudy簡介5如何Pre-train需要考慮的問題:讓模型理解token和context支持后續(xù)任務(wù)(例如同時輸入兩個句子)利用大量無標注的語料方法:LanguageModel(LM)是一個通用的任務(wù)再配合模型設(shè)計相關(guān)的任務(wù),如NextSentencePrediction(BERT),用于模型學習特殊token6Pre-train中的LMAutoregressive(AR)LM:GPT預(yù)測下一個詞Autoencoding(AE)LM:BERT恢復(fù)被破壞的語料7w1w2GPT(Multi-layerTransformerDecoder)e2P(w3)Linear&Softmaxw1e1[MASK]BERT(Multi-LayerTransformerEncoder)e2w3e3P(w2)Linear&SoftmaxGPT的ARLM

8w1w2TransformerDecoderw3TransformerDecodere1e2e3P(w2)P(w3)P(w4)*We&SoftmaxBERT的MaskedLM9w1w2TransformerEncoderw3TransformerEncodere1e2e3P(w2)*We&Softmax隨機選取15%的token其中:80%替換為[MASK]10%替換為隨機的token10%保持不變減小引入[MASK]導(dǎo)致的影響MASS和BART的Seq2seqLM直接使用完整的Transformer。10輸入corrupteddocument輸入預(yù)測的document,通過mask使模型只能attend已預(yù)測的部分輸出predictionMASS與BART的區(qū)別11MASS:corruption是連續(xù)的,decoder不輸入已知部分,也不需輸出已知部分BART:支持多種corruption,decoder需要輸入輸出完整documentUNILM的多種LM,巧用attentionmask12XLNet的PermutationLM問題:AR

LM無法同時利用上下文的信息。AE

LM引入[MASK]標記導(dǎo)致預(yù)訓練和實際任務(wù)不一致。方法:隨機順序的ARLM。13PermutationLM的位置信息

14Two-StreamSelf-AttentionforTarget-AwareRepresentations15

Pre-train:NextSentencePredictionBERT和UNILM除了使用LM,還使用NSP做pre-train。1650%的概率B是A的下一句。50%的概率是隨機選擇的句子。[CLS]的輸出用于分類目錄WordEmbeddingsPre-TrainingLanguageModelNextSentencePredictionFine-Tuning處理輸入處理輸出實驗任務(wù)和數(shù)據(jù)集結(jié)果AblationStudy簡介17如何Fine-tune根據(jù)不同的下游任務(wù)分類:輸入:一個句子多個句子輸出:單個分類(情感分類、邏輯推斷、句子相似度)每個token的分類(命名實體識別)輸入的子串(提取型問答)Sequence(機器翻譯、文本摘要、生成型問答)18如何Fine-tune六個模型可以抽象為兩種結(jié)構(gòu):19w1e1w2Modele2w3e3w1w2Encoderw3Sw5Decoderw6w5w6w7多層TransformerEncoder:BERT、UNILM多層TransformerDecoder:GPT多層Attention:XLNet完整的Transformer:MASS、BART同時輸入兩個句子除了MASS以外,BERT、GPT、UNILM、XLNet、BART支持同時輸入兩個句子。20Model實現(xiàn)單個分類21Modele1enBERT、UNILM、XLNet取[CLS]對應(yīng)的輸出GPT、BART取最后一個輸出BERT、UNILM、XLNet在最前面添加[CLS]tokenGPT、BART用Decoder輸出,只有最后一個位置才能attend全句Linear&Softmax實現(xiàn)token級分類22w1e1w2CWEModele2w3e3w4e4Task-SpecificModel(如LSTM+Linear+Softmax)c1c2c3c4實現(xiàn)提取輸入23ModelT1T2T3T4

SEDotProduct實現(xiàn)輸出Sequence24MASS、BART:與Transformer完全相同。w1w2Encoderw3Sw5Decoderw6w5w6w7UNILM:隨機mask目標序列,不mask源序列。w1w2UNILMEOSSOSw3[MASK]w5EOSw4特例:BART用于機器翻譯BART沒有把機器翻譯看成普通的序列生成任務(wù),而是把整個BART模型看成一個decoder,再添加一個小型隨機初始化的encoder用于編碼原文。25第一步,凍結(jié)大部分BART參數(shù),只更新隨機初始化的源encoder、BART的positionalembeddings和BARTencoder第一層的attention。第二步,訓練所有參數(shù)目錄WordEmbeddingsPre-TrainingLanguageModelNextSentencePredictionFine-Tuning處理輸入處理輸出實驗任務(wù)和數(shù)據(jù)集結(jié)果AblationStudy簡介26任務(wù)和數(shù)據(jù)集NLP可以分為自然語言理解(NLU)和自然語言生成(NLG)。NLU:GLUEBenchmark:包括9項序列分類的任務(wù)/SQuAD:給定一篇文章和問題,答案是原文中的一段話https://rajpurkar.github.io/SQuAD-explorer/SWAG:給定一個句子,在四個選項中選擇最合理的下一句/anthology/D18-1009/CoNLL-2003:命名實體識別https://www.clips.uantwerpen.be/conll2003/ner/NLG:WMT:神經(jīng)機器翻譯http:///wmt20/translation-task.htmlGigaword:文本摘要https:///harvardnlp/sent-summaryCornellMovie-Dialogs:對話響應(yīng)生成/~cristian/Cornell_Movie-Dialogs_Corpus.html27GLUE

Benchmark結(jié)果28/pdf/1905.00537.pdfXLNet-Large超越了人類表現(xiàn)SummarizationCase29具有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論