《深度學習 》課件 第11章-無監(jiān)督深度學習_第1頁
《深度學習 》課件 第11章-無監(jiān)督深度學習_第2頁
《深度學習 》課件 第11章-無監(jiān)督深度學習_第3頁
《深度學習 》課件 第11章-無監(jiān)督深度學習_第4頁
《深度學習 》課件 第11章-無監(jiān)督深度學習_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

匯報人:100871單擊此處添加文本11

無監(jiān)督深度學習目錄

|

CONTENTS概述1基于掩碼的任務2基于語言模型的任務3基于時序的任務4基于對比學習的任務5經(jīng)典無監(jiān)督深度學習模型6概述111.1概述無監(jiān)督學習特點深度學習的進展依賴大量標記數(shù)據(jù),但無監(jiān)督學習興起,通過無標簽數(shù)據(jù)挖掘潛在信息,降低人力成本,提升模型泛化性。數(shù)據(jù)無標簽,但內(nèi)部結(jié)構(gòu)豐富,無明確訓練目標,無法量化效果,但能增強模型的健壯性和泛化性。無監(jiān)督學習任務分類包括基于掩碼、語言模型、時序和對比學習的任務,通過上述不同方式,程序無標簽數(shù)據(jù)處理成輸入輸出對,揭示數(shù)據(jù)內(nèi)在規(guī)律。11.2基于掩碼的任務211.2基于掩碼的任務掩碼模型在無監(jiān)督學習中的使用最為廣泛,適用于文本和圖片數(shù)據(jù)。經(jīng)過這兩種數(shù)據(jù)訓練的方式分別稱為掩碼語言建模任務(MaskedLanguageModeling,MLM)和掩碼圖片建模任務(MaskedImageModeling,MIM)掩碼語言建模任務:對文本數(shù)據(jù)進行部分遮掩,模型通過上下文學習還原被掩碼信息,訓練模型理解語言結(jié)構(gòu)。掩碼圖片建模任務:圖片數(shù)據(jù)的某部分被掩碼,模型需重建原圖像塊,學習圖片的內(nèi)在特征,適用于圖像處理任務。掩碼模型應用通過特殊標記替換數(shù)據(jù)某部分,但整體信息不受影響,深度學習能推導被遮掩內(nèi)容,學習數(shù)據(jù)自身蘊含的內(nèi)部特征和結(jié)構(gòu)信息,這種模型稱為掩碼模型(MaskedModel)。掩碼任務原理能夠從大規(guī)模數(shù)據(jù)中自動學習,而無需人工標注數(shù)據(jù)。通過預訓練和微調(diào)的方式,可以適用于各種下游任務,結(jié)果令人矚目。掩碼模型優(yōu)勢基于語言模型的任務311.3基于語言模型的任務通過學習大量文本數(shù)據(jù),預測給定上下文的下一個單詞或字符的概率分布。一個語言模型通常構(gòu)建為字符串s的概率分布p(s),如式,式中p(s)反映字符串s作為一個句子出現(xiàn)的頻率,wi表示字符串s中第i個單詞。語言模型概念使用深度神經(jīng)網(wǎng)絡,以大量無標簽文本為訓練數(shù)據(jù),根據(jù)給定的上下文序列預測下一個單詞或字符,并通過最小化預測與實際目標的差異來優(yōu)化模型網(wǎng)絡參數(shù),這個過程被稱為自回歸(AutoRegression)。模型結(jié)構(gòu)與訓練語言模型對于文本數(shù)據(jù)的理解能力和泛化能力不如掩碼語言模型,但更擅長于文本生成任務,給定文本起始部分,能自動生成連貫的后續(xù)文本。任務類型差異基于時序的任務411.4基于時序的任務下句預測任務(NextSentencePrediction,NSP)和語句順序預測(Sentence-OrderPrediction,SOP)是兩種常見的時序任務,都是判斷語句對是否為前后句,區(qū)別主要體現(xiàn)在負樣例的構(gòu)建。下句預測任務是隨機將文檔中的兩個作為句子對構(gòu)建負樣例,而語句順序預測任務是將相鄰的兩個句子顛倒順序構(gòu)建負樣例。相比之下,語句順序預測任務更為復雜,能夠?qū)W習到更多語句間的語義關系。兩種時序任務是以學習數(shù)據(jù)的時序信息為目的的判別任務,判斷數(shù)據(jù)對是否相鄰或前后順序正確,常用于文本數(shù)據(jù)。時序任務定義基于對比學習的任務5學習樣本間相似性,拉近相似,推遠不相似,構(gòu)建數(shù)據(jù)間距離關系的無監(jiān)督學習方法,是一種表示學習。對比學習概念利用數(shù)據(jù)差異訓練,設計損失函數(shù)使相似樣本接近,不相似樣本遠離,形成表示或嵌入空間。基本思想廣泛應用于文本、圖片、音頻等多種數(shù)據(jù)形式,在多模態(tài)數(shù)據(jù)中也有優(yōu)異表現(xiàn),通過對比不同模態(tài)信息學習對應關系。應用領域無需標注數(shù)據(jù),適用于大規(guī)模無標簽場景,提取的特征表示反映樣本信息,可用于多種識別任務。優(yōu)勢11.5基于對比學習的任務需自動構(gòu)建正負樣本對,設計區(qū)分相似不相似的損失函數(shù)。挑戰(zhàn)經(jīng)典無監(jiān)督深度學習模型611.6經(jīng)典無監(jiān)督深度學習模型BERT模型預訓練語言模型,采用掩碼語言建模和下句預測任務,學習上下文語義表示。BEIT模型利用雙向編碼器從圖像中提取特征,通過掩碼圖片建模任務訓練,適合大規(guī)模無標簽數(shù)據(jù)的預訓練。掩碼自編碼器擴展自編碼器,通過掩碼任務學習數(shù)據(jù)恢復,增強生成與表征能力。GPT模型GPT系列單向語言模型,通過自回歸方式生成文本,GPT-3展現(xiàn)上下文學習能力。SimCLR模型采用對比學習方法,通過數(shù)據(jù)增強形成相似圖片,最小化同類間距離。11.6.1掩碼自編碼器泛指經(jīng)過掩碼任務訓練的神經(jīng)網(wǎng)絡模型,本質(zhì)上是一種解碼器。(公式)通過啟發(fā)式的規(guī)則對輸入數(shù)據(jù)進行掩碼或者破壞,并訓練網(wǎng)絡模型對掩碼后的數(shù)據(jù)進行還原,在文本生成、圖像生成以及表征學習等各種領域均具有出色表現(xiàn)。掩碼自編碼器也稱自動編碼器,功能是對輸入信息進行表征學習,主要目的在于對高維數(shù)據(jù)進行降維,同時保留數(shù)據(jù)的主要特征。由編碼器和解碼器兩個主要部分組成,編碼器用于將輸入編碼,而解碼器使用編碼重構(gòu)輸入。(公式)x與y與足夠相似,則隱藏層很好地壓縮了輸入內(nèi)容,同時能保留輸入信息,那么編碼器的輸出h即特征向量可以代替輸入數(shù)據(jù),完成后續(xù)內(nèi)容的研究。自編碼器11.6.2BERT模型由Transformer編碼器網(wǎng)絡構(gòu)成,并通過大規(guī)模語料數(shù)據(jù)進行無監(jiān)督預訓練訓練,其本質(zhì)是為了獲取文字的語義向量表示。在預訓練階段中,BERT模型主要同時訓練兩個任務:掩藏語言建模(MLM)任務和下句預測(NSP)任務。BERT模型的訓練過程谷歌在2018年推出了BERT模型,這是一個基于大規(guī)模語料預訓練的無監(jiān)督預訓練語言模型,通過“預訓練-微調(diào)”兩階段方式在自然語言處理任務上取得最佳效果。BERT模型的推出在微調(diào)階段,將遷移至私有數(shù)據(jù)域上進行微調(diào),以提升當前任務上的效果,使得BERT模型能在文本分類、命名實體識別、語義關系抽取等各項自然語言處理任務中發(fā)揮出色表現(xiàn)。BERT模型的應用與微調(diào)RoBERTa

ALBERT隱藏層單元數(shù)量增加ALBERT通過將隱藏層的單元數(shù)量翻倍,引入詞嵌入的因式分解和交叉層的參數(shù)共享技術,有效減少了模型的參數(shù)量,同時保持了性能。0102去除下一句預測任務ALBERT去除了BERT中的下一句預測任務(NSP),轉(zhuǎn)而使用語句順序預測任務(SOP),簡化了訓練過程并提高了模型的性能。RoBERTa優(yōu)化ALBERT精簡RoBERTa模型在BERT的基礎上進行了關鍵優(yōu)化,去除了下一句預測任務(NSP)去除下一句預測任務01、通過采用動態(tài)掩碼策略訓練掩碼語言建模任務(MLM),RoBERTa模型能夠隨機掩蓋輸入文本中的不同部分動態(tài)掩碼策略的應用02、這些優(yōu)化措施共同作用,顯著提高了RoBERTa模型處理文本數(shù)據(jù)的能力,使其在多項自然語言處理任務中表現(xiàn)出色,超越了原始的BERT模型。性能提升的顯著性03、11.6.3GPT模型將歸一化層放到了每一層Transformer網(wǎng)絡的最前端,而GPT模型的歸一化層在每一層Transformer網(wǎng)絡的最后端,同時在最后一層Transformer網(wǎng)絡之后增加了一層歸一化層。將語言視為多任務學習者,將所有具體的任務都構(gòu)建為文本的形式,GPT-2模型通過自回歸的方式生成文本,進而完成具體的任務。GPT-2模型是由OpenAI在2018年提出的基于Transformer解碼器的單向預訓練語言模型,不含有編碼器,可以視為帶有單向掩碼的Transformer編碼器網(wǎng)絡。其無監(jiān)督訓練方式采用標準的語言模型訓練方式,給定文本序列(T1,T2,T3,…,Tn-1),預測目標Tn,并最大化似然函數(shù),可以直接使用自回歸的方式生成文本。GPT模型GPT-3模型參數(shù)量達到了1750億,在Transformer網(wǎng)絡中加入了稀疏注意力機制。因為其具有足夠大的模型規(guī)模,使得GPT-3模型出現(xiàn)了涌現(xiàn)能力,能夠?qū)崿F(xiàn)上下文學習,在多數(shù)任務中達到了最好成績。11.6.4BEIT模型在圖像分類和語義分割方面的實驗結(jié)果表明,與以前的無監(jiān)督方法相比,BEIT模型獲得了更出色的結(jié)果。同時,BEIT對大模型也更有幫助,特別是當標記數(shù)據(jù)不足以對大模型進行有監(jiān)督預訓練時,BEIT的無監(jiān)督訓練方法能夠更充分的利用大規(guī)模無標簽數(shù)據(jù)。模型成果類似于BERT模型,二者區(qū)別在于BERT模型使用文本數(shù)據(jù)訓練,而BEIT模型使用圖片數(shù)據(jù)訓練。BEIT模型同樣由Transformer編碼器構(gòu)成,采用掩碼圖片建模任務(MIM)訓練,隨機掩碼一定比例的圖像塊,然后預測與掩碼圖像塊對應的視覺token。模型原理11.6.5SimCLR模型SimCLR通過無監(jiān)督學習到的圖片表示,在各種具體任務中的效果能夠媲美有監(jiān)督的訓練。不僅可以使用圖片數(shù)據(jù),也可以使用文本數(shù)據(jù)。模型優(yōu)勢對比學習框架,用來學習圖片數(shù)據(jù)的表示。SimCLR通過最小化同類之間的距離占總距離的比例,實現(xiàn)“同類相吸、異類互斥”。模型原理本章小結(jié)本章介紹了深度學習中的無監(jiān)督學習,無監(jiān)督學習是一種不依賴于標注標簽的訓練方式,其主要目的是訓練網(wǎng)絡模型學習無標簽數(shù)據(jù)的自有特征。根據(jù)所學習數(shù)據(jù)特征的不同,本章將無監(jiān)督學習劃分為四種訓練任務,具體而言,基于掩碼的任務學習數(shù)據(jù)的上下文特征,基于語言模型的任務學習文本數(shù)據(jù)的概率建模,基于時序的任務學習數(shù)據(jù)的邏輯特征,基于對比學習的任務學習數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論