AI概論及應(yīng)用 課件 10.3 主流模型_第1頁
AI概論及應(yīng)用 課件 10.3 主流模型_第2頁
AI概論及應(yīng)用 課件 10.3 主流模型_第3頁
AI概論及應(yīng)用 課件 10.3 主流模型_第4頁
AI概論及應(yīng)用 課件 10.3 主流模型_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十章機(jī)器翻譯10.3主流模型循環(huán)神經(jīng)網(wǎng)絡(luò)模型01卷積神經(jīng)網(wǎng)絡(luò)模型02自注意力崛起03模型選型指南04目錄CONTENTS循環(huán)神經(jīng)網(wǎng)絡(luò)模型0101RNN核心思想RNN的核心在于循環(huán)連接,它像人一樣邊讀邊記,每一步都把前面的語義壓縮進(jìn)隱藏狀態(tài),再與當(dāng)前詞結(jié)合,實(shí)現(xiàn)前文影響后文的效果。02示例說明例如在處理句子‘狗追貓’時(shí),讀到‘追’時(shí),隱藏狀態(tài)已攜帶‘狗’這一主語信息,幫助模型預(yù)判后續(xù)賓語,從而理解句子含義。03變長輸入適應(yīng)性RNN對(duì)變長輸入有很強(qiáng)的適應(yīng)性,無論句子多長,都能通過循環(huán)連接逐步處理,為后續(xù)編碼器-解碼器結(jié)構(gòu)奠定基礎(chǔ)。RNN為何適合處理序列

編碼器工作原理編碼器像速記員,把整句中文逐字讀入RNN,每讀一個(gè)詞,RNN的隱藏狀態(tài)就更新一次,最終得到一個(gè)固定長度的語義向量,這個(gè)向量包含了句子的全部語義信息。解碼器工作原理解碼器像翻譯員,從編碼器得到的語義向量出發(fā),逐詞生成目標(biāo)語言句子。它根據(jù)當(dāng)前生成的詞和語義向量,預(yù)測(cè)下一個(gè)詞,直到生成完整的句子。編碼器-解碼器工作流程圖1編碼器-解碼器框架注意力機(jī)制作用注意力機(jī)制讓解碼器在生成每個(gè)詞時(shí),都能動(dòng)態(tài)地關(guān)注編碼器的所有隱藏狀態(tài),通過加權(quán)平均的方式,生成與上下文相關(guān)的可變語義向量,從而更精準(zhǔn)地生成目標(biāo)語言句子。注意力機(jī)制模型圖2注意力機(jī)制模型卷積神經(jīng)網(wǎng)絡(luò)模型02卷積核提取特征一維卷積核可以掃描詞序列,通過局部感受野,捕捉n-gram級(jí)特征,如‘動(dòng)詞短語’‘名詞短語’,從而提取句子的局部特征表示。并行處理優(yōu)勢(shì)多個(gè)卷積核并行工作,像多把梳子同時(shí)梳理句子,提取不同粒度的局部模式,大大提高了編碼效率,與RNN的順序依賴形成鮮明對(duì)比。卷積也能做翻譯1.編碼階段編碼階段,CNN通過多層卷積和池化操作,把源句壓縮成語義圖,提取句子的高層語義表示。2.解碼階段解碼階段,CNN同樣用卷積操作,根據(jù)已生成的部分目標(biāo)語言序列和源語言編碼信息,預(yù)測(cè)下一個(gè)目標(biāo)語言詞匯。3.注意力機(jī)制輔助為了更好地處理長距離依賴關(guān)系,一些基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型還引入了注意力機(jī)制,讓模型在解碼過程中動(dòng)態(tài)地關(guān)注源語言句子中的不同部分。CNN翻譯三步走圖3卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)CNN在并行處理上具有優(yōu)勢(shì),可一次性處理全句,而RNN必須逐詞處理;在長依賴上,CNN需深層堆疊或注意力彌補(bǔ),RNN天然按順序傳遞但易梯度消失;在參數(shù)量上,CNN共享卷積核更省內(nèi)存。CNN與RNN優(yōu)劣對(duì)比自注意力崛起03自注意力原理自注意力機(jī)制中,每個(gè)詞生成查詢、鍵、值三把鑰匙,用查詢?nèi)ニ墟I里找相關(guān)度,加權(quán)求和得到該詞的新表示,無需循環(huán)即可捕獲任意距離依賴。示例說明:例如在句子‘貓追狗’中,‘追’可以同時(shí)關(guān)聯(lián)‘貓’和‘狗’,體現(xiàn)全局視野,解決RNN的長程遺忘與CNN的堆疊深度問題。自注意力機(jī)制簡介Transformer整體架構(gòu)殘差連接與位置編碼Transformer采用殘差連接和位置編碼,殘差連接幫助信息流動(dòng),位置編碼讓模型能區(qū)分詞的順序,即使沒有循環(huán)結(jié)構(gòu)也能保持語序。編碼器架構(gòu)Transformer的編碼器端有多層自注意力和前饋網(wǎng)絡(luò),把源句編碼成上下文向量序列,每一層都對(duì)語義進(jìn)行更深入的加工。01解碼器架構(gòu)解碼器端在自注意力外再加一層對(duì)編碼輸出的交叉注意力,逐詞生成目標(biāo)句,確保生成的每個(gè)詞都能充分考慮源句的語義信息。0203并行訓(xùn)練與推理速度速度優(yōu)勢(shì)Transformer的自注意力矩陣運(yùn)算可高度并行,訓(xùn)練時(shí)間相比RNN大幅縮短;推理階段雖仍需自回歸,但矩陣批量計(jì)算仍優(yōu)于RNN逐步展開,同等規(guī)模模型在GPU上每秒可處理的token數(shù)是RNN的3-5倍。模型選型指南04CNN適用場(chǎng)景如果句子較短、資源受限、需要快速上線,CNN是一個(gè)不錯(cuò)的選擇,它能快速處理短句,適合對(duì)實(shí)時(shí)性要求較高的場(chǎng)景。RNN+注意力適用場(chǎng)景如果句子較長、需要精細(xì)對(duì)齊、可以接受較長的訓(xùn)練時(shí)間,RNN+注意力機(jī)制是更好的選擇,它能更好地處理長句中的語義關(guān)系。Transformer適用場(chǎng)景如果追求最高性能、有充足的算力支持,Transformer是最佳選擇,它在翻譯質(zhì)量和效率上都表現(xiàn)出色,適合對(duì)翻譯質(zhì)量要求極高的場(chǎng)景。場(chǎng)景驅(qū)動(dòng)的模型選擇模型輕量化未來,模型輕量化是一個(gè)重要趨勢(shì),通過剪枝、量化等技術(shù),讓Transformer等大型模型能夠在移動(dòng)端等資源受限的設(shè)備上實(shí)時(shí)運(yùn)行,拓展其應(yīng)用場(chǎng)景。多模態(tài)融合多模態(tài)融合也是未來的發(fā)展方向,將圖像、語音等信息引入翻譯模型,提升模型對(duì)上下文的理解能力,使翻譯更加準(zhǔn)確和自然。未來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。