梁斌Penny:文科生聽懂大模型(1.0)_第1頁(yè)
梁斌Penny:文科生聽懂大模型(1.0)_第2頁(yè)
梁斌Penny:文科生聽懂大模型(1.0)_第3頁(yè)
梁斌Penny:文科生聽懂大模型(1.0)_第4頁(yè)
梁斌Penny:文科生聽懂大模型(1.0)_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

/南京文科生聽懂大模型AnAccessibleCourseforLiberalArtsStudents我們的課程就講這一張圖神經(jīng)網(wǎng)絡(luò)【引子2】輸入和輸出神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是什么?為什么神經(jīng)網(wǎng)絡(luò)能產(chǎn)生智能?1)任何事物都能被數(shù)字化。2)任何復(fù)雜的函數(shù)都可以被神經(jīng)網(wǎng)絡(luò)表達(dá),哪怕沒有顯示解析式。神經(jīng)網(wǎng)絡(luò)基本原理這個(gè)信號(hào)對(duì)最終輸出的影響就越大。易地被激活或抑制。雜的任務(wù)。神經(jīng)網(wǎng)絡(luò)基本原理學(xué)習(xí)率的理解(/)詳解梯度梯度是一個(gè)向量(是損失函數(shù)在每個(gè)變量上的偏導(dǎo)數(shù)構(gòu)成損失函數(shù)的正梯度是往損失函數(shù)變大方向走,負(fù)梯度是往損失函數(shù)變小方向走。AutoEncoder是一個(gè)利用學(xué)習(xí)一個(gè)F(x)→x的函數(shù),一層層壓縮得到目標(biāo)信息的一個(gè)壓縮表示(見圖3)受限玻爾茲曼機(jī)訓(xùn)練誤差Error用這個(gè)方式來調(diào)整參數(shù)(加或者減)來逐步降低訓(xùn)練誤差。訓(xùn)練誤差降低是讓模型提高的關(guān)鍵。防止過擬合L1/L2正則化,通過在損失函數(shù)中添加正則化項(xiàng)來限制參數(shù)的大小。Dropout,隨機(jī)放棄神經(jīng)元參與計(jì)算,以減少模型對(duì)特定神經(jīng)元的依賴。停止訓(xùn)練,當(dāng)驗(yàn)證集性能不再提升時(shí)停止訓(xùn)練。數(shù)據(jù)多樣化Embedding,人臉識(shí)別,手寫識(shí)別/nn_vis/cnn/3d.html【引子2】03Embedding在Transformer架構(gòu)中,是詞嵌入(TokenEmbedding)和位置編碼(PositionalEncoding)的結(jié)合。以下以句子為例,逐步說明輸入嵌入的具體形式(假設(shè)使用簡(jiǎn)化的4維向量演示)。03Embedding在Transformer架構(gòu)中,是詞嵌入(TokenEmbedding)和位置編碼(PositionalEncoding)的結(jié)合。以下以句子為例,逐步說明輸入嵌入的具體形式(假設(shè)使用簡(jiǎn)化的4維向量演示)。03Embedding?每個(gè)單詞都找到一個(gè)Embedding的方式,但是如果一個(gè)詞有多個(gè)意思怎么辦??比如love有喜歡、愛、熱愛等多種意思,一個(gè)表達(dá)如何能準(zhǔn)確??即便是同一個(gè)意思但是在不同的語(yǔ)境中又有不同的含義,比如父母對(duì)子女的love,人對(duì)狗的love?這就引出下一講——注意力機(jī)制個(gè)單詞在具體語(yǔ)境中的含義。什么是注意力機(jī)制?義向量。引入Wk和Wq更好的擴(kuò)增信息,更好的計(jì)算相似性什么是注意力機(jī)制?參考:https://jalammar.github.io/illustrated-transformer/答:避免負(fù)數(shù)抵消信號(hào)的問題,所有輸入加和為1。而其他激活函數(shù)ReLU(RectifiedLinearUnit)函數(shù)只能將負(fù)數(shù)變?yōu)?,而不能將輸出值轉(zhuǎn)換為概率分布。Sigmoid函數(shù)可以將輸出值轉(zhuǎn)換為0到1之間的值,但它不能確保所有輸出值的總和為1。輸入是一個(gè)句子,或者一個(gè)圖像的初始表示。有多少個(gè)頭,就有多少個(gè)概念空間。那不是頭越多越好?最終多個(gè)頭的信息怎么融合?答:像GPT-3這樣的大型模型可能會(huì)使用更多的頭(比如96個(gè)頭但是頭也不是越多越好, 每個(gè)頭都配置一個(gè)Q,K,V的矩陣要進(jìn)行計(jì)算,代價(jià)很大。如何是直接融合成一個(gè)向量輸出,不是分段向量。此外,訓(xùn)練過程中第一個(gè)頭關(guān)注什么,第二個(gè)頭關(guān)注什么都是自動(dòng)的,不是人為分配的。Add(殘差連接):將多頭注意力機(jī)制的輸出與輸入相加,幫助模型更好地訓(xùn)練深層網(wǎng)絡(luò)。對(duì)殘差連接的結(jié)果進(jìn)行歸一化處理,加速訓(xùn)練過程并提高模型的穩(wěn)定性。Add&NormAdd&Norm是Transformer模型中的一個(gè)重要組件,用于對(duì)多頭注意力機(jī)制的輸出進(jìn)行進(jìn)一步的特征提取和非線性變換。?增強(qiáng)模型的表達(dá)能力和學(xué)習(xí)能力,緩解梯度消失問題,引入非線性變換。04FeedForward為什么要緩解梯度消失問題?抽象的特征。依賴關(guān)系。模型的性能。能力和并行計(jì)算的優(yōu)勢(shì)。為什么低層學(xué)習(xí)到低級(jí)特征,高層學(xué)習(xí)高級(jí)特征?是什么?在Transformer架構(gòu)的解碼部分(Decoder)中,使用MaskedMultiple-HeadAttention(遮蔽多頭注意力)的主要原因是確保解碼器生成的序列是自回歸的(Autoregressive即生成的每個(gè)位置只能依賴于之前生成的位置,而不能依賴于未來的位置。這是通過在注意力機(jī)制中添加一個(gè)遮蔽(Mask)來實(shí)現(xiàn)的。將最終的解碼結(jié)果轉(zhuǎn)換到一個(gè)詞向量一樣維度的向量上(大小為詞匯表大?。?。Beamsearch在Transformer模型的推理過程中,當(dāng)遇到概率相近的候選詞時(shí),通常采用的策略是束搜索(BeamSearch)。束搜索是一種啟發(fā)式圖搜索算法,它在每一步擴(kuò)展時(shí)會(huì)保留一定數(shù)量的最優(yōu)候選序列,而不是僅保留概率最高的單個(gè)序列。這種方法可以提高生成序列的多樣性和質(zhì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論