版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
文科生聽(tīng)懂大模型DemystifyingLargeModels:AnAccessibleCourseforLiberalArtsStudents梁斌Penny/2025年2月/南京我們的課程就講這一張圖課程目錄01【引子1】神經(jīng)網(wǎng)絡(luò)02【引子2】Transformer輸入和輸出03【第一課】Transformer架構(gòu)PART
ONE【引子1】
神經(jīng)網(wǎng)絡(luò)【引子1】神經(jīng)網(wǎng)絡(luò)01神經(jīng)網(wǎng)絡(luò)是什么?為什么神經(jīng)網(wǎng)絡(luò)能產(chǎn)生智能?1)任何事物都能被數(shù)字化。2)任何復(fù)雜的函數(shù)都可以被神經(jīng)網(wǎng)絡(luò)表達(dá),哪怕沒(méi)有顯示解析式?!疽?】神經(jīng)網(wǎng)絡(luò)01神經(jīng)網(wǎng)絡(luò)基本原理神經(jīng)元概念解釋權(quán)重(Weight),偏置(Bias),激活函數(shù)(ActiveAction)權(quán)重是神經(jīng)元用來(lái)衡量輸入信號(hào)重要性的參數(shù)。每個(gè)輸入信號(hào)都有一個(gè)對(duì)應(yīng)的權(quán)重,權(quán)重越大,這個(gè)信號(hào)對(duì)最終輸出的影響就越大。偏置是一個(gè)常數(shù)項(xiàng),用來(lái)調(diào)整神經(jīng)元的輸出。它的作用是讓神經(jīng)元在沒(méi)有輸入信號(hào)時(shí)也能有一個(gè)基礎(chǔ)的輸出值。偏置可以幫助神經(jīng)元更容易地被激活或抑制。激活函數(shù)是神經(jīng)元用來(lái)決定是否將信號(hào)傳遞下去的“開(kāi)關(guān)”。它將神經(jīng)元的加權(quán)輸入(權(quán)重×輸入+偏置)轉(zhuǎn)換為一個(gè)非線性的輸出。激活函數(shù)的作用是引入非線性,讓神經(jīng)網(wǎng)絡(luò)能夠處理復(fù)雜的任務(wù)?!疽?】神經(jīng)網(wǎng)絡(luò)01神經(jīng)網(wǎng)絡(luò)基本原理梯度、反向傳播的幾個(gè)概念解釋學(xué)習(xí)率的理解(/)【引子1】神經(jīng)網(wǎng)絡(luò)01詳解梯度梯度是一個(gè)向量(是損失函數(shù)在每個(gè)變量上的偏導(dǎo)數(shù)構(gòu)成),損失函數(shù)的正梯度是往損失函數(shù)變大方向走,負(fù)梯度是往損失函數(shù)變小方向走?!疽?】神經(jīng)網(wǎng)絡(luò)01AutoEncodeAutoEncoder是一個(gè)利用學(xué)習(xí)一個(gè)F(x)→x的函數(shù),一層層壓縮得到目標(biāo)信息的一個(gè)壓縮表示(見(jiàn)圖3)受限玻爾茲曼機(jī)【引子1】神經(jīng)網(wǎng)絡(luò)01AutoEncode訓(xùn)練過(guò)程訓(xùn)練誤差Error防止過(guò)擬合L1/L2正則化,通過(guò)在損失函數(shù)中添加正則化項(xiàng)來(lái)限制參數(shù)的大小。Dropout,隨機(jī)放棄神經(jīng)元參與計(jì)算,以減少模型對(duì)特定神經(jīng)元的依賴。停止訓(xùn)練,當(dāng)驗(yàn)證集性能不再提升時(shí)停止訓(xùn)練。數(shù)據(jù)多樣化用這個(gè)方式來(lái)調(diào)整參數(shù)(加或者減)來(lái)逐步降低訓(xùn)練誤差。訓(xùn)練誤差降低是讓模型提高的關(guān)鍵。【引子1】神經(jīng)網(wǎng)絡(luò)01AutoEncode【引子1】神經(jīng)網(wǎng)絡(luò)01AutoEncode能干什么?Embedding,人臉識(shí)別,手寫(xiě)識(shí)別/nn_vis/cnn/3d.htmlPART
TWO【引子2】Transformer架構(gòu)的輸入輸出【引子2】Transformer架構(gòu)02宏觀理解Transformer架構(gòu)綠框中是編碼器,紅框中是解碼器。機(jī)器翻譯的訓(xùn)練和推理中,綠框和紅框都會(huì)用到。訓(xùn)練的樣例類似:
<start>Ilovemachinelearning<end><bos>我愛(ài)機(jī)器學(xué)習(xí)<eos><start>Ilovemachinelearning<end>,<bos>→我
<start>Ilovemachinelearning<end>,<bos>我→愛(ài)
<start>Ilovemachinelearning<end>,<bos>我愛(ài)→機(jī)器
<start>Ilovemachinelearning<end>,<bos>我愛(ài)機(jī)器→學(xué)習(xí)<start>Ilovemachinelearning<end>,<bos>我愛(ài)機(jī)器學(xué)習(xí)→<eos>【引子2】Transformer架構(gòu)02宏觀理解Transformer架構(gòu)綠框中是編碼器,紅框中是解碼器。GPT的訓(xùn)練中,只有紅框會(huì)用到,是純解碼器結(jié)構(gòu)。訓(xùn)練的樣例類似:
<bos>我愛(ài)機(jī)器學(xué)習(xí)<eos><bos>→我
<bos>我→愛(ài)
<bos>我愛(ài)→機(jī)器
<bos>我愛(ài)機(jī)器→學(xué)習(xí)<bos>我愛(ài)機(jī)器學(xué)習(xí)→<eos>PART
THREE【第一講】Embedding
Embedding03什么是Embedding?在Transformer架構(gòu)中,輸入嵌入(InputEmbedding)是詞嵌入(TokenEmbedding)和位置編碼(PositionalEncoding)的結(jié)合。以下以句子"ilovemachinelearning"為例,逐步說(shuō)明輸入嵌入的具體形式(假設(shè)使用簡(jiǎn)化的4維向量演示)。
Embedding03什么是Embedding?在Transformer架構(gòu)中,輸入嵌入(InputEmbedding)是詞嵌入(TokenEmbedding)和位置編碼(PositionalEncoding)的結(jié)合。以下以句子"ilovemachinelearning"為例,逐步說(shuō)明輸入嵌入的具體形式(假設(shè)使用簡(jiǎn)化的4維向量演示)。
Embedding03每個(gè)單詞都找到一個(gè)Embedding的方式,但是如果一個(gè)詞有多個(gè)意思怎么辦?比如love有喜歡、愛(ài)、熱愛(ài)等多種意思,一個(gè)表達(dá)如何能準(zhǔn)確?即便是同一個(gè)意思但是在不同的語(yǔ)境中又有不同的含義,比如父母對(duì)子女的love,人對(duì)狗的love?這就引出下一講——注意力機(jī)制注意力機(jī)制通過(guò)動(dòng)態(tài)關(guān)注輸入序列中的不同部分,幫助模型更好地理解每個(gè)單詞在具體語(yǔ)境中的含義。注意力機(jī)制04什么是注意力機(jī)制?注意力機(jī)制是把一句話,更好的理解后,數(shù)字化到一個(gè)向量中表示。相當(dāng)于輸入是一句話中每個(gè)詞的embedding+位置信息,輸出是一個(gè)句子的語(yǔ)義向量。而用多層結(jié)構(gòu)來(lái)表示,是不斷理解得到一個(gè)句子的更加準(zhǔn)確的語(yǔ)義向量。Transformer論文中用了6層結(jié)構(gòu),這個(gè)數(shù)量要考慮到計(jì)算量、梯度消失、爆炸問(wèn)題、過(guò)擬合、表達(dá)不足等因素。注意力機(jī)制04注意力機(jī)制04注意力機(jī)制04注意力機(jī)制04引入Wk和Wq更好的擴(kuò)增信息,更好的計(jì)算相似性注意力機(jī)制04注意力機(jī)制04什么是注意力機(jī)制?參考:https://jalammar.github.io/illustrated-transformer/注意力機(jī)制04注意力機(jī)制04為什么要用softmax函數(shù)?答:避免負(fù)數(shù)抵消信號(hào)的問(wèn)題,所有輸入加和為1。而其他激活函數(shù)ReLU(RectifiedLinearUnit)函數(shù)只能將負(fù)數(shù)變?yōu)?,而不能將輸出值轉(zhuǎn)換為概率分布。Sigmoid函數(shù)可以將輸出值轉(zhuǎn)換為0到1之間的值,但它不能確保所有輸出值的總和為1。softmax函數(shù)的數(shù)學(xué)公式輸入是一個(gè)句子,或者一個(gè)圖像的初始表示。有多少個(gè)頭,就有多少個(gè)概念空間。答:像GPT-3這樣的大型模型可能會(huì)使用更多的頭(比如96個(gè)頭),但是頭也不是越多越好,每個(gè)頭都配置一個(gè)Q,K,V的矩陣要進(jìn)行計(jì)算,代價(jià)很大。如何是直接融合成一個(gè)向量輸出,不是分段向量。此外,訓(xùn)練過(guò)程中第一個(gè)頭關(guān)注什么,第二個(gè)頭關(guān)注什么都是自動(dòng)的,不是人為分配的。那不是頭越多越好?最終多個(gè)頭的信息怎么融合?04Add&NormAdd(殘差連接):
將多頭注意力機(jī)制的輸出與輸入相加,幫助模型更好地訓(xùn)練深層網(wǎng)絡(luò)。Norm(層歸一化):
對(duì)殘差連接的結(jié)果進(jìn)行歸一化處理,加速訓(xùn)練過(guò)程并提高模型的穩(wěn)定性。Add
&
Norm
是什么?Add&Norm04
FeedForward04FeedForward
是Transformer模型中的一個(gè)重要組件,用于對(duì)多頭注意力機(jī)制的輸出進(jìn)行進(jìn)一步的特征提取和非線性變換。增強(qiáng)模型的表達(dá)能力和學(xué)習(xí)能力,緩解梯度消失問(wèn)題,引入非線性變換。FeedForward是什么?FeedForward04
ReLU激活函數(shù)04為什么要緩解梯度消失問(wèn)題?
Nx是什么04表示這個(gè)結(jié)構(gòu)有X層,一般是6(X=6)層。Transformer模型的每一層功能是通過(guò)訓(xùn)練過(guò)程自然分配的,而不是人為設(shè)置的。增強(qiáng)模型的表達(dá)能力:多層結(jié)構(gòu)使得模型可以學(xué)習(xí)到更復(fù)雜、更抽象的特征。捕獲長(zhǎng)距離依賴:多層結(jié)構(gòu)有助于模型捕獲自然語(yǔ)言中的長(zhǎng)距離依賴關(guān)系。提高模型的性能:實(shí)驗(yàn)驗(yàn)證表明,增加模型的層數(shù)可以顯著提高模型的性能。深度學(xué)習(xí)的優(yōu)勢(shì):多層結(jié)構(gòu)充分利用了深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表達(dá)能力和并行計(jì)算的優(yōu)勢(shì)。思考04為什么低層學(xué)習(xí)到低級(jí)特征,高層學(xué)習(xí)高級(jí)特征?
Outputsshiftright04Outputsshiftright是什么?
MaskedMultiple-HeadAttention04在Transformer架構(gòu)的解碼部分(Decoder)中,使用MaskedMultiple-HeadAttention(遮蔽多頭注意力)的主要原因是確保解碼器生成的序列是自回歸的(Autoregressive),即生成的每個(gè)位置只能依賴于之前生成的位置,而不能依賴于未來(lái)的位置。這是通過(guò)在注意力機(jī)制中添加一個(gè)遮蔽(Mask)來(lái)實(shí)現(xiàn)的。
Linear04將最終的解碼結(jié)果轉(zhuǎn)換到一個(gè)詞向量一樣維度的向量上(大小為詞匯表大小)。04Linear→OutputProbabilityOutputProbability04生成過(guò)程可能會(huì)使用束搜索(BeamSearch)等策略,不是簡(jiǎn)單每次只選概率最高的詞,而是保留多個(gè)候選詞以提高生成質(zhì)量等。Beamsearch04Beamsearch在Transformer模型的推理過(guò)程中,當(dāng)遇到概率相近的候選詞時(shí),通常采用的策略是束搜索(BeamSearch)。束搜索是一種啟發(fā)式圖搜索算法,它在每一步擴(kuò)展時(shí)會(huì)保留一定數(shù)量的最優(yōu)候選序列,而不是僅保留概率最高的單個(gè)序列。這種方法可以提高生成序列的多樣
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公共交通車輛保險(xiǎn)管理制度
- 2026青海玉樹(shù)市人民醫(yī)院面向社會(huì)招聘編外聘用工作人員的招聘2人備考題庫(kù)附答案
- 中共四川省委網(wǎng)信辦直屬事業(yè)單位2025年公開(kāi)選調(diào)工作人員(7人)參考題庫(kù)附答案
- 中國(guó)標(biāo)準(zhǔn)化研究院質(zhì)量研究分院信用標(biāo)準(zhǔn)化研究崗企業(yè)編制職工招聘2人參考題庫(kù)附答案
- 南充市經(jīng)濟(jì)合作和外事局關(guān)于下屬事業(yè)單位2025年公開(kāi)選調(diào)工作人員的參考題庫(kù)附答案
- 安遠(yuǎn)縣2025年公開(kāi)遴選鄉(xiāng)鎮(zhèn)敬老院院長(zhǎng)考試備考題庫(kù)附答案
- 常州經(jīng)濟(jì)開(kāi)發(fā)區(qū)人民檢察院公開(kāi)招聘司法警察輔助人員3人備考題庫(kù)附答案
- 招2人!2025年同德縣文化館面向社會(huì)公開(kāi)招聘政府聘用人員的考試備考題庫(kù)附答案
- 河口縣公安局公開(kāi)招聘輔警(16人)考試備考題庫(kù)附答案
- 2026年銀行卡知識(shí)試題附答案
- IATF16949-質(zhì)量手冊(cè)(過(guò)程方法無(wú)刪減版)
- 妊娠合并膽汁淤積綜合征
- 河南省安陽(yáng)市滑縣2024-2025學(xué)年高二數(shù)學(xué)上學(xué)期期末考試試題文
- 新疆維吾爾自治區(qū)普通高校學(xué)生轉(zhuǎn)學(xué)申請(qǐng)(備案)表
- 內(nèi)鏡中心年終總結(jié)
- 客房服務(wù)員:高級(jí)客房服務(wù)員考試資料
- 園林苗木容器育苗技術(shù)
- 陜西省2023-2024學(xué)年高一上學(xué)期新高考解讀及選科簡(jiǎn)單指導(dǎo)(家長(zhǎng)版)課件
- 兒科學(xué)熱性驚厥課件
- 《高職應(yīng)用數(shù)學(xué)》(教案)
- 漢堡規(guī)則中英文
評(píng)論
0/150
提交評(píng)論