大語(yǔ)言模型通識(shí)微課課件：大模型的微調(diào)

上傳人：熊*** IP屬地：山東上傳時(shí)間：2024-10-12 格式：PPTX 頁(yè)數(shù)：11 大?。?6.96KB 積分：25 舉報(bào) 版權(quán)申訴

大語(yǔ)言模型通識(shí)微課課件：大模型的微調(diào)_第2頁(yè)

大語(yǔ)言模型通識(shí)微課課件：大模型的微調(diào)_第3頁(yè)

大語(yǔ)言模型通識(shí)微課課件：大模型的微調(diào)_第4頁(yè)

大語(yǔ)言模型通識(shí)微課課件：大模型的微調(diào)_第5頁(yè)

已閱讀5頁(yè)，還剩6頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大語(yǔ)言模型通識(shí)微課

大模型的微調(diào)有監(jiān)督微調(diào)，又稱指令微調(diào)，是指在已經(jīng)訓(xùn)練好的語(yǔ)言模型的基礎(chǔ)上，通過(guò)使用有標(biāo)注的特定任務(wù)數(shù)據(jù)做進(jìn)一步的微調(diào)，使模型具備遵循指令的能力。通常，要對(duì)大模型進(jìn)行微調(diào)，有以下一些原因：（1）因?yàn)榇竽Ｐ偷膮?shù)量非常大，訓(xùn)練成本非常高，每家公司都去從頭訓(xùn)練一個(gè)自己的大模型，這個(gè)事情的性價(jià)比非常低；（2）提示工程是一種相對(duì)來(lái)說(shuō)比較容易上手的使用大模型的方式，通常大模型的實(shí)現(xiàn)都會(huì)對(duì)輸入序列長(zhǎng)度有限制，而提示工程會(huì)把提示搞得很長(zhǎng)。提示越長(zhǎng)，大模型的推理成本就越高。相對(duì)來(lái)說(shuō)微調(diào)是更優(yōu)方案。微課8.2大模型的微調(diào)（3）提示工程的效果如果達(dá)不到要求，企業(yè)又有比較好的自有數(shù)據(jù)，能夠更好的提升大模型在特定領(lǐng)域的能力。這時(shí)候微調(diào)就非常適用。（4）要在個(gè)性化的服務(wù)中使用大模型的能力，這時(shí)候針對(duì)每個(gè)用戶的數(shù)據(jù)，訓(xùn)練一個(gè)輕量級(jí)的微調(diào)模型是個(gè)不錯(cuò)的方案。（5）數(shù)據(jù)安全。如果數(shù)據(jù)不能傳遞給第三方大模型服務(wù)，那么搭建自己的大模型就非常必要。通常這些開(kāi)源的大模型都需要用自有數(shù)據(jù)進(jìn)行微調(diào)，才能夠滿足自身業(yè)務(wù)的需求。微課8.2大模型的微調(diào)微調(diào)的最終目的，是在可控成本的前提下，盡可能地提升大模型在特定領(lǐng)域的能力。從成本和效果的角度綜合考慮，PEFT（參數(shù)高效微調(diào)）是比較流行的微調(diào)方案。8.2.1微調(diào)技術(shù)路線從參數(shù)規(guī)模的角度，大模型的微調(diào)技術(shù)路線分成兩條。（1）對(duì)全量參數(shù)進(jìn)行訓(xùn)練，這條路徑叫全量微調(diào)（FFT），是用特定的數(shù)據(jù)對(duì)大模型進(jìn)行訓(xùn)練，這在特定數(shù)據(jù)領(lǐng)域的表現(xiàn)會(huì)好很多。但FFT訓(xùn)練成本高；另外存在災(zāi)難性遺忘，用特定訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)可能會(huì)表現(xiàn)變好，但也可能會(huì)把原來(lái)表現(xiàn)好的別的領(lǐng)域的能力變差。（2）只對(duì)部分參數(shù)進(jìn)行訓(xùn)練，這條路徑叫參數(shù)高效微調(diào)（PEFT）。PEFT主要想解決的是FFT存在的兩個(gè)主要問(wèn)題，是比較主流的微調(diào)方案。8.2.1微調(diào)技術(shù)路線從訓(xùn)練數(shù)據(jù)來(lái)源以及訓(xùn)練方法看，大模型微調(diào)有以下幾條技術(shù)路線：（1）監(jiān)督式微調(diào)，用人工標(biāo)注的數(shù)據(jù)，通過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的方法，對(duì)大模型進(jìn)行微調(diào)；（2）基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)，把人類反饋通過(guò)強(qiáng)化學(xué)習(xí)方式引入對(duì)大模型的微調(diào)中去，讓大模型生成的結(jié)果更符合人類的期望；（3）基于人工智能反饋的強(qiáng)化學(xué)習(xí)微調(diào)，這是想解決反饋系統(tǒng)的效率問(wèn)題，因?yàn)槭占祟惙答佅鄬?duì)來(lái)說(shuō)成本會(huì)比較高、效率比較低。不同的分類角度只是側(cè)重點(diǎn)不一樣，可以多個(gè)方案并舉。8.2.1微調(diào)技術(shù)路線提示微調(diào)的出發(fā)點(diǎn)是基礎(chǔ)模型的參數(shù)不變，為每個(gè)特定任務(wù)，訓(xùn)練一個(gè)少量參數(shù)的小模型，在具體執(zhí)行特定任務(wù)的時(shí)候按需調(diào)用。其基本原理是在輸入序列X之前，增加一些特定長(zhǎng)度的特殊詞元，以增大生成期望序列的概率。具體是在Transformer模型的嵌入環(huán)節(jié)。將大模型比做一個(gè)函數(shù)，提示微調(diào)是在保證函數(shù)本身不變的前提下，在X前面加上一些特定的內(nèi)容，而這些內(nèi)容可以影響X生成期望中Y的概率。8.2.2提示微調(diào)前綴微調(diào)的靈感來(lái)源是提示工程的實(shí)踐，在不改變大模型的前提下，在提示的上下文中添加適當(dāng)?shù)臈l件，引導(dǎo)大模型有更加出色的表現(xiàn)。前綴微調(diào)的出發(fā)點(diǎn)跟提示微調(diào)是類似的，只不過(guò)在具體實(shí)現(xiàn)上有一些差異。提示微調(diào)是在嵌入環(huán)節(jié)，而前綴微調(diào)是在Transformer的編碼器和解碼器網(wǎng)絡(luò)中都加了一些特定的前綴，它也保證基座模型本身沒(méi)有變，只是在推理過(guò)程中，按需要在前面拼接一些參數(shù)。8.2.3前綴微調(diào)LoRA方法走了另一條技術(shù)路線，可以媲美全量微調(diào)的效果。LoRA有一個(gè)假設(shè)：現(xiàn)在看到的這些大模型都是被過(guò)度參數(shù)化的，其背后有一個(gè)低維的本質(zhì)模型。通俗地說(shuō)，大模型參數(shù)很多，但并不是所有的參數(shù)都發(fā)揮同樣作用。大模型的部分參數(shù)是影響生成結(jié)果的關(guān)鍵，這就是低維的本質(zhì)模型。LoRA的基本思路是：首先,適配特定的下游任務(wù)，訓(xùn)練一個(gè)特定的模型，里面主要是微調(diào)要得到的結(jié)果；其次進(jìn)行低維分解；接著用特定訓(xùn)練數(shù)據(jù)訓(xùn)練。用LoRA適配不同的場(chǎng)景切換也非常方便，做簡(jiǎn)單的矩陣加法即可。8.2.3LoRA方法量化是一種在保證模型效果基本不降低的前提下，通過(guò)降低參數(shù)的精度，來(lái)減少模型對(duì)于計(jì)算資源的需求的方法，其核心目標(biāo)是降成本，降訓(xùn)練成本，特別是降后期的推理成本。QLoRA就是量化版的LoRA，它是在LoRA的基礎(chǔ)上進(jìn)

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大語(yǔ)言模型通識(shí)微課課件：大模型的微調(diào)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大語(yǔ)言模型通識(shí)微課課件：大模型的微調(diào)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔