大語(yǔ)言模型通識(shí)微課課件:大模型的微調(diào)_第1頁(yè)
大語(yǔ)言模型通識(shí)微課課件:大模型的微調(diào)_第2頁(yè)
大語(yǔ)言模型通識(shí)微課課件:大模型的微調(diào)_第3頁(yè)
大語(yǔ)言模型通識(shí)微課課件:大模型的微調(diào)_第4頁(yè)
大語(yǔ)言模型通識(shí)微課課件:大模型的微調(diào)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大語(yǔ)言模型通識(shí)微課

大模型的微調(diào)有監(jiān)督微調(diào),又稱指令微調(diào),是指在已經(jīng)訓(xùn)練好的語(yǔ)言模型的基礎(chǔ)上,通過(guò)使用有標(biāo)注的特定任務(wù)數(shù)據(jù)做進(jìn)一步的微調(diào),使模型具備遵循指令的能力。通常,要對(duì)大模型進(jìn)行微調(diào),有以下一些原因:(1)因?yàn)榇竽P偷膮?shù)量非常大,訓(xùn)練成本非常高,每家公司都去從頭訓(xùn)練一個(gè)自己的大模型,這個(gè)事情的性價(jià)比非常低;(2)提示工程是一種相對(duì)來(lái)說(shuō)比較容易上手的使用大模型的方式,通常大模型的實(shí)現(xiàn)都會(huì)對(duì)輸入序列長(zhǎng)度有限制,而提示工程會(huì)把提示搞得很長(zhǎng)。提示越長(zhǎng),大模型的推理成本就越高。相對(duì)來(lái)說(shuō)微調(diào)是更優(yōu)方案。微課8.2大模型的微調(diào)(3)提示工程的效果如果達(dá)不到要求,企業(yè)又有比較好的自有數(shù)據(jù),能夠更好的提升大模型在特定領(lǐng)域的能力。這時(shí)候微調(diào)就非常適用。(4)要在個(gè)性化的服務(wù)中使用大模型的能力,這時(shí)候針對(duì)每個(gè)用戶的數(shù)據(jù),訓(xùn)練一個(gè)輕量級(jí)的微調(diào)模型是個(gè)不錯(cuò)的方案。(5)數(shù)據(jù)安全。如果數(shù)據(jù)不能傳遞給第三方大模型服務(wù),那么搭建自己的大模型就非常必要。通常這些開(kāi)源的大模型都需要用自有數(shù)據(jù)進(jìn)行微調(diào),才能夠滿足自身業(yè)務(wù)的需求。微課8.2大模型的微調(diào)微調(diào)的最終目的,是在可控成本的前提下,盡可能地提升大模型在特定領(lǐng)域的能力。從成本和效果的角度綜合考慮,PEFT(參數(shù)高效微調(diào))是比較流行的微調(diào)方案。8.2.1微調(diào)技術(shù)路線從參數(shù)規(guī)模的角度,大模型的微調(diào)技術(shù)路線分成兩條。(1)對(duì)全量參數(shù)進(jìn)行訓(xùn)練,這條路徑叫全量微調(diào)(FFT),是用特定的數(shù)據(jù)對(duì)大模型進(jìn)行訓(xùn)練,這在特定數(shù)據(jù)領(lǐng)域的表現(xiàn)會(huì)好很多。但FFT訓(xùn)練成本高;另外存在災(zāi)難性遺忘,用特定訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)可能會(huì)表現(xiàn)變好,但也可能會(huì)把原來(lái)表現(xiàn)好的別的領(lǐng)域的能力變差。(2)只對(duì)部分參數(shù)進(jìn)行訓(xùn)練,這條路徑叫參數(shù)高效微調(diào)(PEFT)。PEFT主要想解決的是FFT存在的兩個(gè)主要問(wèn)題,是比較主流的微調(diào)方案。8.2.1微調(diào)技術(shù)路線從訓(xùn)練數(shù)據(jù)來(lái)源以及訓(xùn)練方法看,大模型微調(diào)有以下幾條技術(shù)路線:(1)監(jiān)督式微調(diào),用人工標(biāo)注的數(shù)據(jù),通過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的方法,對(duì)大模型進(jìn)行微調(diào);(2)基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào),把人類反饋通過(guò)強(qiáng)化學(xué)習(xí)方式引入對(duì)大模型的微調(diào)中去,讓大模型生成的結(jié)果更符合人類的期望;(3)基于人工智能反饋的強(qiáng)化學(xué)習(xí)微調(diào),這是想解決反饋系統(tǒng)的效率問(wèn)題,因?yàn)槭占祟惙答佅鄬?duì)來(lái)說(shuō)成本會(huì)比較高、效率比較低。不同的分類角度只是側(cè)重點(diǎn)不一樣,可以多個(gè)方案并舉。8.2.1微調(diào)技術(shù)路線提示微調(diào)的出發(fā)點(diǎn)是基礎(chǔ)模型的參數(shù)不變,為每個(gè)特定任務(wù),訓(xùn)練一個(gè)少量參數(shù)的小模型,在具體執(zhí)行特定任務(wù)的時(shí)候按需調(diào)用。其基本原理是在輸入序列X之前,增加一些特定長(zhǎng)度的特殊詞元,以增大生成期望序列的概率。具體是在Transformer模型的嵌入環(huán)節(jié)。將大模型比做一個(gè)函數(shù),提示微調(diào)是在保證函數(shù)本身不變的前提下,在X前面加上一些特定的內(nèi)容,而這些內(nèi)容可以影響X生成期望中Y的概率。8.2.2提示微調(diào)前綴微調(diào)的靈感來(lái)源是提示工程的實(shí)踐,在不改變大模型的前提下,在提示的上下文中添加適當(dāng)?shù)臈l件,引導(dǎo)大模型有更加出色的表現(xiàn)。前綴微調(diào)的出發(fā)點(diǎn)跟提示微調(diào)是類似的,只不過(guò)在具體實(shí)現(xiàn)上有一些差異。提示微調(diào)是在嵌入環(huán)節(jié),而前綴微調(diào)是在Transformer的編碼器和解碼器網(wǎng)絡(luò)中都加了一些特定的前綴,它也保證基座模型本身沒(méi)有變,只是在推理過(guò)程中,按需要在前面拼接一些參數(shù)。8.2.3前綴微調(diào)LoRA方法走了另一條技術(shù)路線,可以媲美全量微調(diào)的效果。LoRA有一個(gè)假設(shè):現(xiàn)在看到的這些大模型都是被過(guò)度參數(shù)化的,其背后有一個(gè)低維的本質(zhì)模型。通俗地說(shuō),大模型參數(shù)很多,但并不是所有的參數(shù)都發(fā)揮同樣作用。大模型的部分參數(shù)是影響生成結(jié)果的關(guān)鍵,這就是低維的本質(zhì)模型。LoRA的基本思路是:首先,適配特定的下游任務(wù),訓(xùn)練一個(gè)特定的模型,里面主要是微調(diào)要得到的結(jié)果;其次進(jìn)行低維分解;接著用特定訓(xùn)練數(shù)據(jù)訓(xùn)練。用LoRA適配不同的場(chǎng)景切換也非常方便,做簡(jiǎn)單的矩陣加法即可。8.2.3LoRA方法量化是一種在保證模型效果基本不降低的前提下,通過(guò)降低參數(shù)的精度,來(lái)減少模型對(duì)于計(jì)算資源的需求的方法,其核心目標(biāo)是降成本,降訓(xùn)練成本,特別是降后期的推理成本。QLoRA就是量化版的LoRA,它是在LoRA的基礎(chǔ)上進(jìn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論