版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大語(yǔ)言模型通識(shí)微課
大模型的微調(diào)有監(jiān)督微調(diào),又稱指令微調(diào),是指在已經(jīng)訓(xùn)練好的語(yǔ)言模型的基礎(chǔ)上,通過(guò)使用有標(biāo)注的特定任務(wù)數(shù)據(jù)做進(jìn)一步的微調(diào),使模型具備遵循指令的能力。通常,要對(duì)大模型進(jìn)行微調(diào),有以下一些原因:(1)因?yàn)榇竽P偷膮?shù)量非常大,訓(xùn)練成本非常高,每家公司都去從頭訓(xùn)練一個(gè)自己的大模型,這個(gè)事情的性價(jià)比非常低;(2)提示工程是一種相對(duì)來(lái)說(shuō)比較容易上手的使用大模型的方式,通常大模型的實(shí)現(xiàn)都會(huì)對(duì)輸入序列長(zhǎng)度有限制,而提示工程會(huì)把提示搞得很長(zhǎng)。提示越長(zhǎng),大模型的推理成本就越高。相對(duì)來(lái)說(shuō)微調(diào)是更優(yōu)方案。微課8.2大模型的微調(diào)(3)提示工程的效果如果達(dá)不到要求,企業(yè)又有比較好的自有數(shù)據(jù),能夠更好的提升大模型在特定領(lǐng)域的能力。這時(shí)候微調(diào)就非常適用。(4)要在個(gè)性化的服務(wù)中使用大模型的能力,這時(shí)候針對(duì)每個(gè)用戶的數(shù)據(jù),訓(xùn)練一個(gè)輕量級(jí)的微調(diào)模型是個(gè)不錯(cuò)的方案。(5)數(shù)據(jù)安全。如果數(shù)據(jù)不能傳遞給第三方大模型服務(wù),那么搭建自己的大模型就非常必要。通常這些開(kāi)源的大模型都需要用自有數(shù)據(jù)進(jìn)行微調(diào),才能夠滿足自身業(yè)務(wù)的需求。微課8.2大模型的微調(diào)微調(diào)的最終目的,是在可控成本的前提下,盡可能地提升大模型在特定領(lǐng)域的能力。從成本和效果的角度綜合考慮,PEFT(參數(shù)高效微調(diào))是比較流行的微調(diào)方案。8.2.1微調(diào)技術(shù)路線從參數(shù)規(guī)模的角度,大模型的微調(diào)技術(shù)路線分成兩條。(1)對(duì)全量參數(shù)進(jìn)行訓(xùn)練,這條路徑叫全量微調(diào)(FFT),是用特定的數(shù)據(jù)對(duì)大模型進(jìn)行訓(xùn)練,這在特定數(shù)據(jù)領(lǐng)域的表現(xiàn)會(huì)好很多。但FFT訓(xùn)練成本高;另外存在災(zāi)難性遺忘,用特定訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)可能會(huì)表現(xiàn)變好,但也可能會(huì)把原來(lái)表現(xiàn)好的別的領(lǐng)域的能力變差。(2)只對(duì)部分參數(shù)進(jìn)行訓(xùn)練,這條路徑叫參數(shù)高效微調(diào)(PEFT)。PEFT主要想解決的是FFT存在的兩個(gè)主要問(wèn)題,是比較主流的微調(diào)方案。8.2.1微調(diào)技術(shù)路線從訓(xùn)練數(shù)據(jù)來(lái)源以及訓(xùn)練方法看,大模型微調(diào)有以下幾條技術(shù)路線:(1)監(jiān)督式微調(diào),用人工標(biāo)注的數(shù)據(jù),通過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的方法,對(duì)大模型進(jìn)行微調(diào);(2)基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào),把人類反饋通過(guò)強(qiáng)化學(xué)習(xí)方式引入對(duì)大模型的微調(diào)中去,讓大模型生成的結(jié)果更符合人類的期望;(3)基于人工智能反饋的強(qiáng)化學(xué)習(xí)微調(diào),這是想解決反饋系統(tǒng)的效率問(wèn)題,因?yàn)槭占祟惙答佅鄬?duì)來(lái)說(shuō)成本會(huì)比較高、效率比較低。不同的分類角度只是側(cè)重點(diǎn)不一樣,可以多個(gè)方案并舉。8.2.1微調(diào)技術(shù)路線提示微調(diào)的出發(fā)點(diǎn)是基礎(chǔ)模型的參數(shù)不變,為每個(gè)特定任務(wù),訓(xùn)練一個(gè)少量參數(shù)的小模型,在具體執(zhí)行特定任務(wù)的時(shí)候按需調(diào)用。其基本原理是在輸入序列X之前,增加一些特定長(zhǎng)度的特殊詞元,以增大生成期望序列的概率。具體是在Transformer模型的嵌入環(huán)節(jié)。將大模型比做一個(gè)函數(shù),提示微調(diào)是在保證函數(shù)本身不變的前提下,在X前面加上一些特定的內(nèi)容,而這些內(nèi)容可以影響X生成期望中Y的概率。8.2.2提示微調(diào)前綴微調(diào)的靈感來(lái)源是提示工程的實(shí)踐,在不改變大模型的前提下,在提示的上下文中添加適當(dāng)?shù)臈l件,引導(dǎo)大模型有更加出色的表現(xiàn)。前綴微調(diào)的出發(fā)點(diǎn)跟提示微調(diào)是類似的,只不過(guò)在具體實(shí)現(xiàn)上有一些差異。提示微調(diào)是在嵌入環(huán)節(jié),而前綴微調(diào)是在Transformer的編碼器和解碼器網(wǎng)絡(luò)中都加了一些特定的前綴,它也保證基座模型本身沒(méi)有變,只是在推理過(guò)程中,按需要在前面拼接一些參數(shù)。8.2.3前綴微調(diào)LoRA方法走了另一條技術(shù)路線,可以媲美全量微調(diào)的效果。LoRA有一個(gè)假設(shè):現(xiàn)在看到的這些大模型都是被過(guò)度參數(shù)化的,其背后有一個(gè)低維的本質(zhì)模型。通俗地說(shuō),大模型參數(shù)很多,但并不是所有的參數(shù)都發(fā)揮同樣作用。大模型的部分參數(shù)是影響生成結(jié)果的關(guān)鍵,這就是低維的本質(zhì)模型。LoRA的基本思路是:首先,適配特定的下游任務(wù),訓(xùn)練一個(gè)特定的模型,里面主要是微調(diào)要得到的結(jié)果;其次進(jìn)行低維分解;接著用特定訓(xùn)練數(shù)據(jù)訓(xùn)練。用LoRA適配不同的場(chǎng)景切換也非常方便,做簡(jiǎn)單的矩陣加法即可。8.2.3LoRA方法量化是一種在保證模型效果基本不降低的前提下,通過(guò)降低參數(shù)的精度,來(lái)減少模型對(duì)于計(jì)算資源的需求的方法,其核心目標(biāo)是降成本,降訓(xùn)練成本,特別是降后期的推理成本。QLoRA就是量化版的LoRA,它是在LoRA的基礎(chǔ)上進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025河南商丘梁園區(qū)招聘安全服務(wù)人員50人備考筆試題庫(kù)及答案解析
- 2025昆明市團(tuán)結(jié)街道辦事處招聘公益性崗位人員(2人)參考考試題庫(kù)及答案解析
- 2025年12月深圳市公辦中小學(xué)面向2026年應(yīng)屆畢業(yè)生招聘教師888人參考考試題庫(kù)及答案解析
- 2025北京大學(xué)材料科學(xué)與工程學(xué)院招聘勞動(dòng)合同制工作人員1人模擬筆試試題及答案解析
- 河北省行唐縣第三中學(xué)2026屆英語(yǔ)高三上期末考試模擬試題含解析
- 上海市十校2026屆生物高三第一學(xué)期期末質(zhì)量跟蹤監(jiān)視試題含解析
- 杠桿交易知識(shí)測(cè)試題及答案
- 2025年小熊汽車試講真題及答案
- 黑龍江齊齊哈爾市第八中學(xué)2026屆高二上生物期末綜合測(cè)試模擬試題含解析
- 64紅色卡通風(fēng)格的中小學(xué)315消費(fèi)者權(quán)益主題班會(huì)模板
- 車庫(kù)買賣合同終止協(xié)議書(shū)
- DB32/T 4291-2022特種設(shè)備安全監(jiān)督檢驗(yàn)研究系統(tǒng)紀(jì)檢監(jiān)察基本工作規(guī)范
- 《特異性植物的抗逆機(jī)制》課件
- 喜播教育課程故事
- 液氨安全管理規(guī)范與操作規(guī)程
- 物業(yè)二次裝修管理的內(nèi)容、流程和注意事項(xiàng)
- 防詐反詐知識(shí)培訓(xùn)
- 建設(shè)超充能源站示范性項(xiàng)目可行性研究報(bào)告(范文)
- 公路工程工點(diǎn)標(biāo)準(zhǔn)化管理指南
- 汽車銷售代理合作框架協(xié)議
- DBJT13-320-2019 建設(shè)項(xiàng)目社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估報(bào)告編審規(guī)程
評(píng)論
0/150
提交評(píng)論