版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
人工智能大語言模型應用教程模塊4GLM4應用與微調(diào)學習
目標
理解微調(diào)的概念;
理解掌握Transformer模型的參數(shù);
了解大語言模型常用微調(diào)方法的原理,包括全量微調(diào)FFT、基于人類反饋的強化學習微調(diào)RLHF、P-Tuning和大語言模型的低秩適配LoRA;
會安裝和部署GLM4的開發(fā)環(huán)境;
掌握大語言模型微調(diào)語料的整理方法,能夠按要求整理微調(diào)語料;
能夠運用LoRA微調(diào)方法進行大語言模型的訓練;
能夠運用P-tuningV2微調(diào)方法進行大語言模型的訓練;
培養(yǎng)數(shù)據(jù)安全意識,培養(yǎng)遵守法律、愛崗敬業(yè)意識;
養(yǎng)成規(guī)范編寫代碼的習慣,培養(yǎng)代碼調(diào)試能力;
培養(yǎng)自主學習和分析解決問題的能力。4.2GLM4應用與微調(diào)設計目標開發(fā)環(huán)境原理學習實驗步驟4.34.44.14.1設計目標大語言模型(LLM)由大規(guī)模的參數(shù)(權(quán)重)組成,這些參數(shù)用于表示模型學習到的語言知識和規(guī)律。在深度學習中,參數(shù)通常是模型中可調(diào)整的變量,它們的值通過在數(shù)據(jù)上訓練進行學習和優(yōu)化。大語言模型的參數(shù)數(shù)量通常與模型的規(guī)模和復雜度相關(guān),更多的參數(shù)通常意味著模型可以學習到更多復雜的語言特征和模式。設計目標4.2開發(fā)環(huán)境開發(fā)環(huán)境硬件:服務器、推理卡(NVIDIA16G顯存以上)軟件:Python、大語言模型GLM-4-9B-Chat4.3原理學習4.3.1大語言模型參數(shù)目前的大語言模型大部分都基于Transformer架構(gòu)使用自注意力機制顯著提高深度學習NLP模型的性能Transformer首次在論文《Attentionisallyouneed》中出現(xiàn),由Google翻譯團隊發(fā)明。4.3.1大語言模型參數(shù)大語言模型參數(shù)1.層數(shù)(num_layers)指模型中有多少層。每一層都會對輸入數(shù)據(jù)進行不同的處理,產(chǎn)生不同的特征,最后通過一個或多個輸出層產(chǎn)生最終的輸出。5.損失函數(shù)(loss_fn)指在訓練過程中使用的損失函數(shù),可以用來評估模型的性能,并指導模型的訓練過程。4.激活函數(shù)(activation_fn)指在每層神經(jīng)網(wǎng)絡中使用的激活函數(shù)2.每層參數(shù)(params)指每層神經(jīng)網(wǎng)絡中的參數(shù),包括激活函數(shù)、權(quán)重等。這些參數(shù)是在模型訓練過程中需要學習的,通過反向傳播算法來更新。3.嵌入層(embedding_dim)識別句子成分及其語法關(guān)系和句法結(jié)構(gòu)。大語言模型參數(shù)6.采樣層(sampling_strategy)指采樣數(shù)據(jù)的方式,如Cross-EntropyLoss、SmoothL1Loss等??梢詭椭P透玫胤夯?,避免過擬合。10.學習率(learning_rate)指在模型訓練過程中使用的學習率,用于控制梯度的更新速度。9.激活函數(shù)參數(shù)(activation_param)指每層激活函數(shù)的參數(shù)值,如ReLU的參數(shù)值為0.7。這些參數(shù)是在模型訓練過程中需要學習的,通過反向傳播算法來更新。7.初始化(init_value)指對層權(quán)重的初始值,如隨機初始化、Xavier初始化等。這些初始值在模型訓練過程中也會不斷更新,以反映數(shù)據(jù)分布的變化。8.權(quán)重共享(weight_sharing)指不同層之間權(quán)重共享的方式,如完全共享、部分共享等??梢杂行p少模型的參數(shù)量,提高模型的訓練效率。4.3.1大語言模型參數(shù)4.3.2微調(diào)方法對整個預訓練模型進行微調(diào)的方法,調(diào)整的范圍包括所有的模型參數(shù)。預訓練模型的所有層和參數(shù)都可能會被更新和優(yōu)化,以適應新加入的語料。適用于微調(diào)任務和預訓練模型之間存在很大差異的情況需要較大的算力資源和時間,但可以獲得比較好的效果。1.全量微調(diào)FFT(FullFineTuning)4.3.2微調(diào)方法RLHF是基于人類反饋對大語言模型進行強化學習,其主要特點是把人類的反饋,通過強化學習的方式引入到對大模型的微調(diào)中去,讓大模型生成的結(jié)果,更加符合人類的期望。RLHF是ChatGPT模型訓練的手段。RLHF01監(jiān)督微調(diào)(SFT)02獎勵模型微調(diào)(RW)03RLHF訓練使用人工精選的問題與答案,微調(diào)預訓練的語言模型,形成多個預選模型。用多個模型(初始模型、finetune模型)給出問題的多個回答,然后人工給這些問答按一些標準(可讀性、無害、正確性)進行排序,訓練一個獎勵模型/偏好模型來打分(rewardmodel)利用ProximalPolicyOptimization(PPO)
算法,根據(jù)RW模型的獎勵反饋進一步微調(diào)SFT模型2.基于人類反饋的強化學習微調(diào)RLHF4.3.2微調(diào)方法P-Tuningv2是GLM模型專有的微調(diào)方式。Prompttuning僅使用凍結(jié)語言模型調(diào)整連續(xù)提示(Prompt),減少訓練時的每個任務存儲和內(nèi)存使用量,對于正常大小的預訓練模型效果不佳。P-Tuningv2提出了適當優(yōu)化的即時調(diào)整可以在各種規(guī)模的模型中普遍有效,優(yōu)化的提示調(diào)整策略在中小型模型和序列標記上實現(xiàn)了與微調(diào)相當?shù)男阅堋?.P-Tuning(PromptTuning)4.3.2微調(diào)方法LoRA的基本原理是凍結(jié)預訓練好的模型權(quán)重參數(shù)在凍結(jié)原模型參數(shù)的情況下,通過往模型中加入額外的網(wǎng)絡層,并只訓練這些新增的網(wǎng)絡層參數(shù)。不僅微調(diào)的成本顯著下降,還能獲得和全模型參數(shù)參與微調(diào)類似的效果。4.大語言模型的低秩適配LoRA4.4實驗步驟4.4.1環(huán)境安裝#下載源碼gitclone/git-cloner/gpt-course#切換目錄cdgpt-course/chapter04#創(chuàng)建虛擬環(huán)境condacreate-nglm-4python=3.10-y#激活虛擬環(huán)境condaactivateglm-4#安裝依賴庫pipinstall-rrequirements.txt\-i/pypi/simple#驗證PyTorchpython-c"importtorch;print(torch.cuda.is_available())"4.4.2模型下載#模型下載腳本從首頁下載#鏈接為/model_download.py#linux下使用wget命令下載,Windows下直接在瀏覽器打開鏈接下載wget/model_download.py#從下載glm-4-9b-chat模型文件pythonmodel_download.py--e--repo_idTHUDM/glm-4-9b-chat\--tokenYPY8KHDQ2NAHQ2SG#下載后的文件在./dataroot/models/THUDM/glm-4-9b-chat目錄下4.4.3推理測試#啟動推理服務MODEL_PATH=dataroot/models/THUDM/glm-4-9b-chat\pythonweb_demo_int8.py#驗證打開瀏覽器,訪問:ht
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司抵房合同范本
- 采購合同更名協(xié)議
- 銀元回收合同范本
- 跟轉(zhuǎn)服務合同范本
- 路燈維護合同范本
- 轉(zhuǎn)店意向合同范本
- 投資虧損合同范本
- 鐵藝柵欄合同范本
- 快手網(wǎng)紅合同范本
- 阿旺解除合同協(xié)議
- 2025年Unity3D交互設計沖刺模擬專項卷
- 2026年元旦校長致辭:凱歌高奏辭舊歲歡聲笑語迎新年
- 家畜環(huán)境衛(wèi)生學第四章
- 食育課三明治課件
- 2025江蘇鎮(zhèn)江市京口產(chǎn)業(yè)投資發(fā)展集團有限公司招聘2人備考題庫(含答案詳解)
- 寧夏物理會考試題及答案
- 病房結(jié)核應急預案
- 雙管35毫米高射炮課件
- 女兒國遇難課件
- 2025-2026學年八年級數(shù)學上冊人教版(2024)第17章 因式分解 單元測試·基礎卷
- 風水顧問聘請合同范本
評論
0/150
提交評論