版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年自然語言處理語言模型訓(xùn)練測(cè)試卷及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,下列哪一項(xiàng)操作最直接地實(shí)現(xiàn)了“序列中任意位置兩兩token之間的信息交換”?A.位置編碼(PositionalEncoding)B.多頭自注意力(MultiHeadSelfAttention)C.前饋全連接子層(PositionwiseFeedForward)D.LayerNorm答案:B解析:多頭自注意力通過QK^T計(jì)算任意兩位置的相關(guān)權(quán)重,實(shí)現(xiàn)全局信息交換;其余模塊不具備直接跨位置交互能力。2.當(dāng)使用AdamW優(yōu)化器訓(xùn)練大模型時(shí),權(quán)重衰減系數(shù)λ的正確施加位置是:A.在梯度更新前對(duì)原始參數(shù)直接減λθB.在梯度更新后對(duì)原始參數(shù)直接減λθC.在梯度計(jì)算時(shí)對(duì)損失函數(shù)加λ‖θ‖2D.在梯度更新前對(duì)梯度本身減λθ答案:A解析:AdamW將權(quán)重衰減從梯度中解耦,在每一步更新前執(zhí)行θ←θ?ηλθ,避免Adam自適應(yīng)梯度對(duì)衰減的縮放。3.下列關(guān)于RoPE(旋轉(zhuǎn)位置編碼)的描述,錯(cuò)誤的是:A.通過復(fù)數(shù)旋轉(zhuǎn)矩陣注入相對(duì)位置信息B.在Attention的Q、K向量上逐維應(yīng)用C.可天然外推到訓(xùn)練時(shí)未見過的更長序列D.需要額外可學(xué)習(xí)參數(shù)答案:D解析:RoPE完全基于三角函數(shù)式旋轉(zhuǎn),無新增可學(xué)習(xí)參數(shù),故D錯(cuò)誤。4.在混合精度訓(xùn)練(FP16+FP32)中,LossScaling的主要目的是:A.減少GPU顯存占用B.防止梯度下溢到0C.加速矩陣乘法D.提高半精度表示范圍答案:B解析:FP16動(dòng)態(tài)范圍小,梯度易下溢;放大loss等價(jià)放大梯度,使其落在FP16有效區(qū)間。5.當(dāng)使用DeepSpeedZeRO3時(shí),下列哪類參數(shù)被切分到所有數(shù)據(jù)并行進(jìn)程?A.優(yōu)化器狀態(tài)B.模型參數(shù)C.梯度D.以上全部答案:D解析:ZeRO3對(duì)參數(shù)、梯度、優(yōu)化器狀態(tài)全部按層切分,實(shí)現(xiàn)極致顯存節(jié)省。6.在指令微調(diào)(InstructionTuning)階段,若采用“僅對(duì)答案部分計(jì)算損失”的策略,主要考慮是:A.提高模型對(duì)指令格式的魯棒性B.減少訓(xùn)練時(shí)間C.防止過擬合到指令模板D.降低顯存峰值答案:C解析:若對(duì)整句計(jì)算損失,模型易死記指令前綴;僅對(duì)答案部分回傳梯度,可強(qiáng)化生成能力而非模板記憶。7.下列哪種方法最適用于“在8張A10080GB上訓(xùn)練175B參數(shù)模型”?A.張量并行(TP=8)+流水線并行(PP=1)B.ZeRO3offload+數(shù)據(jù)并行(DP=8)C.PP=16+TP=1+DP=1D.純數(shù)據(jù)并行(DP=8)答案:B解析:175B權(quán)重+優(yōu)化器狀態(tài)≈700GB,單卡80GB無法放下;ZeRO3+CPUoffload可切分參數(shù)并卸載,適配8卡。8.在RLHF階段使用PPO算法時(shí),下列哪項(xiàng)不是Critic網(wǎng)絡(luò)的必要輸出?A.狀態(tài)值V(s)B.動(dòng)作對(duì)數(shù)概率logπ(a|s)C.優(yōu)勢(shì)估計(jì)A(s,a)D.回報(bào)R(t)答案:D答案:回報(bào)由環(huán)境給出,非Critic輸出。9.當(dāng)使用FlashAttention時(shí),其內(nèi)存復(fù)雜度從O(n2)降至:A.O(nlogn)B.O(n)C.O(nk)(k為常數(shù))D.仍為O(n2)答案:B解析:FlashAttention通過分塊softmax重計(jì)算,將顯存占用從序列長度平方降為線性。10.在LLM評(píng)估中,若觀察到“MMLU分?jǐn)?shù)隨模型規(guī)模提升呈loglinear增長”,最合理的解釋是:A.任務(wù)需記憶事實(shí),參數(shù)量即記憶容量B.任務(wù)需復(fù)雜推理,大模型泛化更好C.評(píng)估指標(biāo)飽和D.數(shù)據(jù)泄露答案:A解析:MMLU以知識(shí)型問答為主,loglinear趨勢(shì)符合“參數(shù)量?記憶容量”假設(shè)。二、多項(xiàng)選擇題(每題3分,共15分;多選少選均不得分)11.下列技術(shù)可直接提升Transformer推理吞吐的有:A.KVCacheB.DynamicBatchPaddingC.ContinuousBatchingD.GradientCheckpointing答案:A、C解析:KVCache避免重復(fù)計(jì)算;ContinuousBatching動(dòng)態(tài)拼接不同長度請(qǐng)求;GradientCheckpointing僅節(jié)省訓(xùn)練顯存。12.關(guān)于LoRA微調(diào),正確的有:A.凍結(jié)原模型參數(shù)B.引入低秩矩陣BAC.推理時(shí)可合并BA至原權(quán)重,實(shí)現(xiàn)零引入延遲D.秩r越大,顯存占用越小答案:A、B、C解析:r越大可訓(xùn)練參數(shù)量越大,顯存占用上升,D錯(cuò)誤。13.在構(gòu)建中文對(duì)話大模型時(shí),以下哪些做法可有效減少“安全幻覺”(SafetyHallucination)?A.人工標(biāo)注安全對(duì)齊數(shù)據(jù)B.在RLHF階段引入“拒絕回答”獎(jiǎng)勵(lì)C.預(yù)訓(xùn)練階段過濾高風(fēng)險(xiǎn)網(wǎng)頁D.提高Temperature采樣答案:A、B、C解析:提高Temperature會(huì)加劇隨機(jī)性,反而可能增加幻覺。14.下列關(guān)于“數(shù)據(jù)并行vs模型并行”的描述,正確的有:A.DP需同步梯度,通信量與參數(shù)規(guī)模成正比B.TP將單層矩陣切分,通信量隨序列長度線性增加C.PP氣泡(bubble)比例與microbatch數(shù)量負(fù)相關(guān)D.ZeRO屬于DP的一種改進(jìn)答案:A、C、D解析:TP通信量與序列長度無關(guān),B錯(cuò)誤。15.在評(píng)估生成式摘要時(shí),以下哪些自動(dòng)指標(biāo)對(duì)“事實(shí)一致性”敏感?A.BERTScoreB.FactCCC.QuestEvalD.ROUGE1答案:B、C解析:FactCC與QuestEval顯式建模事實(shí);BERTScore側(cè)重語義相似;ROUGE1僅ngram重合。三、填空題(每空2分,共20分)16.在Transformer中,若隱藏維度d_model=4096,注意力頭數(shù)h=32,則每個(gè)頭的維度為____。答案:128解析:4096/32=128。17.使用GPT3175B模型做推理,若采用FP16權(quán)重,僅存儲(chǔ)參數(shù)所需顯存約為____GB(保留一位小數(shù))。答案:350.0解析:175B×2Byte=350GB。18.在指令微調(diào)數(shù)據(jù)集中,若每條樣本平均token數(shù)為800,全球訓(xùn)練token量為1.6B,則約對(duì)應(yīng)____萬條樣本。答案:2000解析:1.6B/800=2×10?。19.若學(xué)習(xí)率調(diào)度采用“cosinedecayto10%withlinearwarmup3%steps”,總步數(shù)100k,則warmup步數(shù)為____。答案:3000解析:100k×3%=3000。20.當(dāng)使用GroupQueryAttention(GQA)時(shí),若原h(huán)=32,分組數(shù)g=4,則鍵頭數(shù)壓縮為____。答案:8解析:32/4=8。21.在PPOclipping中,常用clip系數(shù)ε的默認(rèn)值為____。答案:0.2解析:OpenAI原始PPO論文推薦。22.若訓(xùn)練batchsize=4Mtoken,序列長度=4k,則實(shí)際樣本條數(shù)為____。答案:1000解析:4M/4k=1000。23.當(dāng)使用FlashAttention2時(shí),其矩陣乘計(jì)算順序由“行×列”改為“列×行”,主要目的是提高_(dá)___利用率。答案:GPUSRAM解析:減少SRAM讀寫,提升occupancy。24.在中文文本歸一化中,全角字符“A”對(duì)應(yīng)的Unicode碼位為____(十六進(jìn)制)。答案:FF21解析:全角A位于FF21。25.若模型參數(shù)量為54B,使用8bit量化加載,則內(nèi)存占用約為____GB。答案:54解析:54B×1Byte=54GB。四、判斷題(每題1分,共10分;正確打“√”,錯(cuò)誤打“×”)26.使用ReLU激活的Transformer在梯度回傳時(shí)比使用GELU更容易出現(xiàn)“死神經(jīng)元”。答案:√解析:ReLU負(fù)半軸梯度為零,易不可逆死亡。27.在BeamSearch中,beamwidth越大,生成結(jié)果的事實(shí)一致性一定越好。答案:×解析:寬beam可能降低多樣性,反而易復(fù)制常見錯(cuò)誤模式。28.使用RMSNorm替代LayerNorm可以減少約7%訓(xùn)練時(shí)間。答案:√解析:RMSNorm去掉均值計(jì)算,融合kernel更快。29.在RLHF中,若KL懲罰系數(shù)β=0,則策略可能崩潰到生成高獎(jiǎng)勵(lì)但無意義的重復(fù)序列。答案:√解析:缺乏KL約束,策略會(huì)過度優(yōu)化獎(jiǎng)勵(lì)模型漏洞。30.ChatGLM系列在位置編碼上采用混合方式:前20%序列用絕對(duì),后80%用旋轉(zhuǎn)。答案:×解析:ChatGLM全程RoPE,無混合。31.使用INT8量化后,模型在MMLU上的平均下降幅度通常小于0.5個(gè)百分點(diǎn)。答案:√解析:實(shí)踐表明LLM.INT8()方法對(duì)下游指標(biāo)影響極小。32.在數(shù)據(jù)并行中,梯度累積步數(shù)越大,等效batchsize越大,但通信次數(shù)不變。答案:√解析:梯度累積只在本地累加,跨卡通信次數(shù)仍每step一次。33.使用Alibi位置編碼時(shí),AttentionBias與頭索引無關(guān)。答案:×解析:Alibi斜率與頭索引成正比,頭索引越大斜率越大。34.在T5架構(gòu)中,Encoder與Decoder的Embedding層共享參數(shù)。答案:√解析:T5原論文明確共享tokenembedding。35.當(dāng)使用MegatronLM的TP時(shí),Embedding層按vocab維度切分,需額外同步。答案:√解析:詞表切分導(dǎo)致各卡僅持部分詞向量,前向需allgather。五、簡答題(每題8分,共24分)36.描述FlashAttention的分塊softmax計(jì)算流程,并說明其如何保持?jǐn)?shù)值穩(wěn)定性。答案:1)將輸入QK^T矩陣按行塊(block)大小Bc切分,SRAM一次加載Q_i、K_j、V_j;2)對(duì)每塊在線計(jì)算局部softmax:先求局部最大值m_ij,減max后求指數(shù)得數(shù)值穩(wěn)定;3)累積全局最大值m與歸一化因子?,更新輸出O;4)使用“在線softmax”公式:m_new=max(m_old,m_local)?_new=exp(m_old?m_new)?_old+exp(m_local?m_new)?_localO_new=exp(m_old?m_new)O_old+exp(m_local?m_new)PV5)無需存儲(chǔ)整個(gè)n×nAttention矩陣,顯存降至O(n);6)反向重計(jì)算時(shí)再次分塊,保證梯度正確性。解析:通過分塊+統(tǒng)計(jì)量復(fù)用,F(xiàn)lashAttention在SRAM內(nèi)完成Attention,避免HBM讀寫,同時(shí)用max減除技巧防止指數(shù)溢出。37.解釋“梯度累積”與“微步(microbatch)”在流水線并行中的區(qū)別與聯(lián)系,并給出減少流水線氣泡的兩種策略。答案:區(qū)別:1)梯度累積是數(shù)據(jù)并行概念,指在多個(gè)小batch上前向→反向→累加梯度,最后一次性更新權(quán)重;2)微步是流水線并行概念,指將一個(gè)batch拆成更小的microbatch,依次注入不同設(shè)備,形成流水線。聯(lián)系:在PP中,每個(gè)microbatch前向后立即反向,梯度先累積,等全部microbatch完成再統(tǒng)一參數(shù)同步,因此PP天然使用梯度累積。減少氣泡策略:a)增加microbatch數(shù)量m,使氣泡比例≈(p?1)/m下降;b)采用“1F1B”(OneForwardOneBackward)調(diào)度,讓前向與反向交替,提前釋放顯存并壓縮空閑時(shí)間。38.說明“旋轉(zhuǎn)位置編碼(RoPE)”在長文本外推時(shí)的局限性,并給出兩種改進(jìn)方案。答案:局限性:RoPE的旋轉(zhuǎn)角頻率固定,當(dāng)測(cè)試長度L遠(yuǎn)超訓(xùn)練長度L?時(shí),高頻分量周期遠(yuǎn)小于L,導(dǎo)致注意力分?jǐn)?shù)震蕩,模型無法聚焦局部。改進(jìn)方案:1)位置插值(PositionInterpolation,PI):預(yù)訓(xùn)練后將旋轉(zhuǎn)角頻率統(tǒng)一縮放α=L?/L,使新位置落在原周期內(nèi),再微調(diào)少量步數(shù);2)NTKRoPE:非均勻縮放,對(duì)高頻分量縮小比例、低頻放大,保持周期相對(duì)長度不變,無需微調(diào)即可外推。六、計(jì)算與推導(dǎo)題(共31分)39.(10分)給定單頭Attention:Q=XW_Q,K=XW_K,V=XW_V,其中X∈?^{n×d},W_Q,W_K,W_V∈?^{d×d_k}。假設(shè)n=2048,d=1024,d_k=64,計(jì)算標(biāo)準(zhǔn)Attention的顯存峰值(FP16),并給出FlashAttention的顯存峰值。答案:標(biāo)準(zhǔn):需存儲(chǔ)QK^T∈?^{n×n},顯存=n2×2Byte=20482×2≈8.4MB;FlashAttention:僅需SRAM塊,假設(shè)塊大小Bc=Br=128,則峰值=128×d_k×3×2Byte≈0.094MB。解析:FlashAttention分塊后顯存與n無關(guān),僅與塊大小成正比。40.(10分)使用ZeRO3訓(xùn)練一個(gè)參數(shù)為Φ=100B的模型,優(yōu)化器采用Adam(m+v兩倍參數(shù)),若GPU顯存限制為40GB,求最小所需GPU數(shù)N。答案:總顯存=參數(shù)+梯度+優(yōu)化器狀態(tài)=Φ+Φ+2Φ=4Φ=400GB;ZeRO3切分后每卡需400/N≤40?N≥10;取整N=10。解析:ZeRO3將三類全部均攤,每卡顯存與N成反比。41.(11分)設(shè)某LLM在MMLU上acc=0.712,現(xiàn)用自洽性(SelfConsistency)投票,采樣路徑k=16,單條路徑正確概率p=0.712。假設(shè)各路徑獨(dú)立,求多數(shù)投票后期望準(zhǔn)確率(精確到小數(shù)點(diǎn)后3位)。答案:令X~B(k=16,p=0.712),求P(X≥9)=1?P(X≤8);用正態(tài)近似:μ=kp=11.392,σ2=kp(1?p)=3.285;Z=(8.5?μ)/σ=?1.60,查表得Φ(?1.60)=0.0548;故P(X≥9)=1?0.0548=0.945;期望準(zhǔn)確率≈0.945。解析:多數(shù)投票顯著高于單路徑,體現(xiàn)自洽性增益。七、綜合應(yīng)用題(共30分)42.(15分)閱讀場(chǎng)景:某企業(yè)需在離線手機(jī)端(RAM8GB)部署10B參數(shù)對(duì)話模型,要求首token延遲<500ms,單句生成長度≤512token。請(qǐng)給出完整壓縮與推理方案,含:1)量化方案與比特?cái)?shù);2)推理框架與內(nèi)核優(yōu)化;3)緩存策略;4)評(píng)估指標(biāo)與測(cè)試結(jié)論。答案:1)量化:采用LLM.INT8()權(quán)重+KVCacheFP16混合方案,權(quán)重壓縮至10GB,Cache峰值512×40×2B×40層≈1.6GB,總<12GB,滿足8GB需再壓縮。改用4bitGPTQgroup128,權(quán)重5GB,Cache仍1.6GB,運(yùn)行峰值≈6.5GB,留1.5GB系統(tǒng)緩沖。2)框架:使用llama.cpp+ARMNEON加速,啟
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生宿舍斷電書面申請(qǐng)書
- 學(xué)校安全辦副主任申請(qǐng)書
- 雙戶口變更姓氏申請(qǐng)書
- 失信申請(qǐng)書 安徽省
- 退課后輔導(dǎo)的申請(qǐng)書
- 原種場(chǎng)資格驗(yàn)收申請(qǐng)書
- 2026年金融科技在房地產(chǎn)市場(chǎng)的應(yīng)用
- 2025年企業(yè)銷售渠道管理與維護(hù)手冊(cè)
- 2026年建筑行業(yè)國際化發(fā)展趨勢(shì)
- 民事訴訟追加申請(qǐng)書范文
- 禁毒社工知識(shí)培訓(xùn)課件
- 家具展廳管理方案(3篇)
- 半成品擺放管理辦法
- 周圍性癱瘓的護(hù)理常規(guī)
- 電能質(zhì)量技術(shù)監(jiān)督培訓(xùn)課件
- 電子制造行業(yè)數(shù)字化轉(zhuǎn)型白皮書
- 腫瘤患者雙向轉(zhuǎn)診管理職責(zé)
- 福建省漳州市2024-2025學(xué)年高一上學(xué)期期末教學(xué)質(zhì)量檢測(cè)歷史試卷(含答案)
- 定額〔2025〕2號(hào)文-關(guān)于發(fā)布2020版電網(wǎng)技術(shù)改造及檢修工程概預(yù)算定額2024年下半年價(jià)格
- 管道穿越高速橋梁施工方案
- 2024版《中醫(yī)基礎(chǔ)理論經(jīng)絡(luò)》課件完整版
評(píng)論
0/150
提交評(píng)論