版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2025年自然語言處理培訓(xùn)試卷(含答案)一、單項選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息而不引入額外參數(shù)的機(jī)制是A.絕對正弦位置編碼?B.可學(xué)習(xí)位置向量?C.相對位置偏移?D.旋轉(zhuǎn)位置編碼(RoPE)答案:D解析:RoPE通過旋轉(zhuǎn)矩陣將相對位置信息直接注入注意力計算,無需新增參數(shù),且長度外推性好,GPT4、LLaMA2均采納。2.當(dāng)使用LoRA對大模型進(jìn)行參數(shù)高效微調(diào)時,若原矩陣W∈?^{d×k},秩r=8,則新增參數(shù)量為A.8d?B.8(d+k)?C.16(d+k)?D.dk答案:C解析:LoRA引入兩個低秩矩陣A∈?^{r×k}、B∈?^{d×r},總參數(shù)量r(d+k),雙向訓(xùn)練故乘2,即16(d+k)。3.在對比學(xué)習(xí)損失InfoNCE中,溫度系數(shù)τ→0時,梯度主要流向A.所有負(fù)樣本?B.最難負(fù)樣本?C.正樣本?D.均勻分布答案:B解析:τ越小,softmax越尖銳,梯度集中在與正樣本相似度最高的負(fù)樣本,形成“hardestnegative”效應(yīng)。4.下列哪項技術(shù)最直接緩解文本生成中的“重復(fù)解碼”問題A.Topk采樣?B.重復(fù)懲罰(repetitionpenalty)?C.束搜索?D.溫度采樣答案:B解析:重復(fù)懲罰在logits層面直接抑制已生成token的概率,效果立竿見影,其余方法僅間接緩解。5.在BERT預(yù)訓(xùn)練中,NSP任務(wù)被后續(xù)研究廣泛質(zhì)疑,其根本原因是A.負(fù)樣本構(gòu)造困難?B.與MLM目標(biāo)沖突?C.句子對分布與實際不符?D.訓(xùn)練開銷大答案:C解析:NSP負(fù)樣本來自不同文檔,導(dǎo)致模型過度依賴主題切換信號,而非真實句子關(guān)系,RoBERTa、ALBERT均棄用。6.當(dāng)使用8bit量化加載LLaMA65B時,顯存占用約為A.65GB?B.130GB?C.32GB?D.16GB答案:C解析:65B參數(shù)×1byte≈65GB,8bit壓縮為1byte,再考慮Adam狀態(tài)與激活重計算,約32GB即可推理。7.在指令微調(diào)階段,以下哪種數(shù)據(jù)增強(qiáng)策略對“指令遵循”能力增益最大A.回譯?B.同義改寫?C.指令反向生成(reverseinstruction)?D.隨機(jī)刪除答案:C解析:反向生成讓模型學(xué)會“從答案推指令”,強(qiáng)化指令輸出雙向映射,InstructGPT論文驗證其有效性。8.當(dāng)使用FSDP(FullyShardedDataParallel)訓(xùn)練時,通信瓶頸主要發(fā)生在A.前向AllGather?B.后向ReduceScatter?C.優(yōu)化器狀態(tài)同步?D.梯度壓縮答案:B解析:后向需將分片梯度匯總并分發(fā),通信量最大,NVIDIAMegatronLM通過重疊計算與通信緩解。9.在RLHF中,若獎勵模型出現(xiàn)“過度優(yōu)化”導(dǎo)致生成可讀性下降,最直接的修復(fù)手段是A.提高KL懲罰系數(shù)?B.降低學(xué)習(xí)率?C.增大batchsize?D.改用PPOclip答案:A解析:KL懲罰直接限制策略偏離參考模型,抑制獎勵黑客,InstructGPT將β從0.01提到0.02后BLEU回升。10.以下哪種評價指標(biāo)對“事實正確性”最敏感A.BLEU?B.ROUGE?C.BERTScore?D.基于檢索的Recall@k答案:D解析:Recall@k將生成答案與知識庫條目做檢索匹配,直接反映事實命中率,TruthfulQA官方采用。二、多項選擇題(每題3分,共15分)11.關(guān)于FlashAttention,下列說法正確的是A.將注意力計算拆分為塊并在共享內(nèi)存完成?B.時間復(fù)雜度由O(n2)降至O(n)?C.支持任意長度輸入無需分塊?D.可反向傳播且無需近似答案:A、D解析:FlashAttention通過分塊+重計算實現(xiàn)精確注意力,顯存O(n)但時間仍為O(n2),B、C錯誤。12.下列哪些操作會引入“預(yù)訓(xùn)練微調(diào)”分布偏移A.在下游任務(wù)添加新特殊token?B.改變位置編碼最大長度?C.使用與預(yù)訓(xùn)練不同的分詞器?D.切換優(yōu)化器為AdamW答案:A、B、C解析:新token、更長序列、不同分詞器均改變輸入分布,AdamW僅影響優(yōu)化軌跡,不引入分布偏移。13.關(guān)于ChainofThought(CoT)微調(diào),以下正確的是A.需人工編寫推理鏈?B.可零樣本激發(fā)推理?C.增大模型規(guī)模可替代CoT?D.與工具使用正交答案:A、D解析:CoT微調(diào)需高質(zhì)量推理鏈數(shù)據(jù);大模型零樣本推理仍弱于顯式CoT;工具使用可與之疊加。14.在中文文本糾錯任務(wù)中,以下哪些特征對檢錯F1提升顯著A.混淆集詞典?B.拼音相似度?C.五筆字型碼?D.字形視覺相似度答案:A、B、D解析:混淆集與拼音直接覆蓋常見錯誤,視覺相似度捕獲形近字,五筆覆蓋率過低增益有限。15.當(dāng)使用DPO(DirectPreferenceOptimization)時,相對于PPObasedRLHF,其優(yōu)勢包括A.無需獎勵模型?B.訓(xùn)練更穩(wěn)定?C.顯存占用更低?D.支持多輪對話答案:A、B、C解析:DPO將偏好對轉(zhuǎn)化為最大似然,省去獎勵模型與PPO采樣,訓(xùn)練更輕量;多輪支持取決于數(shù)據(jù)格式,非本質(zhì)優(yōu)勢。三、填空題(每空2分,共20分)16.在RoPE中,將查詢向量q與位置m對應(yīng)的旋轉(zhuǎn)矩陣記為R(m),則注意力分?jǐn)?shù)可寫為q^TR(____)k。答案:mn解析:RoPE采用相對位置mn,保持注意力僅依賴相對距離。17.若使用GroupQueryAttention(GQA),當(dāng)num_key_value_heads=4,num_attention_heads=32,則KV緩存顯存壓縮倍數(shù)為____。答案:8解析:KV頭數(shù)減少至1/8,緩存同比例壓縮。18.在LLaMA270B中,采用SwiGLU激活,其門控線性單元需額外____%參數(shù)。答案:50解析:SwiGLU引入門控投影,參數(shù)量由4d2增至6d2,增幅50%。19.當(dāng)使用DeepSpeedZeRO3訓(xùn)練時,若模型參數(shù)量為Ψ,則優(yōu)化器狀態(tài)分片后顯存占用為____Ψ。答案:2解析:ZeRO3將Adam的m、v分片,每卡存1/N,總?cè)詾?Ψ,但每卡降至2Ψ/N。20.在中文BERT中,將“[CLS]”對應(yīng)的隱藏狀態(tài)用于分類,其維度為____。答案:768解析:中文BERTbase隱藏維度768。21.若使用BPE分詞,詞表大小為V,則最大可能token長度為____字節(jié)。答案:V解析:極端情況下每個字節(jié)獨立成token,最長V字節(jié)。22.當(dāng)使用量化感知訓(xùn)練(QAT)時,激活量化常用____位整數(shù)量化。答案:8解析:工業(yè)界默認(rèn)8bit激活,權(quán)重可更低。23.在ELECTRA中,生成器與判別器參數(shù)共享比例通常設(shè)為____。答案:1解析:原論文共享全部Transformer參數(shù),僅輸出層獨立。24.若使用ALiBi位置編碼,當(dāng)序列長度超過訓(xùn)練長度時,注意力分?jǐn)?shù)按____衰減。答案:線性解析:ALiBi直接加負(fù)偏置,斜率固定,呈線性衰減。25.在指令微調(diào)數(shù)據(jù)集中,若每條樣本平均token數(shù)為2048,訓(xùn)練1epoch需遍歷10億token,則樣本量約為____萬。答案:48.8解析:10^9÷2048≈488281,四舍五入48.8萬。四、判斷題(每題1分,共10分)26.使用RoPE的模型無法直接加載不含位置編碼的預(yù)訓(xùn)練權(quán)重。答案:√解析:RoPE與絕對編碼參數(shù)不兼容,需重新初始化。27.在RLHF階段,PPO的valuehead必須與policyhead共享底層參數(shù)。答案:×解析:獨立value網(wǎng)絡(luò)更穩(wěn)定,InstructGPT即采用分離設(shè)計。28.將LayerNorm替換為RMSNorm可降低約7%訓(xùn)練速度。答案:×解析:RMSNorm省去均值計算,略快而非減慢。29.使用混合精度訓(xùn)練時,LossScaling對梯度下溢無幫助。答案:×解析:LossScaling正是為防止fp16梯度下溢。30.在中文場景下,全角標(biāo)點與半角標(biāo)點對BERTtokenization結(jié)果完全一致。答案:×解析:全角“,”與半角“,”Unicode不同,可能拆成不同token。31.當(dāng)使用kNNLM增強(qiáng)時,檢索庫越大,PPL一定越低。答案:×解析:噪聲檢索反而引入負(fù)例,需重排。32.對于多語種模型,增加語種token會線性增加嵌入層參數(shù)量。答案:√解析:嵌入層與詞表大小成正比,新增token即新增行。33.在Falcon模型中,采用MultiQueryAttention而非GQA。答案:√解析:Falcon沿用MQA,單組KV頭。34.使用GradientCheckpointing后,反向時間翻倍但顯存減半。答案:√解析:需重新計算激活,時間≈2×,顯存√n級下降。35.在DPO損失中,溫度系數(shù)τ越大,偏好梯度越集中在高勝率樣本。答案:×解析:τ越大分布越平滑,梯度分散,τ小才集中。五、簡答題(每題8分,共24分)36.描述FlashAttention如何通過分塊策略實現(xiàn)O(√n)共享內(nèi)存占用,并給出偽代碼。答案:核心思想:將輸入X∈?^{n×d}按行劃分為塊X_i∈?^{B×d},B=Θ(√M/d),M為共享內(nèi)存。偽代碼:```fori=1toceil(n/B):LoadX_i,K_i,V_itoSRAMforj=1toceil(n/B):LoadK_j,V_jtoSRAMS_ij=Q_iK_j^TP_ij=softmax(S_ij)O_i+=P_ijV_jWriteO_itoHBM```解析:雙重循環(huán)每塊僅駐留B行,顯存占用O(Bd)=O(√n·d),避免實例化完整n×n注意力矩陣。37.解釋為何“獎勵黑客”在RLHF中難以通過擴(kuò)大獎勵模型數(shù)據(jù)完全解決,并提出兩種工程緩解方案。答案:原因:獎勵模型容量有限,無法覆蓋策略探索出的所有邊緣分布;策略優(yōu)化是主動對抗過程,總能找到RM未見過的高獎勵但低質(zhì)量區(qū)域。方案:1.迭代式在線RM更新:每500步用最新策略樣本標(biāo)注并微調(diào)RM,縮小分布差。2.多RM集成投票:訓(xùn)練5個不同隨機(jī)初始化的RM,取最小分?jǐn)?shù)作為獎勵,降低被單一模型欺騙概率。解析:對抗性本質(zhì)決定無法一次性解決,需動態(tài)博弈與集成魯棒性。38.對比PrefixLM與CasualLM在下游摘要任務(wù)中的微調(diào)差異,并給出數(shù)據(jù)構(gòu)造示例。答案:PrefixLM:編碼器可見全部輸入,解碼器僅預(yù)測摘要部分,attentionmask為雙向→單向切換。CausalLM:全單向,需將輸入+摘要拼接,用labelmask屏蔽輸入token損失。數(shù)據(jù)示例:PrefixLM輸入:[CLS]文章[SEP]摘要,標(biāo)簽僅摘要token。CausalLM輸入:<|start|>文章<|summarize|>摘要<|end|>,label中文章部分設(shè)為100。解析:PrefixLM收斂更快,但需架構(gòu)支持;CausalLM通用性強(qiáng),推理僅需解碼器。六、計算與推導(dǎo)題(共31分)39.(10分)給定注意力分?jǐn)?shù)矩陣S∈?^{n×n},采用ALiBi偏置后得S'_{ij}=S_{ij}m·|ij|,其中m=0.01。若n=2048,求最大相對位置對應(yīng)的softmax權(quán)重衰減倍數(shù)(相對自身權(quán)重)。答案:自身權(quán)重:exp(0)=1最遠(yuǎn)權(quán)重:exp(0.01×2047)≈exp(20.47)≈1.3×10^{9}衰減倍數(shù):1/1.3×10^{9}≈7.7×10^{8}解析:指數(shù)級衰減使長距離權(quán)重趨近于0,實現(xiàn)隱式長度外推。40.(10分)使用LoRA微調(diào)GPT3175B,設(shè)d=12288,r=16,batchsize=64,sequencelength=2048,fp16訓(xùn)練。計算相比全參數(shù)微調(diào)節(jié)省的顯存(GB),并給出步驟。答案:1.原可訓(xùn)練參數(shù)量:175B2.LoRA新增:2×r×d=2×16×12288≈0.39M3.節(jié)省比例:10.39M/175B≈99.9998%4.顯存節(jié)省:主要來源不再存儲主權(quán)重梯度。原需存儲fp32梯度175B×4=700GB,LoRA僅需0.39M×4≈1.6MB,節(jié)省≈700GB。解析:LoRA凍結(jié)主權(quán)重,僅優(yōu)化低秩矩陣,顯存下降兩個數(shù)量級。41.(11分)在DPO框架下,推導(dǎo)損失函數(shù)L(π)=E_{(x,y_w,y_l)~D}[logσ(βlogπ(y_w|x)/π_ref(y_w|x)βlogπ(y_l|x)/π_ref(y_l|x))]對π的梯度,并說明為何無需獎勵模型。答案:令r_θ(y)=βlogπ(y|x)/π_ref(y),則L=E[logσ(r_θ(y_w)r_θ(y_l))]梯度:?_θL=E[(1σ(Δ))β(?logπ(y_w|x)?logπ(y_l|x))]其中Δ=r_θ(y_w)r_θ(y_l)。無需RM原因:偏好對差異直接通過π與參考模型比值建模,隱式獎勵即logratio,省去顯式訓(xùn)練RM步驟,減少誤差累積。解析:DPO將偏好學(xué)習(xí)轉(zhuǎn)化為最大似然,梯度形式與對比學(xué)習(xí)類似,簡化了RLHFpipeline。七、綜合應(yīng)用題(共30分)42.某企業(yè)需構(gòu)建垂直領(lǐng)域客服大模型,參數(shù)規(guī)模7B,訓(xùn)練數(shù)據(jù)含F(xiàn)AQ50萬、對話日志200萬、文檔1萬篇。請給出完整數(shù)據(jù)清洗→繼續(xù)預(yù)訓(xùn)練→指令微調(diào)→RLHF四階段方案,含時間、資源、評估指標(biāo)。答案:階段1:數(shù)據(jù)清洗去重:MinHashLSH去重率85%,剩約180萬對話。過濾:困惑度>500或含敏感詞剔除,再刪
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 資料員崗位考試試題(附答案)
- 數(shù)字版權(quán)跨境交易2025年平臺開發(fā):技術(shù)創(chuàng)新與市場細(xì)分戰(zhàn)略研究報告
- 初中生物生態(tài)農(nóng)業(yè)模式的程序化仿真課題報告教學(xué)研究課題報告
- 2025年中學(xué)教師資格考試《綜合素質(zhì)》教育反思與改進(jìn)教學(xué)效果評價試題集(含答案)
- 基于線上線下融合的智能研修模式在高校教育教學(xué)中的應(yīng)用與實踐研究教學(xué)研究課題報告
- 大學(xué)生借助機(jī)器翻譯技術(shù)翻譯絲綢之路沿線國家古代文獻(xiàn)課題報告教學(xué)研究課題報告
- 2025年社區(qū)健康服務(wù)中心五年發(fā)展策略報告
- 2026年公共關(guān)系專員面試題目與策略解析
- 高中物理實驗探究與科學(xué)思維訓(xùn)練的課題報告教學(xué)研究課題報告
- 2026年仲裁IT技術(shù)支持員面試題庫及答案解析
- 文物安全保護(hù)責(zé)任書范本
- 產(chǎn)房護(hù)士長年度工作業(yè)績總結(jié)與展望
- 【初中 歷史】2025-2026學(xué)年統(tǒng)編版八年級上學(xué)期歷史總復(fù)習(xí) 課件
- 2025~2026學(xué)年黑龍江省哈爾濱市道里區(qū)第七十六中學(xué)校九年級上學(xué)期9月培優(yōu)(四)化學(xué)試卷
- 2025年律師事務(wù)所黨支部書記年終述職報告
- 中國腦小血管病診治指南2025
- 中國零排放貨運(yùn)走廊創(chuàng)新實踐經(jīng)驗、挑戰(zhàn)與建議
- 宋代插花課件
- 2025年度耳鼻喉科工作總結(jié)及2026年工作計劃
- 2024年執(zhí)業(yè)藥師《藥學(xué)專業(yè)知識(一)》試題及答案
- 2025寧夏黃河農(nóng)村商業(yè)銀行科技人員社會招聘考試筆試參考題庫及答案解析
評論
0/150
提交評論