2025年AI自然語言處理原理與算法培訓試題庫及答案_第1頁
2025年AI自然語言處理原理與算法培訓試題庫及答案_第2頁
2025年AI自然語言處理原理與算法培訓試題庫及答案_第3頁
2025年AI自然語言處理原理與算法培訓試題庫及答案_第4頁
2025年AI自然語言處理原理與算法培訓試題庫及答案_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年AI自然語言處理原理與算法培訓試題庫及答案一、單選題(每題2分,共20分)1.在Transformer架構(gòu)中,ScaledDotProductAttention的縮放因子為A.√d_kB.d_kC.1/√d_kD.d_k2答案:A解析:為防止點積結(jié)果過大進入softmax飽和區(qū),需除以√d_k,保持梯度穩(wěn)定。2.下列哪一項不是BERT預(yù)訓練任務(wù)之一A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.TokenTypeEmbedding答案:C解析:SentenceOrderPrediction為ALBERT引入的變體任務(wù),原始BERT僅使用MLM與NSP。3.當使用AdamW優(yōu)化器時,權(quán)重衰減系數(shù)λ的正確施加位置是A.梯度更新之后B.梯度更新之前C.一階動量之后D.二階動量之后答案:B解析:AdamW將權(quán)重衰減從梯度中解耦,在梯度更新前直接對參數(shù)進行衰減,避免Adam的bias校正干擾。4.在GPT3的175B參數(shù)版本中,采用的最大學習率約為A.6×10??B.2×10??C.1×10?3D.6×10??答案:A解析:OpenAI技術(shù)報告披露,175B模型在3.6×1012token上采用cosineschedule,峰值6×10??。5.若將ReLU替換為GELU,模型參數(shù)量A.增加≈12.5%B.不變C.減少≈7%D.增加≈0.1%答案:B解析:激活函數(shù)無參數(shù),僅計算方式改變,參數(shù)量不變。6.在混合精度訓練中,LossScaling的主要目的是A.減小顯存占用B.防止梯度下溢C.加速通信D.提高數(shù)值精度答案:B解析:fp16下梯度易下溢,乘以scale因子后回傳,更新前再unscale。7.對于中文文本,WordPiece與BPE相比,最顯著差異在于A.子詞粒度B.編碼速度C.是否基于詞頻D.是否使用貪心合并答案:A解析:WordPiece按最大似然增量合并,BPE按最高頻合并,導(dǎo)致子詞切分粒度不同。8.在指令微調(diào)(InstructionTuning)階段,F(xiàn)lanT5采用的最大指令模板數(shù)為A.5B.10C.15D.20答案:C解析:FlanT5論文指出使用15類人工模板+3類反轉(zhuǎn)模板增強泛化。9.當使用DeepSpeedZeRO3時,優(yōu)化器狀態(tài)被劃分到A.數(shù)據(jù)并行rankB.模型并行rankC.流水線并行stageD.CPUoffload答案:A解析:ZeRO3將參數(shù)、梯度、優(yōu)化器狀態(tài)均按數(shù)據(jù)并行rank切片。10.在RLHF中,PPO的KL懲罰系數(shù)β若設(shè)為0,最可能導(dǎo)致的后果是A.模型崩潰B.訓練發(fā)散C.策略與參考模型偏離過大D.獎勵模型過擬合答案:C解析:KL約束消失,生成策略會快速偏離SFT模型,輸出高獎勵但不可讀文本。二、多選題(每題3分,共15分)11.下列技術(shù)可有效緩解長文本外推時的位置編碼失效A.ALiBiB.RoPEC.T5BiasD.XPOS答案:ABD解析:ALiBi、RoPE、XPOS均通過相對位置偏置或旋轉(zhuǎn)編碼實現(xiàn)長度外推,T5Bias為固定桶編碼,外推能力弱。12.關(guān)于FlashAttention,以下說法正確的是A.將Attention計算從O(N2)降至O(N)B.無需近似C.減少HBM讀寫D.支持任意attentionmask答案:BCD解析:FlashAttention保持精確注意力,僅通過分塊tiling減少內(nèi)存讀寫,復(fù)雜度仍為O(N2),但常數(shù)大幅減小。13.在對比學習損失InfoNCE中,溫度系數(shù)τ的作用包括A.控制分布平滑度B.影響負樣本梯度權(quán)重C.改變正樣本距離D.等價于batchsize縮放答案:AB解析:τ越小,分布越尖銳,負樣本梯度越大;正樣本距離不受τ直接改變。14.以下屬于“涌現(xiàn)能力”(EmergentAbility)的觀測指標A.少樣本CoT準確率突增B.參數(shù)量達10B后指令遵循率躍升C.訓練loss持續(xù)下降D.多步推理F1突然超過0.8答案:ABD解析:涌現(xiàn)能力指隨規(guī)模非線性突現(xiàn),訓練loss單調(diào)下降不屬于涌現(xiàn)。15.在構(gòu)建中文醫(yī)療大模型時,必須考慮的合規(guī)要求有A.數(shù)據(jù)去隱私化B.生成內(nèi)容可追溯C.模型開源許可證D.醫(yī)療器械備案答案:ABD解析:醫(yī)療場景需滿足《醫(yī)療器械監(jiān)督管理條例》,開源許可證非強制。三、填空題(每空2分,共20分)16.在Transformer中,若隱藏維度d_model=4096,注意力頭數(shù)h=32,則每個頭的維度d_k=____。答案:128解析:d_k=d_model/h=4096/32=128。17.使用BF16格式時,動態(tài)范圍與FP16相同,但有效精度從____位提升至____位。答案:10,11解析:BF16保留8位指數(shù),尾數(shù)7位;FP16尾數(shù)10位,但BF16指數(shù)范圍與FP32一致,實際訓練更穩(wěn)定。18.在LoRA微調(diào)中,若秩r=16,原矩陣W∈R^(4096×4096),則引入?yún)?shù)量為____。答案:2×4096×16=131072解析:LoRA僅訓練BA,參數(shù)量為(d×r+r×d)=2dr。19.若訓練語料含3×1011token,batchsize=4Mtoken,訓練1epoch所需步數(shù)為____。答案:75000解析:3×1011/4×10?=7.5×10?。20.在GPT4技術(shù)報告中,報告人評估的“幻覺”率(hallucination)相較于GPT3.5下降____個百分點。答案:19解析:OpenAI公布在內(nèi)部對抗性事實測試集上幻覺率從41%降至22%。21.使用SentencePiece訓練分詞器時,若期望詞表大小為32000,應(yīng)設(shè)置參數(shù)____為32000。答案:vocab_size解析:SentencePiece的vocab_size直接控制合并操作上限。22.在DeepspeedMoE中,Top2門控的負載均衡損失系數(shù)默認值為____。答案:0.01解析:DeepSpeed示例配置中balance_loss_weight=1e2。23.若使用8×A10080GB訓練175B模型,采用ZeRO3+CPUoffload,最大可設(shè)batchsize約為____token。答案:2M解析:實測顯存占用約75GB,留5GB余量,單卡250Mtoken,8卡2M。24.在RoPE編碼中,旋轉(zhuǎn)角θ_i的底數(shù)常取____。答案:10000解析:Suetal.2021設(shè)定θ_i=10000^(2i/d)。25.當使用PPO時,若clip_ratio=0.2,則策略更新被限制在____倍范圍內(nèi)。答案:1.2/0.8解析:clip在[1ε,1+ε]即[0.8,1.2]。四、判斷題(每題1分,共10分)26.使用RMSNorm相比LayerNorm可減少7%訓練時間。答案:√解析:RMSNorm去掉均值計算,實測在GPU上加速約7%。27.BERTbase的參數(shù)量大于RoBERTabase。答案:×解析:二者架構(gòu)一致,參數(shù)量相同,約110M。28.在自回歸生成中,使用Temperature=0等價于GreedySearch。答案:√解析:溫度趨于0,分布趨于onehot,即取最大概率。29.使用QLoRA時,NF4量化對Zeroshot性能影響可忽略。答案:√解析:Dettmersetal.2023實驗顯示NF4平均下降<0.5%。30.指令微調(diào)階段引入RLHF會顯著增加訓練算力。答案:√解析:需額外訓練獎勵模型及PPOrollout,算力約為預(yù)訓練10%。31.在中文場景下,MacBERT將NSP任務(wù)替換為SOP。答案:×解析:MacBERT將NSP替換為“句子順序預(yù)測”(SOP),但中文與英文均如此。32.使用DeepSpeed時,開啟activationcheckpoint會增大顯存占用。答案:×解析:activationcheckpoint以時間換空間,顯存下降約30%50%。33.在T5架構(gòu)中,Encoder與Decoder共享所有參數(shù)。答案:×解析:僅共享Embedding與EncoderDecoder注意力權(quán)重,層參數(shù)獨立。34.使用GQA(GroupedQueryAttention)可減少KVcache顯存。答案:√解析:GQA將多頭KV分組,cache量下降為原1/g。35.在LoRA推理階段,必須將BA矩陣合并至原權(quán)重。答案:×解析:可合并也可動態(tài)相加,合并可減少延遲。五、簡答題(每題8分,共24分)36.描述RoPE位置編碼如何實現(xiàn)長度外推,并給出旋轉(zhuǎn)矩陣形式。答案:RoPE將query、vector按維度兩兩分組,每組乘以二維旋轉(zhuǎn)矩陣R_θ=[[cosmθ,sinm],[sinmθ,cosmθ]]其中m為位置差,θ=10000^(2i/d)。通過相對位置直接編碼至內(nèi)積,無需訓練絕對位置嵌入,故可外推。解析:旋轉(zhuǎn)不改變模長,僅依賴相對距離,注意力值隨距離衰減平滑,長度外推時注意力分布保持穩(wěn)定。37.解釋FlashAttention的tiling策略如何減少HBM讀寫,并給出內(nèi)存復(fù)雜度。答案:FlashAttention將N×N注意力矩陣按塊大小Bc×Br分塊,tile加載至SRAM,在片上完成softmax歸一化與輸出累加,避免寫回中間S、P矩陣。內(nèi)存復(fù)雜度從O(N2)降至O(N),HBM訪問量由10N2降為5N+O(N2/Bc)。解析:通過在線softmax更新統(tǒng)計量,無需存儲大型中間矩陣,實現(xiàn)精確注意力加速。38.對比PPO與RRHF(RankResponsefromHumanFeedback)在訓練目標與實現(xiàn)復(fù)雜度上的差異。答案:PPO引入重要性采樣clip與KL約束,需維護價值網(wǎng)絡(luò),超參多,實現(xiàn)復(fù)雜;RRHF將偏好轉(zhuǎn)為排序損失,直接對數(shù)概率排序,無需價值網(wǎng)絡(luò),訓練穩(wěn)定但依賴成對偏好數(shù)據(jù)量。解析:PPO適合連續(xù)獎勵場景,RRHF適合離散排序標注,二者可互補。六、計算與推導(dǎo)題(共31分)39.(10分)給定單頭注意力輸入Q∈R^(n×d_k),K∈R^(n×d_k),V∈R^(n×d_v),maskM∈{0,∞}^(n×n),推導(dǎo)帶掩碼的注意力輸出O,并證明其復(fù)雜度。答案:S=QK^T/√d_k+MA=softmax(S)O=AV每步矩陣乘均為O(n2d)運算,softmax逐行O(n),總復(fù)雜度O(n2d)。解析:mask在softmax前加入,∞使對應(yīng)權(quán)重歸零,保持因果或填充屏蔽。40.(10分)假設(shè)使用LoRA微調(diào),原矩陣W∈R^(d×d),秩r=16,訓練數(shù)據(jù)量|D|=1×10?token,batchsizeB=1024,訓練步數(shù)T=1×10?,學習率η=3×10??,求參數(shù)更新總量(以浮點運算數(shù)計)。答案:參數(shù)量=2dr=2×4096×16=131072每步更新=2×參數(shù)量=262144(乘+加)總更新=262144×1×10?=2.62×10?FLOPs解析:LoRA僅計算BA梯度,反向需兩倍參數(shù)量FLOPs。41.(11分)在RLHF階段,獎勵模型為BradleyTerry模型,給定偏好對(x,y_w,y_l),證明其負對數(shù)似然損失L與sigmoid形式一致,并推導(dǎo)梯度。答案:令r_θ(x,y)為獎勵模型輸出,則P(y_w?y_l|x)=σ(r_θ(x,y_w)r_θ(x,y_l))負對數(shù)似然L=logσ(Δr)梯度?_θL=(1σ(Δr))?_θ[r_θ(x,y_w)r_θ(x,y_l)]解析:Δr=r_wr_l,利用σ′=σ(1σ)即得。七、綜合設(shè)計題(共30分)42.設(shè)計一個面向中文古籍的生成式大模型方案,要求:(1)數(shù)據(jù)清洗與去重流程(6分)(2)分詞與位置編碼選擇理由(6分)(3)預(yù)訓練目標與損失函數(shù)(6分)(4)下游文言文翻譯微調(diào)策略(6分)(5)幻覺緩解機制(6分)答案:(1)采用ExactHash+MinHashLSH去重,OCR后糾錯用TrOCRlarge,繁簡轉(zhuǎn)換用OpenCC,構(gòu)建版本樹保留異文。(2)采用Senten

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論