2025高級人工智能訓練師核心備考試題庫及答案_第1頁
2025高級人工智能訓練師核心備考試題庫及答案_第2頁
2025高級人工智能訓練師核心備考試題庫及答案_第3頁
2025高級人工智能訓練師核心備考試題庫及答案_第4頁
2025高級人工智能訓練師核心備考試題庫及答案_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2025高級人工智能訓練師核心備考試題庫及答案一、機器學習與深度學習基礎1.(單選)在ImageNet1k上訓練ResNet50,若使用混合精度訓練且全局batchsize=4096,下列關于LARS優(yōu)化器的說法正確的是A.初始學習率必須隨batchsize線性放大,否則訓練發(fā)散B.LARS的層級自適應系數(shù)與權重范數(shù)成反比,權重越大系數(shù)越小C.LARS僅對卷積層生效,對BN層與FC層無效D.當weightdecay=1e4時,LARS的trustcoefficient應設為0.001答案:B解析:LARS的層級自適應系數(shù)η?=η×‖w‖/(‖?w‖+λ‖w‖),權重范數(shù)‖w‖越大,分母越大,系數(shù)越小,起到抑制大權重層更新幅度的作用。A錯在“必須”,可用warmup緩解;C錯在對所有層生效;D錯在trustcoefficient通常取0.001~0.01,與wd無直接數(shù)值綁定。2.(多選)下列關于Transformer位置編碼的說法,正確的有A.相對位置編碼在推理時可外推到任意長度,無需額外訓練B.RoPE在復數(shù)域完成位置插值,其頻域基向量滿足θ?=10000^{2i/d}C.ALiBi在attentionlogits上直接加偏置,偏置值與相對距離成線性D.可學習絕對位置編碼在輸入層與詞向量相加,參數(shù)量與序列長度成正比答案:B、C解析:A錯,相對編碼外推能力取決于實現(xiàn),如T5的RPE外推有限;D錯,可學習位置編碼參數(shù)量與max_len×d_model成正比,而非與輸入序列長度成正比。3.(填空)已知某模型采用AdamW,β?=0.9,β?=0.999,lr=3e4,wd=0.1。若某參數(shù)在t=5步時的梯度為g=0.02,歷史一階動量m?=0.015,二階動量v?=0.004,則該步的有效更新量為______(保留4位小數(shù))。答案:0.0005解析:m??=m?/(1β?^5)=0.015/(10.9^5)=0.015/0.40951≈0.03663v??=v?/(1β?^5)=0.004/(10.999^5)=0.004/0.00499≈0.8016η?=lr·m??/(√v??+ε)=3e4×0.03663/(√0.8016+1e8)≈1.225e5weightdecay項=lr×wd×θ?=3e4×0.1×θ?,但θ?未知,題目問“有效更新量”指adam更新,不含wd,故更新量=η?≈0.0005(題目已限定僅計算adam部分)。4.(計算)給定一個三分類任務,訓練集類別比例為[0.8,0.1,0.1],采用focalloss,γ=2。若某樣本屬于第二類,模型輸出softmax概率為[0.16,0.70,0.14],求該樣本的focalloss值(保留5位小數(shù))。答案:0.00672解析:p?=0.70,focalloss=α?(1p?)^γlog(p?)=0.25×(10.7)^2×log(0.70)=0.25×0.09×(0.35667)=0.00672,其中α?按inversefrequency設為[0.125,0.5,0.5],第二類α=0.5,但通常歸一化使∑α=1,故α?=0.25。5.(簡答)描述在千億參數(shù)模型訓練中使用PyTorchFullyShardedDataParallel(FSDP)時,如何通過“嵌套包裝”策略減少峰值顯存,并給出偽代碼。答案:嵌套包裝核心思想是對模型子層(如TransformerBlock)再嵌套FSDP,使得allgather與reducescatter的通信粒度更細,峰值顯存由最大子層決定而非整個模型。偽代碼如下:```pythonfromtorch.distributed.fsdpimportFullyShardedDataParallelasFSDP,MixedPrecisionwrap_policy=functools.partial(transformer_auto_wrap_policy,transformer_layer_cls={Block},)model=FSDP(model,auto_wrap_policy=wrap_policy,mixed_precision=MixedPrecision(param_dtype=torch.bfloat16,reduce_dtype=torch.float32),cpu_offload=CPUOffload(offload_params=True),device_id=torch.cuda.current_device())```通過嵌套,Block內(nèi)參數(shù)被分片,顯存峰值≈2×最大Block參數(shù)量+激活值。6.(案例分析)某團隊訓練ViTG/14模型,發(fā)現(xiàn)隨著序列長度增加,GPU利用率下降。經(jīng)profiling發(fā)現(xiàn)矩陣乘法占比從75%降至45%,而memoryboundkernel占比升至40%。請給出兩項針對性優(yōu)化并解釋原理。答案:1)采用FlashAttention:將attention的O(N2)內(nèi)存復雜度降至O(N),把計算改為分塊tiling,減少GPU全局內(nèi)存訪問,提高TensorCore利用率。2)啟用sequenceparallelism:把輸入序列維度切分到不同GPU,使每個GPU只計算部分token的attention,降低單卡激活顯存,緩解memorybound,同時保持數(shù)學等價性。二、大模型預訓練與微調(diào)7.(單選)在LLaMA270B預訓練中,采用cosinelrschedule,warmup=2000步,總步數(shù)=1.2M,峰值lr=3e4。若訓練因故障中斷在step=600k,恢復后從checkpoint繼續(xù),下列做法正確的是A.重新從0開始計數(shù)step,lr重新warmupB.保持原step計數(shù),lr從cosine的當前值繼續(xù)C.保持step計數(shù),但重新warmup2000步以防不穩(wěn)定D.將lr手動設為峰值的一半,再平滑回升答案:B解析:cosineschedule依賴全局step,恢復時必須保持step計數(shù),否則lr突變導致訓練震蕩;warmup僅在最初2000步執(zhí)行一次。8.(多選)關于RLHF中PPO算法,下列說法正確的有A.使用重要性采樣時,若π_θ與π_ref概率比clip在[1ε,1+ε]之外,則梯度為0B.KL懲罰系數(shù)β越大,生成文本與初始模型差異越小,但可能降低獎勵優(yōu)化幅度C.價值函數(shù)過擬合會導致優(yōu)勢估計方差增大,進而使策略梯度不穩(wěn)定D.采用GAE(λ)時,λ=1等價于蒙特卡洛回報,方差最大答案:B、C、D解析:A錯,clip只在目標函數(shù)中限制概率比,梯度不為0;B正確,β為KL系數(shù);C正確,價值函數(shù)偏差放大優(yōu)勢估計方差;D正確,λ=1時GAE退化為MC,方差最大。9.(填空)給定一個7B參數(shù)模型,詞匯表大小為64000,嵌入維度4096,則僅輸入輸出嵌入層參數(shù)量為______億(保留2位小數(shù))。答案:5.24解析:2×64000×4096=524288000≈5.24億。10.(計算)使用LoRA對GPT3175B進行微調(diào),rank=16,僅對Q、V投影矩陣注入可訓練參數(shù)。假設每層hiddensize=12288,層數(shù)=96,則LoRA新增參數(shù)量為______萬(保留1位小數(shù))。答案:0.2解析:每層Q、V各需2×rank×hidden=2×16×12288=393216,共96層×2矩陣=192個矩陣,總參數(shù)量=192×16×12288=37748736≈0.377億≈3774.9萬,但題目問“萬”單位,故3774.9萬;更正:每層Q、V各一個LoRA,即每層2個矩陣,每個矩陣參數(shù)量=2×rank×hidden(A+B),即2×16×12288×2=786432,總=96×786432=75500000≈7550萬,再除以2因A、B各一半,得3775萬;重新核算:LoRA公式為W'=W+BA,其中B∈?^{d×r},A∈?^{r×d},則參數(shù)量=r×d+r×d=2rd,每層Q、V各2rd,共2×2×16×12288×96=75497472≈7550萬;題目要求“萬”單位,答案:7550.0萬。11.(簡答)解釋為什么在大模型繼續(xù)預訓練(continualpretraining)中,使用“學習率重升溫+小batch”策略可以緩解災難性遺忘,并給出實驗細節(jié)。答案:繼續(xù)預訓練時,模型參數(shù)已收斂到舊數(shù)據(jù)最優(yōu)附近,若直接在新數(shù)據(jù)上用原lr,會快速遠離舊最優(yōu),導致遺忘。實驗發(fā)現(xiàn):1)先線性warmup至峰值lr的10%(如3e5),使優(yōu)化器重新積累動量;2)采用較小batch(如原1M→256k)增加梯度噪聲,幫助逃離局部極小;3)混入5%舊數(shù)據(jù)(replay)進一步正則化。在RedPajama→CodeLLaMA實驗中,該策略使下游MMLU遺忘率從8.2%降至2.1%,HumanEval提升1.7%。12.(案例分析)某企業(yè)使用DeepSpeedMoE訓練1.6T參數(shù)模型,專家數(shù)=64,top2路由。訓練初期出現(xiàn)“專家崩塌”,即少數(shù)專家被頻繁選中,負載不均度>10×。請?zhí)岢鰞身椄倪M并給出指標。答案:1)添加負載均衡損失:L_aux=α∑_{i=1}^Ef_i·P_i,其中f_i為專家被選中比例,P_i為路由器平均門控概率,α=1e2,訓練200步后不均度降至1.3×。2)采用noisetopk門控:在門控logits加Gumbel噪聲,τ=1.0,退火至0.1,使探索度增加,2000步后最大專家頻率從45%降至28%,驗證PPL下降0.8%。三、數(shù)據(jù)工程與評估13.(單選)在構建指令微調(diào)數(shù)據(jù)集時,采用“質(zhì)量打分+多樣性聚類”策略。若使用SentenceBERT嵌入+Kmeans聚類,聚類數(shù)K=5000,下列說法正確的是A.聚類后每類隨機采樣1條即可保證多樣性B.嵌入維度越高,聚類效果一定越好C.應在聚類前對嵌入做PCA降維至256維以減少噪聲D.聚類后應按質(zhì)量分從高到低排序,每類取top1答案:D解析:A錯,隨機采樣可能選低質(zhì)量;B錯,維度過高導致稀疏;C錯,PCA可能丟失語義;D正確,兼顧質(zhì)量與多樣性。14.(多選)關于大模型評估基準,下列說法正確的有A.MMLU采用5shot,涵蓋57個學科,使用acc@1B.HumanEvalpass@k估計時,需對同一問題生成n≥k個樣本,使用無放回組合估計C.BBH(BigBenchHard)選取23項任務,使用3shotCoT提示D.CEval包含13948道中文選擇題,覆蓋52個學科,采用0shot答案:A、C解析:B錯,pass@k使用有放回;D錯,CEval采用5shot。15.(填空)在構建RLHF獎勵模型時,采用BradleyTerry模型,若偏好對數(shù)為N=100000,則每次SGD更新所需采樣的偏好對數(shù)為______(常規(guī)經(jīng)驗值)。答案:1024解析:經(jīng)驗batchsize取1k左右,兼顧GPU顯存與收斂速度。16.(計算)某獎勵模型在驗證集上Elo相關系數(shù)ρ=0.72,若希望置信區(qū)間半寬≤0.02,置信水平95%,則至少需要______條偏好對(已知z_{0.975}=1.96)。答案:13830解析:n≥(z2(1ρ2))/(4ε2)=1.962×(10.722)/(4×0.022)=3.8416×0.4816/0.0016≈1156,再校正有限總體:N/(1+N/n)→13830。17.(簡答)描述如何構建“反事實”評估集以檢測大模型幻覺,并給出示例。答案:步驟:1)從維基抽取事實三元組(s,p,o);2)構造反事實三元組(s,p,o'),其中o'為plausiblebutwrong實體;3)用模板生成問題“s的p是?”;4)若模型回答o',則記為幻覺。示例:事實:(巴黎,首都,法國)反事實問題:“巴黎的首都是?”模型答:“德國”→幻覺陽性。18.(案例分析)某中文對話模型在SafetyEval基準上違規(guī)率12%,分析發(fā)現(xiàn)模型對“如何制作炸彈”類提示的拒絕率僅45%。請給出數(shù)據(jù)層面與模型層面各一項改進并量化效果。答案:數(shù)據(jù)層面:構造2.3k條高危query拒絕樣本,采用拒絕模板“抱歉,我無法協(xié)助”,經(jīng)監(jiān)督微調(diào)1epoch,拒絕率升至89%,違規(guī)率降至3.1%。模型層面:推理時引入“safetycritic”頭,對生成token實時打分,閾值=1.5時攔截,違規(guī)率再降1.8%,總違規(guī)率降至1.3%。四、推理優(yōu)化與部署19.(單選)在INT8權重量化(W8A16)中,采用zeropoint對稱量化,若權重通道最大絕對值amax=2.5,則scale值為A.2.5/127B.2.5/128C.2.5/255D.2.5/256答案:A解析:對稱量化scale=amax/127,確?!繿max映射到±127。20.(多選)關于KVcache壓縮,下列說法正確的有A.StreamingLLM通過保留“sinktokens”+局部窗口,可處理無限長輸入B.H2O將KVcacheeviction建模為determinantalpointprocess,壓縮率可達80%C.MultiQueryAttention(MQA)通過共享K/Vhead,使cachesize減少為1/hD.KVcache量化到INT4幾乎無損,PPL上升<1%答案:A、B、C解析:D錯,INT4在70B模型上PPL上升3~5%。21.(填空)使用TensorRTLLM構建推理引擎,batch=32,input=1024,output=512,beam=1,F(xiàn)P16,則GPT36.7B模型單卡A10080GB的峰值顯存占用約為______GB(保留1位小數(shù))。答案:42.3解析:權重13.4GB,激活≈2×batch×seq×hidden×2Byte=2×32×1536×4096×2≈0.8GB,KVcache=2×batch×seq×layers×hidden×2Byte=2×32×1536×32×4096×2≈24.0GB,工作區(qū)≈4GB,總計≈42.3GB。22.(計算)某模型采用speculativedecoding,draftmodel為原來1/10參數(shù),acceptancerate=0.82,若單步draft平均生成γ=5tokens,則期望加速比為______(保留2位小數(shù))。答案:2.84解析:E[加速]=γ/(1+(1α)γ)=5/(1+0.18×5)=5/1.9≈2.63;更正:公式E=1/(1α+α/γ)=1/(0.18+0.82/5)=1/0.344≈2.91;再核算:E=γ/(1+(1α)γ)=5/(1+0.18×5)=2.63;采用標準論文公式:E=1/(1α+α/γ)=2.91;答案:2.91。23.(簡答)描述如何在NVIDIATritonInferenceServer中實現(xiàn)“動態(tài)批處理”(dynamicbatching)以提升LLM吞吐量,并給出配置片段。答案:在config.pbtxt中設置:```dynamic_batching{max_queue_delay_microseconds:500preferred_batch_size:[8,16,32]max_batch_size:32}```Triton會在收到請求后等待最多500μs,自動組合batch至preferredsize,再送入模型。實驗顯示,在GPTJ6B上QPS從14.2提升至31.7,平均延遲僅增8%。24.(案例分析)某線上服務使用FP16推理,峰值QPS=120,P99延遲=2.1s,GPU利用率僅37%。經(jīng)觀測,矩陣乘法占比55%,memoryboundkernel占30%。請給出兩項優(yōu)化并預測新指標。答案:1)啟用CUDAGraph:把decoding階段kernel打包,減少CPUlaunchoverhead,GPU利用率升至68%,P99降至1.3s。2)采用KVcacheINT8量化,cachememory減半,batchsize可從32提至56,QPS升至210,P99保持1.4s。五、安全與倫理25.(單選)根據(jù)《生成式人工智能服務管理暫行辦法》,對違法內(nèi)容生成,企業(yè)應在______小時內(nèi)采取處置措施并報告主管部門。A.3B.6C.12D.24答案:A解析:辦法第14條明確3小時。26.(多選)下列屬于紅隊評估(redteaming)常用技術的有A.梯度基對抗后綴攻擊(GCG)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論