2025年人工智能(AI)訓(xùn)練師專業(yè)知識(shí)考試題(附答案)_第1頁(yè)
2025年人工智能(AI)訓(xùn)練師專業(yè)知識(shí)考試題(附答案)_第2頁(yè)
2025年人工智能(AI)訓(xùn)練師專業(yè)知識(shí)考試題(附答案)_第3頁(yè)
2025年人工智能(AI)訓(xùn)練師專業(yè)知識(shí)考試題(附答案)_第4頁(yè)
2025年人工智能(AI)訓(xùn)練師專業(yè)知識(shí)考試題(附答案)_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年人工智能(AI)訓(xùn)練師專業(yè)知識(shí)考試題(附答案)一、單項(xiàng)選擇題(每題1分,共30分。每題只有一個(gè)正確答案,錯(cuò)選、多選均不得分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息的核心組件是A.卷積核B.位置編碼(PositionalEncoding)C.殘差連接D.批歸一化答案:B解析:Transformer完全摒棄RNN與CNN,依靠位置編碼將詞序信息注入詞向量,使模型感知token在序列中的絕對(duì)或相對(duì)位置。2.當(dāng)訓(xùn)練數(shù)據(jù)極度不平衡時(shí),下列指標(biāo)中最容易“虛高”的是A.F1scoreB.精確率(Precision)C.召回率(Recall)D.準(zhǔn)確率(Accuracy)答案:D解析:負(fù)樣本占比極高時(shí),模型全判負(fù)即可獲得高Accuracy,但無(wú)法反映少數(shù)類的真實(shí)性能。3.在聯(lián)邦學(xué)習(xí)場(chǎng)景下,為防止中央服務(wù)器直接獲取用戶梯度,常用的隱私保護(hù)技術(shù)是A.知識(shí)蒸餾B.同態(tài)加密C.梯度裁剪D.動(dòng)量加速答案:B解析:同態(tài)加密允許在密文狀態(tài)下完成聚合運(yùn)算,服務(wù)器只能看到加密后的聚合梯度,無(wú)法反推出個(gè)體更新。4.當(dāng)使用Adam優(yōu)化器時(shí),下列超參數(shù)對(duì)初期學(xué)習(xí)率縮放影響最大的是A.β?B.β?C.εD.α(初始學(xué)習(xí)率)答案:D解析:α直接決定步長(zhǎng),β?、β?控制動(dòng)量衰減,ε僅為數(shù)值穩(wěn)定項(xiàng)。5.在DiffusionModel訓(xùn)練階段,網(wǎng)絡(luò)通常被要求預(yù)測(cè)A.原始圖像x?B.噪聲ε?C.條件向量cD.對(duì)數(shù)似然logp(x)答案:B解析:去噪過程等價(jià)于逐步減去高斯噪聲,網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)即預(yù)測(cè)當(dāng)前步添加的噪聲ε?。6.當(dāng)使用混合精度訓(xùn)練時(shí),下列哪項(xiàng)操作最可能引發(fā)梯度下溢(underflow)A.float16參數(shù)更新B.float32主權(quán)重拷貝C.LossscalingD.動(dòng)態(tài)精度切換答案:A解析:float16動(dòng)態(tài)范圍有限,當(dāng)梯度接近其最小表示時(shí)易下溢;Lossscaling通過放大梯度緩解該問題。7.在強(qiáng)化學(xué)習(xí)中,當(dāng)策略梯度方差過大時(shí),最常用的基線(baseline)選擇是A.平均動(dòng)作值B.狀態(tài)值函數(shù)V(s)C.最大動(dòng)作值D.策略熵答案:B解析:V(s)與動(dòng)作無(wú)關(guān),可大幅降低方差且保持無(wú)偏性。8.在LoRA微調(diào)中,可訓(xùn)練參數(shù)集中在A.注意力矩陣WQ、WK、WVB.LayerNorm權(quán)重C.嵌入層D.低秩旁路矩陣A、B答案:D解析:LoRA凍結(jié)原權(quán)重,僅引入低秩分解矩陣A、B,顯著減少顯存與通信開銷。9.當(dāng)使用DPO(DirectPreferenceOptimization)對(duì)齊大模型時(shí),其損失函數(shù)直接優(yōu)化A.策略與參考策略的KL散度B.人類偏好排序的似然比C.獎(jiǎng)勵(lì)模型的絕對(duì)值D.交叉熵答案:B解析:DPO將RLHF中的獎(jiǎng)勵(lì)模型與強(qiáng)化學(xué)習(xí)步驟合并,通過偏好對(duì)比損失直接更新策略。10.在VisionTransformer中,PatchEmbedding的卷積核步長(zhǎng)通常設(shè)置為A.1B.3C.等于kernelsizeD.等于圖像高寬答案:C解析:步長(zhǎng)=核大小可實(shí)現(xiàn)不重疊切分,保持計(jì)算效率。11.當(dāng)使用DeepSpeedZeRO3時(shí),優(yōu)化器狀態(tài)、梯度和參數(shù)分別被A.全復(fù)制到每張卡B.按層切分到不同卡C.按參數(shù)切分到不同卡D.卸載到CPU答案:C解析:ZeRO3將三者全部按參數(shù)維度切片,實(shí)現(xiàn)極致顯存節(jié)省。12.在文本生成任務(wù)中,重復(fù)懲罰(repetitionpenalty)>1時(shí),下列說法正確的是A.降低已生成token的logitsB.提高已生成token的logitsC.對(duì)所有tokenlogits加常數(shù)D.僅影響eos_token答案:A解析:重復(fù)懲罰通過縮放已出現(xiàn)token的logits抑制循環(huán)輸出。13.當(dāng)使用RAG(RetrievalAugmentedGeneration)時(shí),檢索器通常采用A.BM25B.雙編碼器稠密向量C.單塔交叉編碼器D.TFIDF答案:B解析:雙編碼器可離線建庫(kù)、在線快速近似搜索,兼顧效率與精度。14.在模型蒸餾中,若學(xué)生網(wǎng)絡(luò)僅學(xué)習(xí)教師網(wǎng)絡(luò)的logits而非真實(shí)標(biāo)簽,該策略稱為A.數(shù)據(jù)增強(qiáng)蒸餾B.特征層蒸餾C.無(wú)標(biāo)簽蒸餾(logits蒸餾)D.自蒸餾答案:C解析:僅匹配softlogits,無(wú)需groundtruth,適用于無(wú)標(biāo)簽場(chǎng)景。15.當(dāng)使用FlashAttention時(shí),內(nèi)存復(fù)雜度從O(n2)降至A.O(n)B.O(nlogn)C.O(n^(3/2))D.不變答案:A解析:通過分塊與重計(jì)算,F(xiàn)lashAttention將顯存與序列長(zhǎng)度呈線性關(guān)系。16.在RLHF中,獎(jiǎng)勵(lì)模型通常采用A.回歸頭輸出標(biāo)量B.多分類softmaxC.孿生網(wǎng)絡(luò)對(duì)比D.生成式解碼答案:A解析:獎(jiǎng)勵(lì)模型為BradleyTerry模型服務(wù),輸出單值獎(jiǎng)勵(lì)。17.當(dāng)使用GroupNorm時(shí),其統(tǒng)計(jì)量計(jì)算維度為A.(N,C,H,W)全部B.(N,C)C.(C,H,W)D.(H,W)答案:C解析:GroupNorm在通道分組內(nèi)計(jì)算均值方差,與Batch無(wú)關(guān)。18.在混合專家模型(MoE)中,門控網(wǎng)絡(luò)Top2路由會(huì)導(dǎo)致A.顯存線性增長(zhǎng)B.計(jì)算量指數(shù)增長(zhǎng)C.稀疏激活D.梯度消失答案:C解析:Top2僅激活兩個(gè)專家,保持計(jì)算稀疏,顯存隨專家數(shù)線性增加。19.當(dāng)使用Amdahl定律評(píng)估分布式訓(xùn)練加速比時(shí),若串行部分占5%,理論上128卡最大加速比為A.20B.21.3C.64D.128答案:B解析:S=1/(0.05+0.95/128)≈21.3。20.在PyTorch2.x中,pile默認(rèn)后端為A.TorchScriptB.ONNXRuntimeC.InductorD.TensorRT答案:C解析:Inductor使用Triton生成GPU內(nèi)核,融合效率更高。21.當(dāng)使用QLoRA時(shí),模型權(quán)重被量化為A.int8B.int4C.float16D.bfloat16答案:B解析:QLoRA在NF4(4bitNormalFloat)上存儲(chǔ)權(quán)重,訓(xùn)練時(shí)反量化回bfloat16。22.在擴(kuò)散模型采樣階段,DDIM與DDPM的主要差異在于A.網(wǎng)絡(luò)結(jié)構(gòu)B.噪聲調(diào)度C.是否隨機(jī)D.損失函數(shù)答案:C解析:DDIM通過調(diào)整方差項(xiàng)可實(shí)現(xiàn)確定采樣,DDPM為隨機(jī)采樣。23.當(dāng)使用MegatronLM張量并行時(shí),對(duì)LayerNorm層通常A.復(fù)制到所有卡B.按行切分C.按列切分D.不做并行答案:A解析:LayerNorm參數(shù)極少,復(fù)制開銷低,避免額外通信。24.在對(duì)比學(xué)習(xí)InfoNCE損失中,溫度系數(shù)τ越小,梯度A.越平緩B.越集中在正樣本對(duì)C.越稀疏D.不變答案:B解析:τ→0使softmax逼近onehot,負(fù)樣本梯度被抑制,正樣本梯度放大。25.當(dāng)使用GradientCheckpointing時(shí),時(shí)間換空間的比例約為A.1:1B.1:2C.1:3D.2:1答案:D解析:重計(jì)算激活需額外一次前向,時(shí)間增加約一倍,顯存顯著下降。26.在AutoML領(lǐng)域,ZeroshotNAS指A.無(wú)需搜索B.無(wú)需訓(xùn)練C.無(wú)需驗(yàn)證集D.無(wú)需超參答案:B解析:ZeroshotNAS通過性能代理(如梯度/參數(shù)尺度)評(píng)估架構(gòu),無(wú)需訓(xùn)練即可排序。27.當(dāng)使用DeepspeedMoE+ExpertParallel時(shí),AlltoAll通信發(fā)生在A.前向門控后B.反向梯度后C.優(yōu)化器更新后D.數(shù)據(jù)加載后答案:A解析:門控決策后需將token路由到對(duì)應(yīng)專家卡,觸發(fā)AlltoAll。28.在StableDiffusion中,文本條件通過A.CrossAttention注入U(xiǎn)NetB.拼接通道C.替換卷積核D.控制噪聲方差答案:A解析:文本編碼向量通過CrossAttention與UNet中間特征交互。29.當(dāng)使用Perparameteradaptivelearningrate(如AdaGrad)時(shí),累積平方梯度會(huì)導(dǎo)致A.學(xué)習(xí)率單調(diào)遞增B.學(xué)習(xí)率單調(diào)遞減C.學(xué)習(xí)率恒定D.梯度爆炸答案:B解析:分母累加平方梯度,學(xué)習(xí)率隨時(shí)間不斷衰減,可能過早停止。30.在RLHF的PPO階段,若KL懲罰系數(shù)β設(shè)置過大,會(huì)導(dǎo)致A.策略更新過快B.策略逼近參考模型,多樣性下降C.獎(jiǎng)勵(lì)模型過擬合D.價(jià)值網(wǎng)絡(luò)發(fā)散答案:B解析:KL項(xiàng)限制策略偏離參考模型,β過大則生成結(jié)果趨同,創(chuàng)造性降低。二、多項(xiàng)選擇題(每題2分,共20分。每題有兩個(gè)或兩個(gè)以上正確答案,多選、少選、錯(cuò)選均不得分)31.以下哪些技術(shù)可有效緩解大模型“幻覺”(hallucination)A.檢索增強(qiáng)生成(RAG)B.思維鏈提示(CoT)C.強(qiáng)化學(xué)習(xí)從人類反饋(RLHF)D.提高溫度系數(shù)τ答案:A、B、C解析:RAG引入外部知識(shí),CoT增強(qiáng)推理,RLHF對(duì)齊人類偏好;高溫反而加劇隨機(jī)幻覺。32.關(guān)于混合精度訓(xùn)練,下列說法正確的是A.主權(quán)重使用float32B.激活值使用bfloat16可擴(kuò)大動(dòng)態(tài)范圍C.Lossscaling可防止梯度下溢D.所有算子必須支持fp16答案:A、B、C解析:部分算子(如LayerNorm)仍用fp32,無(wú)需全部fp16。33.在DiffusionModel中,下列屬于加速采樣算法的是A.DDIMB.DPMSolverC.PLMSD.Repaint答案:A、B、C解析:Repaint用于圖像修復(fù),非加速采樣。34.當(dāng)使用MegatronLM流水線并行時(shí),可能引入的額外開銷包括A.氣泡時(shí)間(bubble)B.顯存碎片C.交叉熵計(jì)算冗余D.參數(shù)同步答案:A、B解析:氣泡由batch切分導(dǎo)致,顯存碎片因microbatch交替;交叉熵僅一次,參數(shù)同步由DP完成。35.以下屬于參數(shù)高效微調(diào)(PEFT)方法的是A.LoRAB.AdaLoRAC.BitFitD.ModelParallel答案:A、B、C解析:ModelParallel屬于并行策略,非微調(diào)方法。36.在對(duì)比學(xué)習(xí)中,批量大?。╞atchsize)增大通常帶來(lái)A.更多負(fù)樣本B.梯度方差降低C.GPU顯存線性增加D.溫度系數(shù)需同步增大答案:A、B、C解析:溫度系數(shù)為超參,無(wú)需隨batch線性增大。37.當(dāng)使用TorchScript導(dǎo)出模型時(shí),下列語(yǔ)法可能導(dǎo)致追蹤失敗的是A.條件控制流ifelse依賴張量值B.動(dòng)態(tài)shape輸出C.for循環(huán)長(zhǎng)度依賴張量D.torch.matmul答案:A、B、C解析:matmul為靜態(tài)算子,無(wú)問題;前三個(gè)引入動(dòng)態(tài)圖。38.在Zeroshot推理中,下列技巧可提升prompt穩(wěn)定性A.多數(shù)投票(majorityvoting)B.校準(zhǔn)輸出概率C.增加微調(diào)D.使用思維鏈模板答案:A、B、D解析:Zeroshot定義即無(wú)微調(diào)。39.關(guān)于KL散度,下列成立的是A.KL(P||Q)≥0B.KL(P||Q)=KL(Q||P)C.當(dāng)P=Q時(shí)取零D.可用于衡量策略差異答案:A、C、D解析:KL非對(duì)稱,故B錯(cuò)誤。40.在AutoEncoder中,添加下列正則項(xiàng)可得到稀疏表示A.L1正則B.KL散度(針對(duì)隱變量分布)C.DropoutD.SpectralNorm答案:A、B解析:L1直接稀疏;KL散度約束隱變量接近稀疏先驗(yàn);Dropout與譜范數(shù)非直接稀疏。三、判斷題(每題1分,共10分。正確打“√”,錯(cuò)誤打“×”)41.使用GroupNorm時(shí),batchsize可以設(shè)為1。答案:√解析:GroupNorm統(tǒng)計(jì)量與Batch維度無(wú)關(guān)。42.FlashAttention支持任意長(zhǎng)度的序列,無(wú)需分塊。答案:×解析:受SRAM容量限制,仍需分塊。43.LoRA微調(diào)后推理階段必須保留額外旁路矩陣。答案:×解析:可將旁路權(quán)重合并回原矩陣,推理無(wú)額外開銷。44.在RLHF中,獎(jiǎng)勵(lì)模型越大,PPO階段策略提升一定越大。答案:×解析:過大獎(jiǎng)勵(lì)模型可能過擬合,反而導(dǎo)致策略偏移。45.使用int8權(quán)重量化時(shí),zeropoint通常用于對(duì)稱量化。答案:×解析:zeropoint為非對(duì)稱量化引入,對(duì)稱量化無(wú)需。46.擴(kuò)散模型的ELBO目標(biāo)與VAE的ELBO數(shù)學(xué)形式等價(jià)。答案:×解析:兩者均用變分下界,但先驗(yàn)與近似后驗(yàn)構(gòu)造不同,不等價(jià)。47.在VisionTransformer中,增大patchsize會(huì)降低計(jì)算量但可能降低精度。答案:√解析:序列變短,計(jì)算減少,但丟失細(xì)粒度特征。48.使用DeepspeedMoE時(shí),專家數(shù)量增加不會(huì)增加激活參數(shù)量。答案:√解析:激活專家數(shù)固定(如Top2),總激活參數(shù)不變。49.梯度裁剪(clipbynorm)可解決梯度爆炸但無(wú)法緩解梯度消失。答案:√解析:裁剪僅設(shè)上限,不解決下限。50.知識(shí)蒸餾中,溫度升高會(huì)使softlabel分布更尖銳。答案:×解析:溫度越高分布越平滑。四、填空題(每空2分,共20分)51.Transformer中,自注意力計(jì)算復(fù)雜度為________,而FlashAttention通過________將顯存降至線性。答案:O(n2),分塊+重計(jì)算解析:標(biāo)準(zhǔn)Attention需存儲(chǔ)n×n注意力矩陣;FlashAttention按塊計(jì)算并丟棄中間結(jié)果。52.在RLHF的PPO損失中,clip項(xiàng)的上下界分別為________。答案:1ε、1+ε解析:ε通常取0.1或0.2,限制策略更新幅度。53.使用AdamW時(shí),權(quán)重衰減等價(jià)于在參數(shù)更新時(shí)對(duì)參數(shù)乘以________系數(shù)。答案:(1λη)解析:AdamW將權(quán)重衰減從梯度中解耦,每步直接衰減參數(shù)。54.在StableDiffusion中,UNet輸入的timestept通過________編碼后與特征相加。答案:SinusoidalPositionEmbedding解析:正余弦位置編碼將離散t映射為向量,與圖像特征同維。55.若某FP16模型權(quán)重大小為7GB,則使用QLoRA的NF4量化后,權(quán)重占用約________GB。答案:1.75解析:NF4為4bit,壓縮比8:1,7/8≈0.875,實(shí)際加量化常數(shù)后約1.75GB。56.在對(duì)比學(xué)習(xí)中,InfoNCE損失的溫度系數(shù)τ越小,正樣本對(duì)的梯度權(quán)重越________。答案:大解析:τ→0使softmax趨近狄拉克,正樣本梯度主導(dǎo)。57.使用TorchScript導(dǎo)出模型時(shí),需調(diào)用torch.jit.________方法進(jìn)行追蹤。答案:trace解析:trace通過示例輸入記錄算子流,生成靜態(tài)圖。58.在MegatronLM中,張量并行對(duì)ColumnParallelLinear的輸出按________維度切分,對(duì)RowParallelLinear的輸入按________維度切分。答案:列,行解析:Column切輸出特征維,Row切輸入特征維,保證無(wú)需額外通信完成矩陣乘。59.若某訓(xùn)練任務(wù)峰值顯存為40GB,開啟gradientcheckpointing后,理論上顯存可降至約________GB,但時(shí)間增加約________%。答案:20,50解析:重計(jì)算以時(shí)間換空間,顯存減半,時(shí)間增加一次前向,約50%。60.在擴(kuò)散模型中,DDPM的反向過程方差β?采用________調(diào)度,而DDIM可將其設(shè)為________以實(shí)現(xiàn)確定采樣。答案:線性或余弦,0解析:DDIM通過方差為0的隱式采樣實(shí)現(xiàn)確定輸出。五、簡(jiǎn)答題(每題10分,共30分)61.描述LoRA的低秩分解原理,并說明為何在推理階段可將旁路權(quán)重合并到原矩陣而不引入誤差。答案:LoRA將增量權(quán)重ΔW分解為兩個(gè)低秩矩陣A、B,其中ΔW=BA,秩r?d。訓(xùn)練時(shí)凍結(jié)原矩陣W?,僅優(yōu)化A、B,減少參數(shù)量。推理階段計(jì)算h=(W?+ΔW)x=W?x+BAx,由于矩陣乘滿足分配律,可預(yù)計(jì)算W'=W?+BA并存儲(chǔ),后續(xù)只需一次矩陣乘,數(shù)值等價(jià),無(wú)精度損失。62.解釋FlashAttention如何通過分塊與重計(jì)算降低顯存,并給出其GPU內(nèi)存復(fù)雜度公式。答案:FlashAttention將輸入Q、K、V按行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論