版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2025年人工智能訓(xùn)練師職業(yè)資格模擬題庫及答案一、單選題(每題1分,共30分。每題只有一個正確答案,錯選、多選均不得分)1.在PyTorch中,若模型在GPU上訓(xùn)練,下列哪段代碼能正確地把張量x從CPU遷移到GPU?A.x.to('cuda:0')B.x.cuda()C.x.gpu()D.x.device('cuda')答案:A解析:PyTorch官方推薦顯式指定設(shè)備字符串,x.to('cuda:0')可移植性最好;x.cuda()已標(biāo)記為legacy;無gpu()與device()方法。2.使用Adam優(yōu)化器時,若梯度突然變?yōu)镹aN,最先應(yīng)檢查的超參數(shù)是:A.weight_decayB.epsC.betasD.lr答案:B解析:eps過小會導(dǎo)致數(shù)值下溢;lr過大一般先出現(xiàn)爆炸而非NaN;betas與weight_decay影響有限。3.在VisionTransformer中,位置編碼不可直接舍棄的原因是:A.自注意力是排列等變的B.圖像塊順序隨機(jī)C.分類token需要絕對位置D.LayerNorm會放大差異答案:A解析:自注意力對輸入順序不敏感,若無位置編碼,模型無法區(qū)分空間關(guān)系。4.聯(lián)邦學(xué)習(xí)場景下,客戶端上傳梯度而非參數(shù)的主要風(fēng)險是:A.通信開銷大B.泄露訓(xùn)練數(shù)據(jù)C.模型收斂慢D.服務(wù)器計算量大答案:B解析:梯度可反推原始數(shù)據(jù),已有“梯度泄露”攻擊論文證實。5.在StableDiffusion中,UNet的交叉注意力層主要接收的Key/Value來自:A.VAE編碼器B.CLIP文本編碼器C.時間步嵌入D.噪聲圖本身答案:B解析:文本提示經(jīng)CLIP編碼后作為KV,實現(xiàn)文本圖像對齊。6.當(dāng)使用DeepSpeedZeRO3時,下列哪項內(nèi)存占用不會被分片?A.優(yōu)化器狀態(tài)B.參數(shù)C.梯度D.Python對象堆棧答案:D解析:ZeRO3僅分片模型相關(guān)張量,Python堆棧仍常駐每個進(jìn)程。7.在CTR預(yù)估中,F(xiàn)M與DeepFM的本質(zhì)區(qū)別是:A.是否使用embeddingB.是否引入高階隱式特征交叉C.是否采用sigmoid輸出D.是否支持離散特征答案:B解析:DeepFM在FM基礎(chǔ)上疊加DNN,捕獲高階交叉;FM僅二階。8.當(dāng)訓(xùn)練樣本極少時,最適合度量文本相似度的方法是:A.SBERTfinetuneB.UniversalSentenceEncoderC.SentenceTransformer+ContrastiveLearningD.GPT3fewshotprompt答案:B解析:USE為預(yù)訓(xùn)練通用編碼器,無需下游訓(xùn)練即可用;其余均需微調(diào)或示例。9.在強(qiáng)化學(xué)習(xí)PPO中,clip(epsilon)的作用是:A.限制策略更新幅度B.限制值函數(shù)更新C.限制優(yōu)勢函數(shù)估計D.限制熵正則答案:A解析:clip防止新策略偏離舊策略過遠(yuǎn),保證單調(diào)改進(jìn)。10.當(dāng)batchsize增大k倍,若保持epoch數(shù)不變,期望學(xué)習(xí)率應(yīng):A.乘以sqrt(k)B.乘以kC.乘以log(k)D.不變答案:A解析:線性縮放原則指出lr∝sqrt(k)可維持梯度噪聲尺度。11.在語音合成Tacotron2中,停止token預(yù)測使用:A.MSElossB.BCElossC.CrossEntropyD.CTCloss答案:B解析:二分類任務(wù),用BCE判斷何時結(jié)束生成。12.當(dāng)使用混合精度訓(xùn)練時,lossscaling的主要目的是:A.避免梯度下溢B.加速前向C.減少顯存D.提高精度答案:A解析:fp16動態(tài)范圍小,放大loss可防止回傳梯度為0。13.在推薦系統(tǒng)冷啟動階段,最能利用的輔助模態(tài)是:A.用戶社交圖B.商品文本描述C.商品圖像D.商品音頻答案:C解析:圖像信息豐富且易抽取向量,無需大量交互即可計算相似度。14.若LSTM隱藏層維度為h,則單步計算中可訓(xùn)練參數(shù)量為:A.4h2+4hB.8h2+4hC.4h2+8hD.8h2+8h答案:B解析:4個門,每門權(quán)重含h×h+h×h(輸入+隱藏)+h(偏置),共4(h2+h2+h)=8h2+4h。15.在目標(biāo)檢測YOLOv8中,anchorfree設(shè)計帶來的直接收益是:A.減少超參數(shù)量B.提高小目標(biāo)召回C.降低NMS耗時D.增加參數(shù)量答案:A解析:無需預(yù)設(shè)anchor尺度與比例,超參減少,通用性增強(qiáng)。16.當(dāng)使用知識蒸餾,教師模型輸出softmax溫度T升高時:A.暗知識更尖銳B.暗知識更平滑C.學(xué)生梯度消失D.教師準(zhǔn)確率下降答案:B解析:高溫放大微小logit差異,分布更均勻,信息更豐富。17.在GNN中,圖同構(gòu)網(wǎng)絡(luò)(GIN)的聚合函數(shù)采用:A.MeanB.MaxC.SumD.Attention答案:C解析:Sum聚合被證明與WeisfeilerLehman測試一樣強(qiáng)大。18.當(dāng)訓(xùn)練數(shù)據(jù)存在longtail分布,最適合的采樣策略是:A.RandomB.WeightedRandomC.ClassbalancedD.Momentumsampler答案:C解析:Classbalanced采樣按類別頻率倒數(shù)加權(quán),緩解尾部不足。19.在DiffusionModel中,DDIM采樣與DDPM相比主要優(yōu)勢是:A.更高質(zhì)量B.可確定性采樣C.更低顯存D.更快訓(xùn)練答案:B解析:DDIM引入非馬爾可夫鏈,可固定隨機(jī)種子復(fù)現(xiàn),且步數(shù)可減。20.當(dāng)使用Horovod做分布式訓(xùn)練,下列哪項操作必須放在hvd.broadcast之后?A.optimizer.step()B.loss.backward()C.參數(shù)初始化D.學(xué)習(xí)率預(yù)熱答案:C解析:為保證各進(jìn)程參數(shù)一致,初始權(quán)重需廣播后再開始訓(xùn)練。21.在文本生成任務(wù)中,重復(fù)懲罰(repetitionpenalty)直接作用于:A.嵌入層B.Softmax前l(fā)ogitsC.損失函數(shù)D.Attention權(quán)重答案:B解析:對已生成token的logit降權(quán),減少循環(huán)。22.當(dāng)使用EarlyStopping時,若驗證集指標(biāo)連續(xù)10輪不提升,最佳策略是:A.立即停止B.再訓(xùn)練5輪后停止C.回滾到最佳checkpointD.降低學(xué)習(xí)率繼續(xù)答案:C解析:回滾可避免過擬合,保留最優(yōu)參數(shù)。23.在模型壓縮中,ChannelPruning的直接效果是:A.減少內(nèi)存占用B.減少MACsC.減少帶寬D.減少精度答案:B解析:剪枝通道直接減少卷積乘法次數(shù)。24.當(dāng)使用RoPE位置編碼時,其旋轉(zhuǎn)矩陣作用于:A.Query&KeyB.ValueC.Attention輸出D.FFN答案:A解析:RoPE對Q、K做旋轉(zhuǎn),保留相對位置信息。25.在多任務(wù)學(xué)習(xí)中,UncertaintyWeighting的論文作者提出損失權(quán)重與:A.任務(wù)不確定性成正比B.任務(wù)不確定性成反比C.任務(wù)樣本數(shù)成正比D.任務(wù)梯度范數(shù)成正比答案:B解析:方差越大,權(quán)重越小,自動平衡。26.當(dāng)使用A100GPU,啟用TF32后,單精度矩陣乘速度提升約:A.1倍B.2倍C.3倍D.5倍答案:C解析:NVIDIA官方數(shù)據(jù)TF32峰值約為FP32的3倍。27.在圖像分割Mask2Former中,使用的查詢向量數(shù)量通常為:A.10B.100C.1000D.與像素數(shù)相同答案:B解析:默認(rèn)100個查詢即可覆蓋常見目標(biāo)數(shù)。28.當(dāng)使用GradientCheckpointing,顯存占用下降,但計算量增加的倍數(shù)是:A.10%B.20%C.50%D.100%答案:D解析:前向需重新計算,時間≈翻倍。29.在語音識別Conformer中,卷積模塊的kernelsize通常?。篈.3B.5C.15D.31答案:D解析:論文采用31×1depthwise,捕獲長時上下文。30.當(dāng)使用TorchScript導(dǎo)出模型時,必須避免的Python特性是:A.列表推導(dǎo)B.動態(tài)控制流C.字典索引D.元組拆包答案:B解析:TorchScript對if/while依賴張量值支持有限,需靜態(tài)化。二、多選題(每題2分,共20分。每題至少有兩個正確答案,多選、少選、錯選均不得分)31.下列哪些操作可有效緩解GAN訓(xùn)練不穩(wěn)定?A.判別器使用SpectralNormB.生成器使用BatchNormC.使用WassersteinlossD.每步更新生成器兩次答案:A、C解析:SpectralNorm與W距離可平滑訓(xùn)練;BatchNorm易引入樣本相關(guān),反而波動;更新比例需平衡,盲目增加G步數(shù)會失衡。32.關(guān)于Transformer自注意力時間復(fù)雜度,正確的有:A.序列長度n的平方級B.隱維度d的線性級C.批大小b的線性級D.頭數(shù)h的線性級答案:A、B、C解析:O(b·h·n2·d);h被約掉,但實現(xiàn)上并行于h。33.在推薦系統(tǒng)多路召回中,屬于基于內(nèi)容的方法有:A.Word2Vecitem向量B.協(xié)同過濾itemCFC.商品標(biāo)題BERT向量D.圖像CNN向量答案:C、D解析:內(nèi)容模態(tài)直接編碼;Word2Vec需共現(xiàn),屬行為;itemCF純行為。34.下列哪些指標(biāo)可直接用于不平衡分類評估?A.F1scoreB.AUCROCC.AUCPRD.Accuracy答案:A、B、C解析:Accuracy易被多數(shù)類主導(dǎo);其余對不平衡更敏感。35.在模型服務(wù)化中,可實現(xiàn)動態(tài)批處理的有:A.TensorRTB.TorchServeC.TritonInferenceServerD.ONNXRuntime答案:B、C解析:TorchServe與Triton內(nèi)置dynamicbatcher;TRT與ORT需手動。36.關(guān)于DiffusionModel加噪過程,正確的有:A.前向過程固定無參B.反向過程可學(xué)習(xí)C.每一步需知道時間步tD.最終分布為標(biāo)準(zhǔn)正態(tài)答案:A、B、C、D解析:全部正確,DDPM定義。37.在強(qiáng)化學(xué)習(xí)DRL中,屬于onpolicy算法的有:A.A3CB.DDPGC.PPOD.SAC答案:A、C解析:DDPG與SAC為offpolicy。38.下列哪些技術(shù)可降低Transformer解碼延遲?A.KVcacheB.BeamsearchC.SpeculativedecodingD.Layerwisekvshare答案:A、C解析:KVcache減少重復(fù)計算;Speculative并行小模型;Beam增加延遲;kvshare無此標(biāo)準(zhǔn)技術(shù)。39.關(guān)于半監(jiān)督學(xué)習(xí)FixMatch,正確的有:A.使用弱增廣預(yù)測偽標(biāo)簽B.強(qiáng)增廣與偽標(biāo)簽計算交叉熵C.閾值通常設(shè)為0.95D.適用于圖像與文本答案:A、B、C、D解析:FixMatch通用,閾值0.95為論文默認(rèn)。40.在模型可解釋性中,屬于局部解釋方法的有:A.SHAPB.LIMEC.GradCAMD.Permutationimportance答案:A、B、C解析:Permutation為全局。三、判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)41.使用ReLU激活的深層網(wǎng)絡(luò)一定不會出現(xiàn)梯度消失。答案:×解析:ReLU仍可能因權(quán)重初始化不當(dāng)導(dǎo)致死神經(jīng)元,梯度流斷裂。42.在分布式數(shù)據(jù)并行中,梯度同步階段通信量與模型參數(shù)量成正比。答案:√解析:AllReduce數(shù)據(jù)大小等于參數(shù)總字節(jié)。43.知識蒸餾中,學(xué)生模型容量必須小于教師。答案:×解析:容量相當(dāng)亦可,目的在提升精度或魯棒。44.圖神經(jīng)網(wǎng)絡(luò)中,自環(huán)添加會改變圖同構(gòu)性質(zhì)。答案:√解析:自環(huán)影響節(jié)點度,WL測試可能不同。45.使用混合精度時,BN層應(yīng)放在fp16中運行以加速。答案:×解析:BN需高動態(tài)范圍,應(yīng)在fp32。46.在語音合成WaveGlow中,推理可通過逆變換一次完成。答案:√解析:Flowbased模型可逆,單步生成。47.當(dāng)使用RandAugment時,隨機(jī)策略數(shù)量越多一定越好。答案:×解析:過多增強(qiáng)會扭曲語義,需適度。48.在CTR預(yù)估中,特征交叉階數(shù)越高越好。答案:×解析:高階易過擬合,需正則。49.使用Torch.fx可進(jìn)行靜態(tài)圖捕獲與算子融合。答案:√解析:fx為PyTorch官方符號追蹤工具。50.在Diffusion采樣中,確定性DDIM無需隨機(jī)種子也可復(fù)現(xiàn)。答案:√解析:DDIM去噪過程無隨機(jī)噪聲。四、填空題(每空2分,共20分)51.在VisionTransformer中,若輸入圖像224×224,patchsize16×16,則patch數(shù)為________。答案:196解析:(224/16)2=142=196。52.若使用混合精度訓(xùn)練,NVIDIAA100的TensorCore峰值TFLOPS為________(fp16,稀疏)。答案:624解析:官方標(biāo)稱312TFLOPSdense,稀疏翻倍。53.在推薦系統(tǒng)Wide&Deep中,Wide部分通常采用________算法。答案:FTRL解析:Google原論文用FTRLwithL1。54.當(dāng)使用RoPE位置編碼,旋轉(zhuǎn)角度theta與維度d的關(guān)系為theta_i=________。答案:10000^(2i/d)解析:原論文公式。55.在YOLOv8中,C2f模塊將輸入特征圖先進(jìn)行________操作以生成多條梯度分支。答案:split解析:split后concat,增強(qiáng)梯度流。56.在語音合成FastSpeech2,時長預(yù)測器輸出的是每________幀的時長。答案:音素(phoneme)解析:對齊到音素級。57.在StableDiffusion中,VAE的latent空間下采樣倍率為________。答案:8解析:512→64。58.使用AdamW時,weight_decay與L2正則本質(zhì)差異在于________步驟。答案:梯度更新(optimizerstep)解析:AdamW將decay從梯度中解耦。59.在PPO中,優(yōu)勢函數(shù)常用________估計。答案:GAE(GeneralizedAdvantageEstimation)解析:GAE平衡方差與偏差。60.當(dāng)使用DeepSpeedZero3,參數(shù)分片后通信量主要發(fā)生在________階段。答案:反向傳播(gradientreduce)解析:參數(shù)在需要時廣播,梯度需聚合。五、簡答題(每題10分,共30分)61.描述VisionTransformer中ClassToken與GlobalAveragePooling兩種分類方式的異同,并指出在何種場景下ClassToken更優(yōu)。答案:相同點:均將變長序列壓縮為固定向量供分類頭使用。差異:1)ClassToken為可學(xué)習(xí)向量,與圖像塊一起送入Transformer,通過注意力聚合全局信息;GAP對最后一層所有patchtoken取平均,無額外參數(shù)。2)ClassToken可看作“注意力池化”,能自適應(yīng)聚焦關(guān)鍵patch;GAP為靜態(tài)平均,易受背景噪聲干擾。3)計算量上ClassToken幾乎不增加,GAP需額外reduce。場景:當(dāng)圖像主體位置多變或存在多目標(biāo)時,ClassToken可動態(tài)聚焦,優(yōu)于GAP;若圖像內(nèi)容均勻、訓(xùn)練數(shù)據(jù)充足,兩者精度接近,但GAP實現(xiàn)更簡單。62.闡述在聯(lián)邦學(xué)習(xí)中如何通過SecureAggregation抵御半誠實服務(wù)器竊取原始梯度,并給出通信與計算開銷量級。答案:SecureAgg核心思想:每個客戶端上傳梯度前先加秘密共享噪聲,服務(wù)器僅能在聚合后消除噪聲得到總和,無法看到個體。步驟:1)每對客戶端通過DH協(xié)商共享密鑰,生成掩碼。2)本地梯度加上所有相關(guān)掩碼之和。3)服務(wù)器收到掩碼梯度后,聚合時掩碼相互抵消,得到真實總和。開銷:通信額外0%,因掩碼本地生成;計算每客戶端O(n)對稱
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中級注冊安全工程師(道路運輸安全)真題及答案
- 橋梁支座施工技術(shù)要求
- 光纜測試知識試題及答案
- 三級(高級)電子商務(wù)師理論測試題庫及答案
- 2025年癌癥放療科放射治療計劃審核考核模擬試題及答案解析
- 學(xué)校安全整改報告
- 建設(shè)工程施工合同糾紛要素式起訴狀模板拒絕無效格式
- 2026 年無財產(chǎn)離婚協(xié)議書規(guī)范模板
- 2026 年離婚協(xié)議書規(guī)范權(quán)威模板
- 物業(yè)公司員工培訓(xùn)管理制度
- 醫(yī)療聯(lián)合體兒童保健服務(wù)模式創(chuàng)新
- 2026年書記員考試題庫附答案
- 中國高尿酸血癥與痛風(fēng)診療指南(2024更新版)課件
- 2025至2030中國專用車行業(yè)發(fā)展分析及投資前景與戰(zhàn)略規(guī)劃報告
- DB13∕T 6066.3-2025 國資數(shù)智化 第3部分:數(shù)據(jù)治理規(guī)范
- 2025鄭州餐飲行業(yè)市場深度調(diào)研及發(fā)展前景與投資前景研究報告
- JBP計劃培訓(xùn)課件
- 2025年白山輔警招聘考試題庫及答案1套
- 特種設(shè)備外借協(xié)議書
- 三元股份財務(wù)風(fēng)險控制研究
- 養(yǎng)生館運營成本控制與盈利模型
評論
0/150
提交評論