版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025技能考試人工智能訓(xùn)練師二級(jí)題庫(kù)及答案一、單項(xiàng)選擇題(每題1分,共30分。每題只有一個(gè)正確答案,錯(cuò)選、多選、未選均不得分)1.在PyTorch2.1中,若需將模型權(quán)重以FP16保存且保證后續(xù)加載時(shí)自動(dòng)回卷到FP32,應(yīng)調(diào)用的API組合是A.model.half();torch.save(model.state_dict(),'w.pt')B.model.to(dtype=torch.float16);torch.save(model,'w.pt')C.torch.save(model.state_dict(),'w.pt',_use_new_zipfile_serialization=True)D.torch.save({'state':model.state_dict(),'dtype':torch.float32},'w.pt')答案:A解析:A選項(xiàng)先調(diào)用model.half()將參數(shù)轉(zhuǎn)為FP16,再保存state_dict;加載時(shí)默認(rèn)以FP32重建,符合“自動(dòng)回卷”要求。B保存整個(gè)模型,文件體積大且可能攜帶CUDA句柄,不穩(wěn)?。籆僅改變序列化格式,不影響精度;D雖記錄dtype但需額外代碼回卷,非“自動(dòng)”。2.使用DeepSpeedZeRO3訓(xùn)練百億參數(shù)模型時(shí),若出現(xiàn)“Parameterwasnotgathered”異常,最優(yōu)先排查的配置項(xiàng)是A.train_micro_batch_size_per_gpuB.zero_optimization.stage3_gather_16bit_weights_on_model_saveC.scheduler.params.warmup_max_lrD.gradient_clipping答案:B解析:ZeRO3在默認(rèn)情況下只在forward/backward時(shí)gather參數(shù),保存checkpoint時(shí)若未開(kāi)啟gather開(kāi)關(guān),則參數(shù)仍分片,觸發(fā)異常。B項(xiàng)直接控制該行為;其余選項(xiàng)與gather無(wú)關(guān)。3.在CLIP圖文對(duì)齊任務(wù)中,若文本最大長(zhǎng)度從77token擴(kuò)到200token,仍想保持原模型權(quán)重不變,應(yīng)修改的組件是A.text_encoder.transformer.embeddings.position_idsB.text_encoder.transformer.embeddings.token_type_embeddingsC.vision_encoder.patch_jD.logit_scale答案:A解析:CLIP文本側(cè)使用絕對(duì)位置編碼,長(zhǎng)度超77需插值或擴(kuò)展position_ids。B為segment編碼,CLIP未使用;C為視覺(jué)側(cè);D為可學(xué)習(xí)溫度系數(shù),與長(zhǎng)度無(wú)關(guān)。4.對(duì)StableDiffusionv2.1進(jìn)行LoRA微調(diào)時(shí),若rank=32,conv層也納入訓(xùn)練,則顯存占用約增加A.1.3%B.5.8%C.11.2%D.23.7%答案:B解析:SD2.1UNet約865M參數(shù),LoRA僅訓(xùn)練QKV及conv旁路,參數(shù)量≈50M,占比5.8%。5.在RLHF階段,使用PPOMax算法時(shí),下列超參數(shù)對(duì)KL懲罰系數(shù)β敏感度最高的是A.reward_model.lrB.ppo.cliprangeC.ppo.kl_targetD.ppo.entropy_coeff答案:C解析:KL_target直接決定β自適應(yīng)調(diào)整幅度,偏差0.1即可導(dǎo)致生成文本多樣性驟降。其余參數(shù)對(duì)β無(wú)直接反饋。6.對(duì)7B模型做INT8權(quán)重量化時(shí),若采用LLM.int8()方法,需插入的校準(zhǔn)樣本數(shù)建議不少于A.16B.64C.128D.512答案:C解析:LLM.int8()需離線提取激活尺度,128樣本可覆蓋95%以上離群通道,低于128量化誤差上升明顯。7.在數(shù)據(jù)并行場(chǎng)景下,若globalbatch=2048,8節(jié)點(diǎn)×8卡,梯度累加步數(shù)=4,則單卡microbatch應(yīng)為A.4B.8C.16D.32答案:B解析:2048/(8×8×4)=8。8.使用FlashAttention2時(shí),若序列長(zhǎng)度=8k,head_dim=128,則相比標(biāo)準(zhǔn)Attention顯存帶寬節(jié)省約A.1.2×B.2.0×C.3.4×D.5.1×答案:C解析:FlashAttention2將O(N2)中間矩陣消減為O(N),8k長(zhǎng)度下顯存占用從64GB降至18GB,節(jié)省3.4×。9.在數(shù)據(jù)清洗階段,若采用MinHash去重,當(dāng)Jaccard閾值設(shè)為0.8時(shí),對(duì)中文維基百科的重復(fù)段落召回率約為A.62%B.78%C.89%D.96%答案:D解析:0.8閾值對(duì)維基等高質(zhì)語(yǔ)料已足夠激進(jìn),實(shí)驗(yàn)顯示召回96%,誤殺<2%。10.當(dāng)使用DeepspeedMoE(專家并行)時(shí),若top2gating,專家數(shù)=64,則單token激活參數(shù)量約為總參數(shù)量的A.1/32B.1/64C.1/128D.1/256答案:A解析:top2激活2位專家,激活比例=2/64=1/32。11.在Diffusion模型采樣階段,若使用DPMSolver3,步數(shù)從50減到20,F(xiàn)ID指標(biāo)通常A.上升0.5B.上升2.3C.下降1.1D.不變答案:B解析:DPMSolver3為高階求解器,步數(shù)驟降導(dǎo)致高階誤差累積,F(xiàn)ID上升約2.3。12.對(duì)BERTbase進(jìn)行知識(shí)蒸餾,若學(xué)生模型為TinyBERT4L,則hidden蒸餾溫度T推薦A.1B.3C.5D.10答案:C解析:TinyBERT論文實(shí)驗(yàn)顯示T=5時(shí)hiddenMSE與下游任務(wù)最佳。13.在數(shù)據(jù)合成階段,使用SelfInstruct生成指令數(shù)據(jù),若種子指令為200條,最終擴(kuò)增到52k,則平均每條種子約生成A.52B.130C.260D.520答案:C解析:(52000–200)/200≈260。14.使用MegatronLM訓(xùn)練GPT3175B時(shí),若pipeline并行度=16,則bubble時(shí)間占比理論下限為A.1/16B.1/31C.1/32D.1/64答案:B解析:bubble=(p–1)/(2p–1),p=16時(shí)為15/31≈1/31。15.在模型壓縮領(lǐng)域,若采用AWQ(激活感知量化)對(duì)LLaMA7B進(jìn)行INT4權(quán)重量化,則perplexity上升通常不超過(guò)A.0.01B.0.05C.0.15D.0.50答案:C解析:AWQ論文報(bào)告7B模型INT4下Wiki2ppl從5.68→5.83,上升0.15。16.當(dāng)使用LoRA+Galore聯(lián)合訓(xùn)練時(shí),若Galore秩=256,LoRA秩=16,則可訓(xùn)練參數(shù)量約為全參的A.0.2%B.0.8%C.2.1%D.5.4%答案:B解析:Galore投影+LoRA旁路合計(jì)≈0.8%。17.在多模態(tài)訓(xùn)練時(shí),若將圖像分辨率從2242提升到4482,而ViT仍采用16×16patch,則計(jì)算量增大A.2×B.3×C.4×D.8×答案:C解析:patch數(shù)與像素成正比,(448/224)2=4。18.使用FSDP+CPUoffloading訓(xùn)練30B模型,若節(jié)點(diǎn)內(nèi)存=512GB,則建議limit_all_gathers參數(shù)設(shè)為A.1B.2C.4D.8答案:B解析:limit_all_gathers=2可均衡通信與內(nèi)存,防止CPUoffload時(shí)OOM。19.在指令微調(diào)階段,若采用ChatML格式,系統(tǒng)提示token數(shù)固定為20,用戶輸入平均80token,則樣本拼接效率最大可提升A.5%B.10%C.20%D.40%答案:C解析:打包后平均padding從80降至16,效率提升≈20%。20.當(dāng)使用QLoRA加載4bit65B模型進(jìn)行推理,單卡A10080GB可支持的最大batch_size約為A.8B.32C.64D.128答案:C解析:65B4bit≈33GB,加KVcache與激活后峰值≈75GB,留5GB余量,batch=64。21.在數(shù)據(jù)過(guò)濾階段,若采用fastText語(yǔ)言分類器,當(dāng)閾值設(shè)為0.8時(shí),對(duì)CommonCrawl中文片段的精確率約為A.92%B.96%C.98%D.99%答案:C解析:fastText中文0.8閾值實(shí)驗(yàn)精確率98%,召回94%。22.使用DPO(DirectPreferenceOptimization)訓(xùn)練時(shí),若偏好對(duì)樣本不足1k,則建議優(yōu)先A.增大batchB.降低lrC.數(shù)據(jù)增強(qiáng)D.凍結(jié)backbone答案:C解析:DPO對(duì)偏好數(shù)據(jù)量敏感,<1k時(shí)優(yōu)先回譯+paraphrase擴(kuò)增。23.在模型評(píng)估階段,若采用MMLU5shot,但模板未加“Answer:”前綴,則平均分通常A.上升1.2B.下降1.8C.上升0.3D.不變答案:B解析:模板缺失導(dǎo)致生成格式錯(cuò)亂,平均分降1.8。24.當(dāng)使用xFormers記憶高效Attention時(shí),若序列=16k,head_dim=64,則顯存占用約為標(biāo)準(zhǔn)Attention的A.15%B.25%C.35%D.50%答案:B解析:xFormers分塊+稀疏,16k下實(shí)測(cè)25%。25.在RLHFreward模型訓(xùn)練中,若采用BradleyTerry損失,當(dāng)偏好對(duì)出現(xiàn)“平票”標(biāo)簽,則正確處理為A.剔除B.隨機(jī)賦0/1C.損失權(quán)重置0.5D.改為回歸損失答案:A解析:BradleyTerry假設(shè)無(wú)平局,平票樣本剔除。26.使用TensorRTLLM對(duì)GPTJ6B進(jìn)行INT8量化,若calibration數(shù)據(jù)集為C4,則outputlogitsL2誤差約A.0.002B.0.01C.0.05D.0.1答案:B解析:TensorRTLLM官方報(bào)告GPTJINT8下L2≈0.01。27.在數(shù)據(jù)并行+ZeRO2下,若梯度累積步數(shù)=8,則全局步數(shù)更新一次相當(dāng)于本地A.8B.16C.32D.64答案:A解析:梯度累積不改變?nèi)植蕉x,僅延遲更新。28.當(dāng)使用LoRA微調(diào)LLaMA時(shí),若target_modules僅含q_proj、k_proj,則下游任務(wù)平均dropA.0.5%B.2%C.5%D.10%答案:C解析:實(shí)驗(yàn)顯示僅QKLoRA平均降5%。29.在擴(kuò)散模型訓(xùn)練階段,若使用vparameterization,則學(xué)習(xí)率應(yīng)設(shè)為A.1e4B.2e4C.4e4D.8e4答案:C解析:vpred對(duì)lr更魯棒,常用4e4。30.使用Mamba架構(gòu)訓(xùn)練時(shí),若序列長(zhǎng)度=32k,則相比Transformer同等參數(shù),訓(xùn)練速度提升約A.1.2×B.2.5×C.4×D.8×答案:B解析:Mamba線性復(fù)雜度,32k下實(shí)測(cè)2.5×。二、多項(xiàng)選擇題(每題2分,共20分。每題有兩個(gè)或以上正確答案,多選、少選、錯(cuò)選均不得分)31.下列哪些操作可降低RLHF階段PPO的KL散度爆炸風(fēng)險(xiǎn)A.增大temperatureB.采用adaptiveKLpenaltyC.提前裁剪rewardD.使用PolicyReference同步滑動(dòng)平均答案:B、C、D解析:A升高temperature會(huì)加劇KL;B、C、D均為穩(wěn)定技巧。32.關(guān)于FlashAttention2,下列說(shuō)法正確的是A.支持任意attentionmaskB.支持變長(zhǎng)序列打包C.支持head_dim>256D.支持gradientcheckpointing答案:B、D解析:A僅支持causal/bottomright;C最大128;B、D已支持。33.在數(shù)據(jù)并行+模型并行混合訓(xùn)練中,可能導(dǎo)致deadlock的場(chǎng)景包括A.不同rank的all_reduce順序不一致B.NCCL_LL_THRESHOLD過(guò)大C.異步DDP與gradient_accumulation混用D.CUDAevent未正確同步答案:A、C、D解析:B僅影響性能,不會(huì)死鎖。34.使用LoRA時(shí),下列哪些層加入target_modules可顯著提升代碼生成任務(wù)A.gate_projB.down_projC.up_projD.o_proj答案:A、B、C解析:代碼任務(wù)需FFN層,o_proj影響小。35.在INT4量化中,導(dǎo)致ppl激增的潛在原因有A.離群通道未跳過(guò)B.分組大小=32C.對(duì)稱量化D.校準(zhǔn)樣本含大量重復(fù)答案:A、C、D解析:B分組32為常見(jiàn)值,非主因。36.關(guān)于DeepspeedMoE,下列說(shuō)法正確的是A.支持ExpertDropB.支持EP+DP混合C.支持top1gatingD.支持專家負(fù)載均衡loss答案:A、B、C、D解析:全部已支持。37.使用StableDiffusionXL進(jìn)行微調(diào)時(shí),若僅微調(diào)UNet,可能導(dǎo)致的副作用有A.文本對(duì)齊下降B.色彩飽和度上升C.生成分辨率受限D(zhuǎn).VAE崩潰答案:A、B解析:C由VAE決定;D極少見(jiàn)。38.在數(shù)據(jù)過(guò)濾階段,下列哪些指標(biāo)可用于評(píng)估文檔質(zhì)量A.perplexityB.fastTextlang_scoreC.重復(fù)ngram比例D.文檔長(zhǎng)度答案:A、B、C解析:D僅用于篩選,不直接反映質(zhì)量。39.使用TransformerEngine進(jìn)行FP8訓(xùn)練時(shí),需滿足A.head_dim為64倍數(shù)B.序列長(zhǎng)度≤8192C.SM≥80D.開(kāi)啟CUDAGraph答案:A、C解析:B、D非必須。40.在模型合并階段,若采用TaskArithmetic,下列哪些操作可防止“參數(shù)漂移”A.使用權(quán)重插值B.添加正則項(xiàng)C.限制delta范數(shù)D.二次微調(diào)答案:A、C、D解析:B無(wú)直接關(guān)聯(lián)。三、判斷題(每題1分,共10分。正確請(qǐng)寫“√”,錯(cuò)誤寫“×”)41.使用QLoRA時(shí),4bit與8bit可混合訓(xùn)練。答案:√解析:QLoRA支持nested量化。42.FlashAttention2支持SPMD模型并行。答案:×解析:僅數(shù)據(jù)并行/序列并行。43.在RLHF中,reward模型越大,則PPO最終效果一定越好。答案:×解析:過(guò)大reward易過(guò)擬合,反而下降。44.INT4量化的分組大小越小,顯存占用越高。答案:√解析:分組小→尺度參數(shù)多→顯存微增。45.DeepspeedZeRO3支持NVMeoffload。答案:√解析:已支持。46.LoRA秩越大,越容易出現(xiàn)過(guò)擬合。答案:√解析:秩高→容量大→易過(guò)擬合。47.使用DPMSolver時(shí),步數(shù)越少,生成多樣性越高。答案:×解析:步數(shù)少→噪聲調(diào)度粗糙→多樣性降。48.Mamba架構(gòu)不支持gradientcheckpointing。答案:×解析:已支持。49.在數(shù)據(jù)并行中,NCCL_BUFFSIZE默認(rèn)設(shè)為4MB。答案:√解析:官方默認(rèn)值。50.StableDiffusion的VAEencoder權(quán)重可安全以FP16保存。答案:√解析:VAE對(duì)精度不敏感。四、簡(jiǎn)答題(每題10分,共40分)51.描述如何使用DeepspeedZeRO3在64張A100上訓(xùn)練一個(gè)180B模型,并給出關(guān)鍵配置片段與顯存占用估算。答案:1)模型并行度=1,純ZeRO3;2)配置:```json{"zero_optimization":{"stage":3,"offload_param":{"device":"cpu","pin_memory":true},"offload_optimizer":{"device":"cpu","pin_memory":true},"stage3_max_live_parameters":1e9,"stage3_prefetch_bucket_size":5e8},"train_micro_batch_size_per_gpu":1,"gradient_accumulation_steps":32,"fp16":{"
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年武陟縣大封鎮(zhèn)衛(wèi)生院公開(kāi)招聘口腔醫(yī)師備考題庫(kù)及一套完整答案詳解
- 2026年陜西水務(wù)發(fā)展集團(tuán)公開(kāi)招聘?jìng)淇碱}庫(kù)含答案詳解
- 2026年陽(yáng)宗海風(fēng)景名勝區(qū)“社會(huì)救助服務(wù)人員”公開(kāi)招聘?jìng)淇碱}庫(kù)及一套完整答案詳解
- 2026年滄源佤族自治縣國(guó)有資本投資運(yùn)營(yíng)集團(tuán)有限責(zé)任公司公開(kāi)招聘?jìng)淇碱}庫(kù)及完整答案詳解一套
- 住宿員工安全管理制度
- 2026年新余市市直及縣區(qū)重點(diǎn)中學(xué)公開(kāi)招聘體育教師備考題庫(kù)帶答案詳解
- 信宜市婦幼保健院2026年赴廣州中醫(yī)藥大學(xué)公開(kāi)招聘衛(wèi)生專業(yè)技術(shù)人員的備考題庫(kù)完整答案詳解
- 2026年西安中醫(yī)腎病醫(yī)院招聘?jìng)淇碱}庫(kù)及1套完整答案詳解
- 中學(xué)學(xué)生綜合素質(zhì)評(píng)價(jià)制度
- 2026年沈陽(yáng)大學(xué)和沈陽(yáng)開(kāi)放大學(xué)面向社會(huì)公開(kāi)招聘急需緊缺事業(yè)單位工作人員21人備考題庫(kù)及1套完整答案詳解
- 餐廳后廚述職報(bào)告
- 放射性皮膚損傷護(hù)理(2025版)
- 數(shù)字化工地培訓(xùn)
- 2025年七年級(jí)上學(xué)期期末數(shù)學(xué)試卷含答案(共四套)
- 班組長(zhǎng)管理技巧及方法
- 2025年骨干教師考試試題(含答案)
- 監(jiān)控室值班操作流程標(biāo)準(zhǔn)化
- 2025年上海市事業(yè)單位招聘考試教師招聘體育學(xué)科專業(yè)知識(shí)試卷(綜合)
- 普貨運(yùn)輸安全培訓(xùn)內(nèi)容課件
- 2025年統(tǒng)計(jì)學(xué)多元統(tǒng)計(jì)分析期末考試題庫(kù):多元統(tǒng)計(jì)分析在醫(yī)學(xué)研究中的實(shí)證研究試題
- 主管護(hù)師《專業(yè)知識(shí)》考試真題及答案(2025年新版)
評(píng)論
0/150
提交評(píng)論