版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年人工智能訓(xùn)練師職業(yè)技能競(jìng)賽參考試題庫(kù)50題(含答案)一、單選題(每題1分,共20分)1.在PyTorch中,若需凍結(jié)某一層參數(shù)使其不參與反向傳播,應(yīng)執(zhí)行的操作是A.layer.requires_grad=FalseB.layer.trainable=FalseC.layer.eval()D.torch.no_grad()答案:A解析:requires_grad屬性直接控制張量是否參與梯度計(jì)算,設(shè)置為False即可凍結(jié)。2.使用混合精度訓(xùn)練時(shí),下列哪項(xiàng)不是NVIDIAApex自動(dòng)損失縮放(AMP)的默認(rèn)行為A.動(dòng)態(tài)調(diào)整lossscaleB.在反向傳播前放大梯度C.跳過(guò)導(dǎo)致inf/nan的batchD.將FP16梯度轉(zhuǎn)回FP32再更新權(quán)重答案:B解析:放大的是損失值而非梯度,梯度在反向過(guò)程中被動(dòng)態(tài)縮放。3.在Transformer中,若將positionalencoding直接加到wordembedding后,再輸入MultiHeadAttention,則位置信息將通過(guò)下列哪種方式傳播A.僅通過(guò)殘差連接B.通過(guò)Q、K、V矩陣乘法C.通過(guò)LayerNormD.通過(guò)FeedForward網(wǎng)絡(luò)答案:B解析:Q、K、V均由輸入線性投影而來(lái),位置編碼已混入其中,注意力權(quán)重會(huì)體現(xiàn)位置關(guān)系。4.當(dāng)使用Adam優(yōu)化器時(shí),若beta1=0.9,beta2=0.999,則第t步的偏差修正后學(xué)習(xí)率與初始lr的關(guān)系為A.隨t增大單調(diào)遞減B.隨t增大單調(diào)遞增C.先增后減D.與t無(wú)關(guān)答案:A解析:偏差修正分母隨t增大趨近于1,分子因指數(shù)移動(dòng)平均導(dǎo)致有效步長(zhǎng)遞減。5.在目標(biāo)檢測(cè)任務(wù)中,YOLOv5的anchorfree分支通過(guò)以下哪項(xiàng)機(jī)制實(shí)現(xiàn)中心點(diǎn)預(yù)測(cè)A.中心點(diǎn)熱力圖B.中心點(diǎn)偏移量回歸C.中心點(diǎn)高斯核D.中心點(diǎn)IoU分支答案:B解析:YOLOv5仍基于anchor,但v8才引入anchorfree,其中心點(diǎn)偏移量直接回歸。6.若將BERTbase的隱藏層維度從768降至512,參數(shù)量約減少A.25%B.33%C.50%D.66%答案:B解析:注意力與FFN權(quán)重均與隱藏層維度平方相關(guān),整體參數(shù)量下降約1/3。7.在聯(lián)邦學(xué)習(xí)場(chǎng)景下,采用FedAvg算法,若客戶端本地epoch增大,則全局模型收斂速度通常A.加快B.減慢C.不變D.先加快后減慢答案:A解析:本地多epoch使客戶端更新更充分,減少通信輪次,但可能加劇nonIID偏差。8.使用DeepSpeedZeRO3時(shí),下列哪項(xiàng)內(nèi)存占用不會(huì)被分片A.優(yōu)化器狀態(tài)B.梯度C.模型參數(shù)D.激活值答案:D解析:ZeRO3僅對(duì)參數(shù)、梯度、優(yōu)化器狀態(tài)做分片,激活仍按正常流水線占用。9.在強(qiáng)化學(xué)習(xí)PPO算法中,若clip參數(shù)ε從0.2調(diào)至0.5,則策略更新幅度A.增大B.減小C.不變D.先增大后減小答案:A解析:ε擴(kuò)大允許更激進(jìn)的概率比,策略更新步長(zhǎng)增大。10.當(dāng)使用Kfold交叉驗(yàn)證時(shí),若K=N(樣本數(shù)),則該方式稱為A.留一法B.留P法C.蒙特卡洛法D.自助法答案:A解析:K=N即每次留一個(gè)樣本做驗(yàn)證,其余訓(xùn)練,故稱留一法(LOO)。11.在圖像分類任務(wù)中,MixUp增強(qiáng)將兩張圖片線性插值,其標(biāo)簽處理方式為A.硬標(biāo)簽取argmaxB.軟標(biāo)簽按比例分配C.標(biāo)簽不變D.標(biāo)簽隨機(jī)丟棄答案:B解析:MixUp產(chǎn)生凸組合標(biāo)簽,保持概率分布。12.若LSTM的隱藏層維度為h,輸入維度為x,則單個(gè)LSTM細(xì)胞可訓(xùn)練參數(shù)量為A.4(hx+h2+h)B.3(hx+h2+h)C.2(hx+h2+h)D.hx+h2+h答案:A解析:四個(gè)門控,每門權(quán)重矩陣含Wx[h×x]、Wh[h×h]及偏置[h],共4組。13.在TensorFlow中,tf.keras.callbacks.ReduceLROnPlateau監(jiān)控指標(biāo)默認(rèn)是A.lossB.val_lossC.accuracyD.val_accuracy答案:B解析:默認(rèn)監(jiān)控驗(yàn)證損失,若連續(xù)patience輪無(wú)下降則降低學(xué)習(xí)率。14.當(dāng)使用知識(shí)蒸餾時(shí),教師模型輸出溫度T升高,則軟標(biāo)簽分布A.更尖銳B.更平滑C.不變D.先尖銳后平滑答案:B解析:溫度升高softmaxlogits差異縮小,分布趨于均勻。15.在NLP數(shù)據(jù)清洗中,若采用SentencePiece的BPE算法,下列哪項(xiàng)操作會(huì)導(dǎo)致詞表膨脹A.提高字符級(jí)回退閾值B.降低合并頻次閾值C.增加最大句子長(zhǎng)度D.啟用nbest采樣答案:B解析:降低頻次閾值會(huì)保留更多低頻合并,詞表增大。16.當(dāng)使用AUCROC評(píng)估二分類器時(shí),若正負(fù)樣本比例從1:1變?yōu)?:10,AUC值A(chǔ).一定下降B.一定上升C.不受影響D.無(wú)法確定答案:C解析:AUC對(duì)類別分布不敏感,僅與排序能力相關(guān)。17.在PyTorchLightning中,若需自定義梯度累積步數(shù),應(yīng)重寫的鉤子是A.optimizer_stepB.training_stepC.accumulate_grad_batchesD.on_after_backward答案:C解析:通過(guò)trainer參數(shù)或重寫accumulate_grad_batches屬性即可。18.當(dāng)使用RandAugment時(shí),若Magnitude=10,則每張圖片應(yīng)用變換強(qiáng)度A.固定最大B.隨機(jī)0~10C.線性遞增D.離散均勻答案:A解析:Magnitude直接決定最大強(qiáng)度,變換幅度固定。19.在模型壓縮技術(shù)中,KnowledgeDistillation的“暗知識(shí)”主要指A.權(quán)重矩陣稀疏模式B.軟標(biāo)簽高階相關(guān)性C.激活值直方圖D.梯度方向答案:B解析:軟標(biāo)簽蘊(yùn)含類別間相似性,即暗知識(shí)。20.若將ReLU替換為GELU,則網(wǎng)絡(luò)前向計(jì)算量A.減少B.增加C.不變D.先減后增答案:B解析:GELU含erf或tanh近似,計(jì)算復(fù)雜度高于分段線性ReLU。二、多選題(每題2分,共10分)21.下列哪些操作可有效緩解Transformer在長(zhǎng)序列上的O(n2)內(nèi)存問(wèn)題A.LinformerB.PerformerC.GradientCheckpointingD.ALiBi答案:A、B、C解析:Linformer與Performer通過(guò)低秩或核方法降復(fù)雜度;Checkpointing以時(shí)間換空間;ALiBi僅替換位置編碼,不降低復(fù)雜度。22.關(guān)于BatchNorm與LayerNorm,下列說(shuō)法正確的是A.BatchNorm依賴batchsizeB.LayerNorm對(duì)RNN更友好C.BatchNorm在推理時(shí)使用移動(dòng)平均統(tǒng)計(jì)量D.LayerNorm可學(xué)習(xí)仿射參數(shù)答案:A、B、C、D解析:四項(xiàng)均正確,LayerNorm在序列長(zhǎng)度維度歸一化,不依賴batch。23.在數(shù)據(jù)并行訓(xùn)練時(shí),以下哪些因素可能導(dǎo)致不同GPU上模型權(quán)重不一致A.隨機(jī)種子未固定B.非確定性cuDNN算法C.異步AllReduceD.混合精度溢出答案:A、B、D解析:異步AllReduce在算法層面保證一致性,溢出與隨機(jī)性才會(huì)導(dǎo)致差異。24.下列哪些指標(biāo)可用于評(píng)估生成式摘要質(zhì)量A.ROUGE1B.ROUGELC.BLEUD.BERTScore答案:A、B、D解析:BLEU偏向翻譯,摘要任務(wù)更常用ROUGE與BERTScore。25.當(dāng)使用EarlyStopping時(shí),以下哪些策略可降低過(guò)擬合風(fēng)險(xiǎn)A.增大patienceB.監(jiān)控驗(yàn)證集性能C.保存最優(yōu)權(quán)重D.同步降低學(xué)習(xí)率答案:B、C解析:增大patience反而延遲停止;同步降學(xué)習(xí)率屬學(xué)習(xí)率調(diào)度,非EarlyStopping本身。三、判斷題(每題1分,共10分)26.使用GroupNorm時(shí),分組數(shù)等于1時(shí)等價(jià)于LayerNorm。答案:對(duì)解析:GroupNorm在單組時(shí)沿通道歸一化,與LayerNorm計(jì)算方式一致。27.在PyTorch中,inplace操作如relu_會(huì)阻礙梯度計(jì)算圖構(gòu)建。答案:錯(cuò)解析:inplace操作只要不被autograd檢測(cè)到覆蓋即可,通常不會(huì)阻斷。28.將Dropout率設(shè)為0.5時(shí),訓(xùn)練階段輸出期望是推理階段的2倍。答案:對(duì)解析:訓(xùn)練時(shí)以概率0.5置零,需縮放1/(10.5)=2保持期望一致。29.使用混合精度時(shí),損失縮放因子一旦固定不變,訓(xùn)練必定崩潰。答案:錯(cuò)解析:若梯度未出現(xiàn)inf,固定scale仍可收斂,但魯棒性差。30.在VisionTransformer中,移除clstoken并改用全局平均池化,模型仍可收斂。答案:對(duì)解析:GAP可替代clstoken,實(shí)驗(yàn)已驗(yàn)證有效性。31.當(dāng)使用余弦退火學(xué)習(xí)率時(shí),重啟次數(shù)越多,最終性能一定越好。答案:錯(cuò)解析:過(guò)多重啟可能破壞收斂穩(wěn)定性,需權(quán)衡。32.對(duì)于類別不平衡數(shù)據(jù),采用focalloss時(shí)γ=0等價(jià)于交叉熵。答案:對(duì)解析:γ=0時(shí)調(diào)制系數(shù)為1,退化為普通CE。33.在TensorFlow中,tf.function裝飾的函數(shù)首次執(zhí)行會(huì)生成Graph,后續(xù)調(diào)用不再進(jìn)入Python。答案:對(duì)解析:Graph模式緩存計(jì)算圖,避免Python開銷。34.使用梯度裁剪(clipbynorm)時(shí),裁剪閾值越小,訓(xùn)練速度一定越慢。答案:錯(cuò)解析:閾值過(guò)小導(dǎo)致梯度信息丟失,可能無(wú)法收斂,而非單純減速。35.在DDP訓(xùn)練中,若某張卡batch=0,則AllReduce會(huì)自動(dòng)跳過(guò)該卡。答案:錯(cuò)解析:DDP要求所有卡同步,空batch會(huì)導(dǎo)致掛起或nan。四、填空題(每題2分,共10分)36.在PyTorch中,若需將模型搬移至GPU并設(shè)置數(shù)據(jù)類型為float16,可一次性完成的代碼為:model.________().________()答案:cuda;half解析:鏈?zhǔn)秸{(diào)用先搬移再降精度。37.當(dāng)使用Kaiming初始化時(shí),ReLU激活的卷積層權(quán)重方差應(yīng)設(shè)為________。答案:2/fan_in解析:He初始化針對(duì)ReLU,方差為2/前層神經(jīng)元數(shù)。38.在Transformer中,若d_model=512,head=8,則每個(gè)head的維度為________。答案:64解析:512/8=64。39.若學(xué)習(xí)率調(diào)度采用OneCycle,最大lr=1e2,則初始lr約為________。答案:1e4解析:OneCycle從峰值1/10開始線性上升。40.當(dāng)使用TensorBoard記錄圖像時(shí),默認(rèn)通道順序?yàn)開_______。答案:NCHW解析:PyTorch與TB默認(rèn)NCHW,需轉(zhuǎn)置若用HWC。五、簡(jiǎn)答題(每題5分,共10分)41.描述梯度累積與增大batchsize在數(shù)學(xué)上的等價(jià)條件,并指出其實(shí)現(xiàn)差異。答案:等價(jià)條件:累積步數(shù)m×單卡batchsize=目標(biāo)大batchsize,且學(xué)習(xí)率同步放大m倍,同時(shí)保證BN統(tǒng)計(jì)量一致。實(shí)現(xiàn)差異:梯度累積在反向傳播后、優(yōu)化器更新前進(jìn)行AllReduce,而數(shù)據(jù)并行在每次反向即刻同步;BN統(tǒng)計(jì)量方面,累積僅基于當(dāng)前小batch,導(dǎo)致均值方差估計(jì)噪聲更大,需調(diào)整momentum或采用GhostBN緩解。42.解釋為何在知識(shí)蒸餾中,溫度T升高可提升學(xué)生模型泛化,并給出溫度選擇的經(jīng)驗(yàn)區(qū)間。答案:高溫使softmax輸出分布更平滑,暴露更多類別間相似性,學(xué)生可學(xué)習(xí)教師暗知識(shí),緩解過(guò)擬合標(biāo)簽噪聲;經(jīng)驗(yàn)上,T∈[3,7]對(duì)大多數(shù)CV任務(wù)有效,NLP任務(wù)可升至10,需配合權(quán)重λ平衡硬標(biāo)簽損失,通常λ從0.9遞減至0.5。六、編程題(共20分)43.請(qǐng)用PyTorch實(shí)現(xiàn)一個(gè)帶梯度累積的VisionTransformer微調(diào)腳本,要求:1)使用timm庫(kù)加載vit_base_patch16_224;2)支持混合精度與DeepSpeedZeRO2;3)每4步累積一次,總batchsize=256,單卡batch=32;4)記錄訓(xùn)練loss與Top1準(zhǔn)確率到TensorBoard;5)保存最佳驗(yàn)證集模型。答案與解析:```pythonimporttorch,timm,deepspeed,os,timefromtorch.utils.tensorboardimportSummaryWriterfromtorch.cuda.ampimportautocast,GradScalerdefmain():rank=int(os.environ['RANK'])local_rank=int(os.environ['LOCAL_RANK'])torch.cuda.set_device(local_rank)deepspeed.init_distributed()model=timm.create_model('vit_base_patch16_224',pretrained=True,num_classes=1000)train_loader=torch.utils.data.DataLoader(dataset,batch_size=32,shuffle=True,num_workers=8,pin_memory=True)val_loader=torch.utils.data.DataLoader(val_dataset,batch_size=32,shuffle=False,num_workers=8)parameters=model.parameters()model_engine,optimizer,_,_=deepspeed.initialize(args=None,model=model,model_parameters=parameters,config_params={"train_batch_size":256,"gradient_accumulation_steps":4,"fp16":{"enabled":True},"zero_optimization":{"stage":2}})writer=SummaryWriter(log_dir='./tb')ifrank==0elseNonebest_acc,step=0.0,0criterion=torch.nn.CrossEntropyLoss()forepochinrange(10):model_engine.train()running_loss,running_correct,running_total=0.0,0,0fori,(x,y)inenumerate(train_loader):x,y=x.cuda(),y.cuda()withautocast():out=model_engine(x)loss=criterion(out,y)/4累積步數(shù)model_engine.backward(loss)if(i+1)%4==0:model_engine.step()model_engine.zero_grad()step+=1ifrank==0andstep%50==0:writer.add_scalar('train/loss',loss.item()4,step)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司制度方案編寫規(guī)范
- 對(duì)鏡拍照制度規(guī)范標(biāo)準(zhǔn)
- 醫(yī)護(hù)人員追蹤制度規(guī)范
- 銷售部早會(huì)管理制度規(guī)范
- 規(guī)范性文件管理年鑒制度
- 黨組織制度落實(shí)不規(guī)范
- 生活區(qū)宿舍防火規(guī)范制度
- 沖水馬桶管理制度規(guī)范
- 統(tǒng)一規(guī)范電動(dòng)車管理制度
- 規(guī)范化治療管理制度匯編
- GB/T 12060.3-2011聲系統(tǒng)設(shè)備第3部分:聲頻放大器測(cè)量方法
- 蒂森克虜伯無(wú)機(jī)房MC2安裝說(shuō)明
- 四年級(jí)數(shù)學(xué)下冊(cè)解決問(wèn)題練習(xí)題
- 《康復(fù)評(píng)定技術(shù)》考試復(fù)習(xí)題庫(kù)(含答案)
- 幼兒園四季交替課件
- 指骨骨折課件
- 初中物理教師新課程標(biāo)準(zhǔn)測(cè)試題及答案五套
- 《單位工程施工組織設(shè)計(jì)》實(shí)訓(xùn)任務(wù)書及指導(dǎo)書
- 2022年牡丹江市林業(yè)系統(tǒng)事業(yè)單位招聘考試《林業(yè)基礎(chǔ)知識(shí)》題庫(kù)及答案解析
- KTV接待收銀前臺(tái)員工培訓(xùn)資料
- 中波天饋線系統(tǒng)介紹
評(píng)論
0/150
提交評(píng)論