2025年秋季人工智能計算機視覺專項訓(xùn)練試卷及答案_第1頁
2025年秋季人工智能計算機視覺專項訓(xùn)練試卷及答案_第2頁
2025年秋季人工智能計算機視覺專項訓(xùn)練試卷及答案_第3頁
2025年秋季人工智能計算機視覺專項訓(xùn)練試卷及答案_第4頁
2025年秋季人工智能計算機視覺專項訓(xùn)練試卷及答案_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年秋季人工智能計算機視覺專項訓(xùn)練試卷及答案一、單項選擇題(每題2分,共20分。每題只有一個正確答案,錯選、多選均不得分)1.在YOLOv8中,若將輸入圖像分辨率從640×640提升至1280×1280,且保持anchorfree設(shè)計,下列哪一項指標(biāo)最可能顯著下降?A.參數(shù)量B.推理延遲C.小目標(biāo)召回率D.背景誤檢率答案:B解析:分辨率翻倍,計算量近似提升4倍,GPU端延遲線性增加;小目標(biāo)召回率通常上升;anchorfree對小目標(biāo)更魯棒;背景誤檢率與分辨率無單調(diào)關(guān)系。2.使用VisionTransformer做語義分割時,若將patchsize從16×16改為8×8,同時保持圖像尺寸不變,則Transformerencoder的序列長度將:A.縮小為1/4B.保持不變C.擴大為2倍D.擴大為4倍答案:D解析:序列長度=(H/p)×(W/p),p減半則分母變?yōu)?/4,序列長度×4。3.在CenterNet中,若heatmap的峰值響應(yīng)為1,周圍高斯衰減半徑為3pixel,則該峰值對應(yīng)的回歸框中心偏移量分支在訓(xùn)練時的監(jiān)督目標(biāo)為:A.0B.1C.3D.高斯衰減值答案:A解析:中心偏移量分支只監(jiān)督亞像素級偏移,正樣本中心點坐標(biāo)為整數(shù)位置,偏移真值為0。4.當(dāng)使用RandAugment對ImageNet1k做分類增強時,若Magnitude=10,則下列哪種變換組合在默認策略中不可能被同時采樣到?A.Rotate+ColorB.Solarize+ShearYC.Equalize+PosterizeD.AutoContrast+Sharpness答案:C解析:RandAugment策略列表不含Equalize與Posterize同時出現(xiàn),官方策略將Posterize與Solarize互斥。5.在DETR中,若將decoderquery數(shù)量從100減至50,而圖像中真實目標(biāo)為90個,訓(xùn)練時使用的最優(yōu)二分匹配成本將:A.下降B.上升C.不變D.先升后降答案:C解析:二分匹配成本與query數(shù)量無關(guān),只與預(yù)測真值對的最小成本有關(guān);減少query只會導(dǎo)致更多?匹配,不改變已匹配對的成本。6.對于StereoMatching網(wǎng)絡(luò)PSMNet,若在KITTI上將最大視差從192改為96,則顯存占用大約:A.減半B.不變C.減少至1/4D.增加至2倍答案:A解析:3D卷積代價體維度D減半,顯存線性下降。7.在MoCov3自監(jiān)督框架中,若batchsize從4096降至1024,則momentumencoder的更新系數(shù)m從0.99改為0.9,其主要目的是:A.降低GPU內(nèi)存B.加速收斂C.維持隊列一致性D.減少負樣本數(shù)量答案:C解析:小batch下隊列長度不足,需增大更新速度(減小m)以保持特征一致性。8.使用DeepLabv3+時,若將outputstride從16改為8,則ASPP模塊的感受野將:A.縮小一半B.不變C.擴大一倍D.縮小至1/4答案:B解析:ASPP使用空洞卷積,其rate根據(jù)outputstride自動縮放,保持實際感受野不變。9.在3D點云分割網(wǎng)絡(luò)KPConv中,若將kernelpoints數(shù)量由15增至30,則GPU顯存占用:A.線性增加B.平方增加C.不變D.減少答案:A解析:每個卷積核的權(quán)重矩陣尺寸與kernelpoints成正比,顯存線性增長。10.當(dāng)使用TensorRT8.6對SwinT做INT8量化時,若calibrationdataset僅含100張圖像,最可能出現(xiàn)的誤差是:A.量化尺度系數(shù)飽和B.層融合失敗C.動態(tài)shape不支持D.交叉熵損失爆炸答案:A解析:校準集過小導(dǎo)致直方圖截斷閾值估計不準,INT8尺度系數(shù)飽和,精度驟降。二、多項選擇題(每題3分,共15分。每題至少有兩個正確答案,多選、漏選、錯選均不得分)11.下列哪些操作可以有效緩解ViT在小數(shù)據(jù)集上的過擬合?A.使用DropKeyB.增加patchsizeC.引入MoCov3預(yù)訓(xùn)練權(quán)重D.采用RandAugmentE.移除LayerNorm答案:A、C、D解析:DropKey隨機丟棄注意力鍵,正則化強;MoCov3提供良好初始化;RandAugment增強泛化。增大patch減少序列長度但可能損失細節(jié);移除LayerNorm會訓(xùn)練崩潰。12.關(guān)于MaskRCNN的RoIAlign,以下說法正確的是:A.雙線性插值采樣點坐標(biāo)為浮點數(shù)B.對齊操作消除了量化誤差C.僅用于mask分支D.與RoIPool相比增加了可學(xué)習(xí)參數(shù)E.在TensorRT中可通過Plugin實現(xiàn)答案:A、B、E解析:RoIAlign使用浮點采樣+雙線性插值,無量化;mask與box分支均使用;無新增參數(shù);TensorRT需自定義Plugin。13.在訓(xùn)練EfficientDet時,若出現(xiàn)NaN,下列排查策略合理的是:A.降低lr至1e5B.開啟clip_norm=1.0C.將BiFPN的BN改為GND.關(guān)閉autoaugmentE.增大warmupepoch答案:A、B、C、E解析:NaN常由梯度爆炸或BN不穩(wěn)定導(dǎo)致;autoaugment與NaN無直接關(guān)聯(lián),但極端增強可能加劇,關(guān)閉非首要手段。14.對于NeRF的positionalencoding,下列說法正確的是:A.維度為3→63B.使用sin/cos交替C.頻率呈指數(shù)增長D.可學(xué)習(xí)E.移除后細節(jié)下降答案:B、C、E解析:位置編碼固定,頻率2^L;輸入3維經(jīng)L=10編碼到63維;移除高頻成分導(dǎo)致模糊。15.在Transformer中,使用FlashAttention的優(yōu)勢包括:A.顯存占用從O(N2)降至O(N)B.支持任意attentionmaskC.加速訓(xùn)練D.保持數(shù)值精度E.僅適用于decoder答案:A、C、D解析:FlashAttention通過分塊+重計算降低顯存;支持causalmask但非任意;encoder亦可使用。三、填空題(每空2分,共20分)16.在YOLOv5的anchor聚類階段,使用________距離度量,其公式為________。答案:1IoU;1IoU(box,anchor)17.SwinTransformer的shiftedwindowattention中,窗口偏移量為________像素,掩碼操作通過________實現(xiàn)。答案:(M/2,M/2);rolledtensor+maskmatrix18.在圖像去霧算法AODNet中,透射率t與大氣光A的融合形式為________,該設(shè)計的好處是________。答案:t=exp(βd),直接回歸K=βd,避免分式;可端到端訓(xùn)練,梯度穩(wěn)定。19.使用RANSAC估計單應(yīng)矩陣時,若內(nèi)點閾值為3pixel,迭代次數(shù)公式為________,當(dāng)置信度取0.99,內(nèi)點比為50%時,理論最少采樣________次。答案:N=log(1p)/log(1w^n);n=4,w=0.5,p=0.99,得N≈17。20.在CLIP的對比學(xué)習(xí)損失中,溫度系數(shù)τ的梯度效應(yīng)是________,若τ→0,則損失趨近于________。答案:縮放logits,控制梯度大??;hardmax,即onehot交叉熵。四、判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)21.ConvNeXt將ResNet的Bottleneck改為invertedbottleneck,此舉提升ImageNet精度0.4%。答案:√解析:借鑒Swin,擴大中間通道,減少參數(shù)量,精度↑。22.在DINO中,student與teacher網(wǎng)絡(luò)結(jié)構(gòu)必須完全一致。答案:×解析:teacher通常更大,如ViTBvsViTS。23.使用CutMix增強時,若混合區(qū)域比例為0.5,則對應(yīng)標(biāo)簽也為0.5。答案:√解析:標(biāo)簽按像素面積加權(quán)。24.在OCR文本識別中,CRNN的CTCloss允許任意長度對齊,但要求字符集必須包含blank。答案:√解析:CTC核心機制。25.當(dāng)使用GroupNorm時,batchsize=1也可穩(wěn)定訓(xùn)練。答案:√解析:GN與batch無關(guān)。26.在知識蒸餾中,若student與teacher的logits尺度差異大,直接使用MSE損失即可,無需溫度縮放。答案:×解析:需溫度T軟化分布。27.使用MixUp時,若α=β=0.2,則混合系數(shù)λ服從Beta分布,期望為0.5。答案:√解析:E[λ]=α/(α+β)=0.5。28.在Transformer中,QK^T的數(shù)值穩(wěn)定技巧是除以√d_k,該操作同樣適用于ScaledDotProductAttention的CUDAkernel。答案:√解析:標(biāo)準實現(xiàn)。29.在圖像超分EDSR中,移除BN層可提升0.3dB。答案:√解析:BN引入偽影。30.使用FocalLoss時,當(dāng)γ=0,其形式等價于交叉熵。答案:√解析:exp(0)=1。五、簡答題(每題8分,共24分)31.描述DeformableDETR中multiscaledeformableattention的計算流程,并指出其相對原始DETR的兩項顯存優(yōu)化。答案:流程:1)對多尺度特征圖{F_l},每個queryq生成3LK采樣偏移Δp與注意力權(quán)重A;2)通過雙線性插值在L個尺度、K個采樣點采集特征v;3)加權(quán)求和得輸出o=ΣA·v。顯存優(yōu)化:a)稀疏采樣:每query僅采樣K=4點,而非全局HW,顯存從O(HW2)降至O(LKH);b)合并batch×head維度,使用im2col+gemm,減少中間張量。32.給定Cityscapes語義分割任務(wù),使用DeepLabv3+(OS=16),在RTX3090上batch=8出現(xiàn)OOM,列舉三種不降低batchsize的顯存優(yōu)化方案,并給出預(yù)期顯存節(jié)省比例。答案:1)梯度檢查點:以時間換空間,節(jié)省3040%;2)Mixedprecision:FP16+BF16激活,節(jié)省~45%;3)替換ASPP為LightweightASPP(深度可分離卷積),節(jié)省~25%;組合使用可節(jié)省≈70%,batch=8可行。33.解釋NeRF中“coarse+fine”兩級采樣策略的動機,并推導(dǎo)fine網(wǎng)絡(luò)采樣權(quán)重w_i的公式。答案:動機:均勻采樣易錯過高頻細節(jié),需根據(jù)coarse網(wǎng)絡(luò)預(yù)測的權(quán)重對重要區(qū)域加密采樣。推導(dǎo):coarse網(wǎng)絡(luò)輸出密度σ_i與顏色c_i,沿射線累積權(quán)重w_i=T_i(1exp(σ_iδ_i)),其中T_i=exp(Σ_{j=1}^{i1}σ_jδ_j)。將w_i歸一化得概率分布,對逆變換采樣得到fine采樣點,再輸入fine網(wǎng)絡(luò)。六、計算與推導(dǎo)題(共31分)34.(10分)給定一張1920×1080圖像,使用SIFT提取關(guān)鍵點,假設(shè)平均每像素信息熵為6bit,DOG尺度空間octave=4,每octave3層,關(guān)鍵點個數(shù)的期望模型為E(n)=0.12×(WH)/(σ_min2)×(octave)×(layer?1)。若σ_min=1.6,實際檢測到8500關(guān)鍵點,每關(guān)鍵點存儲128維float32描述子,計算:1)理論期望關(guān)鍵點數(shù);2)描述子總存儲量(MB);3)若采用RootSIFT歸一化后使用PCA壓縮至32維,再乘Olympicpooling編碼,壓縮率是多少?答案:1)E(n)=0.12×(1920×1080)/1.62×4×2≈0.12×2.07e6/2.56×8≈7.78×10?;2)8500×128×4B≈4.25MB;3)原128×4B,壓縮后32×4B,壓縮率=128/32=4。35.(11分)在VisionTransformer中,假設(shè)輸入patchsize=14,圖像224×224,head=8,d_model=768,計算:1)每個head的QKV矩陣參數(shù)量;2)一次selfattention的FLOPs;3)若使用Linformer將投影維度降至k=64,F(xiàn)LOPs降低比例。答案:1)每個headd_k=768/8=96,QKV各需768×96,共3×768×96=221184;2)N=(224/14)2=256,F(xiàn)LOPs≈4Nd_model2+2N2d_model=4×256×7682+2×2562×768≈6.0×10?+1.0×10?=7.0×10?;3)Linformer將N2→Nk,第二項變?yōu)?Nkd_model=2×256×64×768≈2.5×10?,降低比例≈(1.0×10??2.5×10?)/1.0×10?=75%。36.(10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論