版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
2025年AI計算機視覺專項訓練試卷附答案一、單選題(每題2分,共20分)1.在YOLOv8中,若將輸入圖像從640×640放大到1280×1280,anchorfree檢測頭的感受野理論上會A.縮小為原來1/2B.保持不變C.擴大為原來2倍D.與特征金字塔層數(shù)成反比變化答案:B解析:YOLOv8采用anchorfree機制,依賴FPN+PAN結(jié)構(gòu),感受野由網(wǎng)絡深度決定,與輸入分辨率無關。分辨率增大僅提高空間采樣密度,不改變理論感受野。2.使用VisionTransformer做目標檢測時,若將patchsize從16×16改為8×8,模型參數(shù)量約A.增加4倍B.增加2倍C.減少2倍D.幾乎不變答案:A解析:patch數(shù)量與面積成反比,8×8時patch數(shù)為16×16的4倍;Transformer編碼器序列長度增加4倍,QKV投影矩陣參數(shù)量線性增長,故總參數(shù)量≈4倍。3.在自監(jiān)督對比學習MoCov3中,若隊列長度從65536減至4096,最可能出現(xiàn)的現(xiàn)象是A.訓練速度線性下降B.負樣本多樣性降低導致精度下降C.梯度爆炸D.鍵編碼器更新過快答案:B解析:MoCo依賴大隊列維護大量負樣本,隊列縮短直接減少負樣本多樣性,對比學習目標變簡單,表征質(zhì)量下降。4.將RGB圖像輸入ConvNeXt前,若采用“通道順序隨機擾動”數(shù)據(jù)增強,對下列哪項指標影響最大A.ImageNetTop1精度B.模型推理延遲C.參數(shù)量D.FLOPs答案:A解析:通道擾動破壞顏色統(tǒng)計一致性,ImageNet預訓練權(quán)重基于RGB順序?qū)W習,順序打亂后分布偏移,Top1精度顯著下降;其余指標與數(shù)據(jù)無關。5.在CenterNet中,若高斯核σ固定為2.5,而輸出步長從4變?yōu)?,同一目標中心heatmap峰值會A.降低為原來1/2B.不變C.降低為原來1/4D.消失答案:C解析:輸出步長增大2倍,同一物理尺寸在特征圖上縮小2倍,高斯核覆蓋像素數(shù)減少為1/4,峰值按面積比例衰減。6.使用TensorRT8.6對YOLOv7進行INT8量化時,若校準集只含白天場景,夜晚場景mAP從0.42降至0.19,最主要原因是A.量化粒度不足B.校準集分布偏移C.激活函數(shù)非線性過強D.BatchNorm折疊錯誤答案:B解析:INT8縮放因子由校準集統(tǒng)計決定,夜晚亮度低、噪聲高,激活分布與白天差異大,量化誤差增大,導致mAP暴跌。7.在DINOv2中移除“局部自蒸餾”分支后,下列哪項能力幾乎不受影響A.密集預測任務性能B.圖像檢索Recall@1C.線性probe精度D.小樣本分類答案:B解析:局部自蒸餾主要提升空間密集特征,檢索任務依賴全局特征,Recall@1對局部分支不敏感。8.將SwinTransformer的windowsize從7×7改為14×14,顯存占用約A.增加4倍B.增加2倍C.減少2倍D.不變答案:A解析:windowattention計算復雜度與window面積成平方關系,14×14是7×7的4倍,顯存占用線性增長。9.在MMSegmentation框架中,使用DeepLabV3+訓練Cityscapes,若cropsize從512×512改為1024×1024,單卡batchsize=2可訓練,但改為batchsize=8必現(xiàn)OOM,最合理策略是A.啟用gradientcheckpointB.將backbone換成MobileNetV3C.降低學習率D.凍結(jié)BN層答案:A解析:crop增大4倍顯存占用平方級增長,gradientcheckpoint以時間換空間,可緩解OOM;換backbone需重訓,降低lr與凍結(jié)BN不解決顯存瓶頸。10.在MMDetection3中,使用FasterRCNN+R50,若將FPNtop層通道從256改為128,檢測小目標AP_s最可能A.提升1.5B.下降0.8C.提升0.3D.幾乎不變答案:B解析:top層通道減半,特征表達能力下降,小目標依賴高分辨率弱語義特征,AP_s下降約0.8。二、多選題(每題3分,共15分)11.下列哪些操作可緩解ViT在少量數(shù)據(jù)上過擬合A.隨機深度(StochasticDepth)B.MixupC.增加patchsizeD.LayerScale答案:A、B、D解析:隨機深度與LayerScale為正則化技術(shù);Mixup擴充數(shù)據(jù)分布;增大patchsize減少序列長度,降低容量,反而可能欠擬合。12.關于ConvNeXt與SwinT在ImageNet1K訓練,下列說法正確的是A.ConvNeXt使用更少的歸納偏置B.SwinT的shiftedwindow可跨窗口交互C.ConvNeXt的invertedbottleneck降低內(nèi)存訪問成本D.二者在224×224輸入下FLOPs接近答案:B、C、D解析:ConvNeXt仍基于卷積,歸納偏置強于Swin;shiftedwindow實現(xiàn)跨窗交互;invertedbottleneck減少激活內(nèi)存;官方配置二者FLOPs約4.5G。13.在目標檢測中,使用DIoU損失相較GIoU可帶來A.收斂速度提升B.對旋轉(zhuǎn)目標更魯棒C.中心點距離懲罰D.減少框回歸震蕩答案:A、C、D解析:DIoU顯式加入中心點距離,加速收斂、抑制震蕩;旋轉(zhuǎn)魯棒需CIoU或PIoU。14.關于SelfSupervisedLearning中的maskimagemodeling,下列哪些方法使用encoderdecoder結(jié)構(gòu)A.BEiTB.MAEC.SimMIMD.MaskFeat答案:B、C解析:MAE與SimMIM采用非對稱encoderdecoder;BEiT用離散tokenizer無需decoder;MaskFeat用HOG目標無需decoder。15.在TensorRT部署YOLOX時,下列哪些層可能導致INT8量化誤差顯著增大A.SiLU激活B.1×1卷積后接concatC.DCNv2D.輸出層1×1卷積答案:A、C、D解析:SiLU在負半軸平滑,量化區(qū)間難估計;DCNv2為動態(tài)卷積,權(quán)重不固定;輸出層靠近loss,梯度敏感,均易放大誤差;concat本身無參數(shù),誤差來源為輸入分布差異。三、判斷題(每題1分,共10分)16.DeiT使用知識蒸餾,教師模型為RegNetY16GF。答案:√解析:DeiT原文采用RegNetY16GF作為教師,提供軟標簽。17.在MMRotate中,將旋轉(zhuǎn)框表示為五點法比八參數(shù)法更易于學習。答案:×解析:五點法存在邊界不連續(xù)問題,八參數(shù)法(中心+寬高+角度)更穩(wěn)定。18.ConvNeXt完全去掉BatchNorm,改用LayerNorm。答案:√解析:ConvNeXt追隨Transformer,使用LayerNorm替代BN。19.DETR中objectqueries數(shù)量越多,訓練收斂所需epoch越少。答案:×解析:queries過多增加二分圖匹配難度,收斂變慢。20.使用CutMix時,若混合區(qū)域面積比例λ=0.5,則圖像級標簽變?yōu)閛nehot與mix的硬標簽。答案:√解析:CutMix按像素面積比例分配標簽,λ=0.5即0.5×onehot_A+0.5×onehot_B。21.SwinTransformer的relativepositionbias表大小與windowsize平方成正比。答案:√解析:bias表尺寸為(2w1)×(2w1),與w2成正比。22.在CenterNet訓練階段,若heatmap生成使用高斯半徑r=0,則網(wǎng)絡無法學習。答案:×解析:r=0退化為單像素峰值,仍可學習,但收斂慢、精度低。23.YOLOv5的anchor設置通過kmeans在COCO上聚類得到,類別不平衡會導致長寬比偏移。答案:√解析:kmeans受樣本數(shù)量影響,小目標過多會拉低平均IoU,anchor偏向小框。24.使用RandAugment時,若Magnitude=10,則所有變換幅度固定為最大值。答案:×解析:Magnitude為上限,具體幅度在[0,M]均勻采樣。25.DINOv2的L2標準化僅應用于學生網(wǎng)絡輸出。答案:×解析:教師與學生輸出均做L2標準化,保證余弦相似度計算穩(wěn)定。四、填空題(每空2分,共20分)26.在DeformableDETR中,若編碼器層數(shù)為6,每層采樣點數(shù)為K=4,則單頭注意力計算時,偏移量預測分支輸出通道數(shù)為________。答案:2×4=8解析:每個采樣點預測二維偏移,4個點共8通道。27.使用MMDetection3訓練MaskRCNN,若roi_head中mask_head的num_convs由4改為8,且保持輸入通道256不變,則mask_head參數(shù)量增加________。答案:(84)×(256×3×3×256)=4×589824=2359296解析:每層conv參數(shù)=256×3×3×256=589824,增加4層。28.在ConvNeXtBase中,depthwiseconv的groups參數(shù)等于________。答案:輸入通道數(shù)解析:depthwiseconv的groups=in_channels。29.若將SwinL的droppathrate線性增加至0.5,則第18層(共24層)的droppathrate為________。答案:0.5×18/23≈0.391解析:線性增長rate=l/L×max_rate,L=23(從0起計)。30.在BYOL中,預測器輸出投影維度為________。答案:與投影器輸出維度相同解析:BYOL預測器需匹配投影器輸出維度,才能計算MSE。31.使用TensorRTINT8量化EfficientNetB0,若某層激活動態(tài)范圍統(tǒng)計值為[3.2,6.8],則scale=________。答案:max(abs(3.2),abs(6.8))/127=6.8/127≈0.0535解析:對稱量化scale=max(abs(min),abs(max))/127。32.在YOLOv7的ELAN模塊中,若base_channels=40,且growth_rate=2,則最終concat后的輸出通道為________。答案:40×2+40×2×2=80+160=240解析:ELAN分支兩倍通道再兩倍,concat后相加。33.若ViTB/16在ImageNet1K上訓練,patchsize=16,則序列長度為________。答案:(224/16)2+1=142+1=197解析:加clstoken。34.在Mask2Former中,若decoder層數(shù)為9,queries=100,則單次前向的mask預測張量形狀為________。答案:(B,100,H/4,W/4)解析:Mask2Former輸出原圖1/4分辨率mask。35.使用MMSegmentation的UperNet,若backbone輸出4級特征,通道分別為[64,128,320,512],則PPM(pyramidpoolingmodule)拼接后通道為________。答案:64+128+320+512+4×512=1024+2048=3072解析:PPM每級池化后升維至512,共4級,再加原特征。五、簡答題(每題8分,共24分)36.描述DeiT與ViT在訓練策略上的三點關鍵差異,并解釋為何DeiT能在ImageNet1K上達到與ViTL相近的精度。答案與解析:1)蒸餾token:DeiT引入distillationtoken,與clstoken并行,通過hard蒸餾吸收CNN教師歸納偏置,彌補數(shù)據(jù)不足。2)數(shù)據(jù)增強:DeiT使用RandAugment、MixUp、CutMix、RandomErasing等強增廣,提升泛化;ViT僅基礎裁剪。3)優(yōu)化器:DeiT采用AdamW+cosinelr+warmup,并加大weightdecay(0.05),防止過擬合;ViT使用較大初始lr易發(fā)散。得益于蒸餾與強正則,DeiT僅用ImageNet1K即可學習高質(zhì)量表征,精度逼近需JFT300M預訓練的ViTL。37.說明CenterNet在訓練階段如何生成高斯heatmap,并推導當輸出步長為s、目標框高為h時,高斯半徑r的計算公式。答案與解析:1)將目標中心(xc,yc)映射到特征圖坐標(xc/s,yc/s)。2)計算半徑:r=max(0,int((h/s)×0.3)),其中0.3為經(jīng)驗比例,保證覆蓋目標核心區(qū)域。3)以中心為峰值,生成2D高斯核:heatmap[x,y]=exp(((xxc)2+(yyc)2)/(2σ2)),σ=r/3。推導:設目標在特征圖高為h/s,期望高斯直徑覆蓋90%能量,取3σ原則,則σ=(h/s×0.3)/3=h/(10s),故r=3σ=h/(3.33s)≈0.3h/s,向上取整。38.解釋YOLOv5在anchorfree分支(AnchorFreeDetectHead)中,如何同時預測中心偏移、寬高與旋轉(zhuǎn)角度,并說明旋轉(zhuǎn)角度損失為何采用CircularSmoothLoss。答案與解析:1)對每格子預測:tx,ty,tw,th,tθ共5維,θ∈[π/2,π/2)。2)中心偏移:bx=(2σ(tx)0.5)+cx,by同理。3)寬高:bw=pw×e^tw,bh=ph×e^th,其中pw,ph為anchor寬高。4)角度:bθ=σ(tθ)×ππ/2,將無界回歸轉(zhuǎn)為有界。CircularSmoothLoss:L=1cos(θ_predθ_gt),將角度周期性與邊界不連續(xù)問題轉(zhuǎn)化為連續(xù)余弦距離,避免π/π突變,提升回歸穩(wěn)定性。六、綜合應用題(共31分)39.(15分)某自動駕駛團隊需在OrinX(算力70TOPS,顯存32GB)上部署實時分割模型,要求單幀延遲≤30ms,mIoU≥80%。給定Cityscapes驗證集,現(xiàn)有方案:A)SegFormerB2,mIoU=82.1%,F(xiàn)P32推理46ms;B)DDRNet23,mIoU=80.3%,F(xiàn)P32推理22ms;C)ConvNeXtB+UperNet,mIoU=83.5%,F(xiàn)P32推理55ms。請設計一套完整的模型優(yōu)化與部署方案,包括:1)模型選擇及理由;2)量化與剪枝策略;3)TensorRT優(yōu)化細節(jié);4)多尺度測試與tta取舍;5)最終指標預估。答案與解析:1)選C:mIoU最高,具備80%以上余量,可通過蒸餾+量化保精度。2)量化:采用QAT,以Cityscapestrain+extra20k張夜晚圖像做校準,激活采用Percentile99.9,權(quán)重采用通道級對稱量化;剪枝:使用Taylor剪枝,以mIoU下降<0.5%為閾值,剪掉30%通道,再微調(diào)30epoch。3)TensorRT:啟用FP16+INT8混用,backboneINT8,decoderFP16;構(gòu)建plugin實現(xiàn)CrossCovarianceFusion,減少內(nèi)存搬運;kernelautotuning階段鎖定最大workspace=8GB;啟用DLAcore0跑backbone,GPU跑head,并行流水。4)多尺度:訓練階段采用[0.75,1.0,1.25]隨機縮放,推理僅單尺度1024×2048,舍棄TTA,節(jié)省12ms。5)預估:經(jīng)QAT+剪枝+TensorRT,mIoU降至81.2%,延遲28ms,滿足要求。40.(16分)給定一個自定義工業(yè)零件檢測數(shù)據(jù)集,含20類,平均每圖300目標,最小目標6×6px,最大400×200px,圖像分辨率2048×1536。訓練集5k張,測試集1k張。要求設計一套基于YOLOv8的檢測方案,達到AP50≥85%,單圖GPU推理≤20ms(RTX3060)。請給出:1)數(shù)據(jù)預處理與增強策
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新生兒科三基理論考試試題及答案
- 臨床醫(yī)學概論模擬習題(附參考答案)
- 道路交通安全教育試題(附答案)
- 福建省漳州市教師職稱考試(理論知識)在線模擬題庫及答案
- 銀行信貸考試題庫及答案
- 水利水電工程師考2025測試真題及答案
- 商法一期末考試題及答案
- 車險理賠考試1000題(含答案)第四季
- 食品營養(yǎng)學題庫及答案
- 急危重癥護理學練習題(答案)
- 柴油維修技術(shù)培訓課件
- DL∕T 5210.6-2019 電力建設施工質(zhì)量驗收規(guī)程 第6部分:調(diào)整試驗
- 2024年度初會《初級會計實務》高頻真題匯編(含答案)
- 績效考核和薪酬方案通用模板
- YY/T 0590.1-2018醫(yī)用電氣設備數(shù)字X射線成像裝置特性第1-1部分:量子探測效率的測定普通攝影用探測器
- GB/T 16927.1-2011高電壓試驗技術(shù)第1部分:一般定義及試驗要求
- 政府會計準則優(yōu)秀課件
- 陣發(fā)性室性心動過速課件
- 無機與分析化學理論教案
- 名詞性從句 講義-英語高考一輪復習語法部分
- T∕ZZB 2722-2022 鏈板式自動排屑裝置
評論
0/150
提交評論