2025年(人工智能與機(jī)器學(xué)習(xí))計(jì)算機(jī)視覺(jué)試卷及答案_第1頁(yè)
2025年(人工智能與機(jī)器學(xué)習(xí))計(jì)算機(jī)視覺(jué)試卷及答案_第2頁(yè)
2025年(人工智能與機(jī)器學(xué)習(xí))計(jì)算機(jī)視覺(jué)試卷及答案_第3頁(yè)
2025年(人工智能與機(jī)器學(xué)習(xí))計(jì)算機(jī)視覺(jué)試卷及答案_第4頁(yè)
2025年(人工智能與機(jī)器學(xué)習(xí))計(jì)算機(jī)視覺(jué)試卷及答案_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年(人工智能與機(jī)器學(xué)習(xí))計(jì)算機(jī)視覺(jué)試卷及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在YOLOv8中,若輸入圖像尺寸為640×640,網(wǎng)絡(luò)下采樣倍數(shù)為32,則最終特征圖的空間分辨率是A.10×10??B.20×20??C.40×40??D.80×80答案:B解析:640÷32=20,YOLOv8采用5次步長(zhǎng)為2的卷積或池化,共32倍下采樣。2.使用ResNet50做遷移學(xué)習(xí)時(shí),若新任務(wù)類別數(shù)為5,則最后一層全連接層的輸出通道數(shù)應(yīng)改為A.1000??B.2048??C.5??D.1024答案:C解析:ImageNet預(yù)訓(xùn)練權(quán)重輸出1000類,遷移時(shí)需替換為當(dāng)前任務(wù)類別數(shù)。3.在雙目立體匹配中,常用的“贏家通吃”策略(WTA)對(duì)應(yīng)下列哪種代價(jià)聚合方式A.SGM??B.ADCensus??C.動(dòng)態(tài)規(guī)劃??D.最小代價(jià)選擇答案:D解析:WTA指在視差搜索范圍內(nèi)直接選取代價(jià)最小的視差值,無(wú)需額外聚合。4.VisionTransformer中,位置編碼采用二維擴(kuò)展的sincos版本,其頻率基函數(shù)維度與下列哪項(xiàng)超參直接相關(guān)A.head_num??B.mlp_ratio??C.hidden_dim??D.patch_size答案:C解析:位置編碼向量維度必須等于hidden_dim,才能與patchtoken相加。5.在MaskRCNN的ROIAlign中,若ROI尺寸為7×7,采樣點(diǎn)數(shù)為4,則每個(gè)采樣點(diǎn)對(duì)應(yīng)原圖區(qū)域通過(guò)哪種方式獲得A.最近鄰插值??B.雙線性插值??C.三次插值??D.自適應(yīng)池化答案:B解析:ROIAlign使用雙線性插值從原圖特征圖精確采樣,避免量化誤差。6.下列哪一項(xiàng)不是Transformer自注意力計(jì)算復(fù)雜度優(yōu)化的主流方案A.Linformer??B.Performer??C.DeeplabV3+??D.Nystr?mformer答案:C解析:DeeplabV3+為語(yǔ)義分割網(wǎng)絡(luò),與注意力復(fù)雜度優(yōu)化無(wú)關(guān)。7.在知識(shí)蒸餾中,若教師模型輸出softmax溫度τ=4,則蒸餾損失與交叉熵相比A.梯度更大??B.分布更尖銳??C.分布更平滑??D.與τ無(wú)關(guān)答案:C解析:高溫使softmax分布更平滑,保留更多暗知識(shí)。8.使用FocalLoss解決目標(biāo)檢測(cè)類別不平衡時(shí),若γ=2,易分樣本的權(quán)重將A.指數(shù)級(jí)降低??B.指數(shù)級(jí)升高??C.線性降低??D.不變答案:A解析:FocalLoss權(quán)重為(1pt)^γ,pt→1時(shí)權(quán)重趨0,抑制簡(jiǎn)單樣本。9.在NeRF訓(xùn)練中,若采用分層采樣(coarse+fine),fine網(wǎng)絡(luò)射線采樣點(diǎn)依據(jù)A.均勻隨機(jī)??B.coarse網(wǎng)絡(luò)深度概率??C.固定網(wǎng)格??D.均勻網(wǎng)格答案:B解析:fine網(wǎng)絡(luò)根據(jù)coarse網(wǎng)絡(luò)輸出的權(quán)重分布做重要性采樣。10.在StableDiffusion中,文本編碼器采用A.CLIPtextencoder??B.BERT??C.GPT2??D.T5答案:A解析:StableDiffusion使用CLIP的文本分支將prompt轉(zhuǎn)為語(yǔ)義向量。二、多項(xiàng)選擇題(每題3分,共15分,多選少選均不得分)11.下列哪些操作可以有效提升小目標(biāo)檢測(cè)召回率A.增大輸入分辨率??B.引入FPN??C.使用AnchorFree頭??D.降低NMS閾值答案:A、B、C解析:增大分辨率與FPN提升小目標(biāo)特征;AnchorFree減少錨框超參敏感;降低NMS閾值會(huì)抑制更多框,反而降低召回。12.關(guān)于VisionTransformer的注意力可視化,下列說(shuō)法正確的是A.可提取注意力rollout??B.需要額外監(jiān)督標(biāo)簽??C.可生成類激活圖??D.對(duì)patchsize敏感答案:A、C、D解析:注意力可視化無(wú)需額外標(biāo)簽;rollout與類激活圖均可生成;patchsize影響token粒度。13.在自監(jiān)督學(xué)習(xí)中,下列哪些方法屬于對(duì)比學(xué)習(xí)A.SimCLR??B.MoCov3??C.MAE??D.BYOL答案:A、B、D解析:MAE為掩碼自編碼,屬于生成式,非對(duì)比。14.下列哪些損失函數(shù)可直接用于語(yǔ)義分割A(yù).DiceLoss??B.FocalLoss??C.LovászLoss??D.CTCLoss答案:A、B、C解析:CTC用于序列對(duì)齊,不適用于分割。15.在模型部署階段,INT8量化后可能出現(xiàn)精度下降,常用補(bǔ)救手段有A.QAT??B.混合精度??C.校準(zhǔn)數(shù)據(jù)集重選擇??D.直接轉(zhuǎn)FP16答案:A、B、C解析:FP16不屬于INT8量化補(bǔ)救,而是另一種精度模式。三、填空題(每空2分,共20分)16.在SwinTransformer中,窗口注意力將特征圖劃分為不重疊的________窗口,計(jì)算復(fù)雜度從O(N2)降為_(kāi)_______。答案:7×7;O((N/k)2·k2)=O(N2)實(shí)際為線性化窗口內(nèi)計(jì)算,復(fù)雜度與窗口大小相關(guān),填“線性”亦可給分。17.若使用RANSAC估計(jì)單應(yīng)矩陣,內(nèi)點(diǎn)閾值設(shè)為2像素,迭代次數(shù)k與內(nèi)點(diǎn)概率w的關(guān)系公式為k≥________。答案:log(1p)/log(1w^n),其中p為置信度,n為樣本數(shù)(4)。18.在CenterNet中,中心點(diǎn)熱圖峰值抑制采用________核大小的最大池化。答案:3×3。19.在NeRF的體渲染公式中,光線累積顏色C(r)=∫________T(t)σ(t)c(t)dt,其中T(t)=________。答案:exp(∫?^tσ(s)ds)。20.在PyTorch中,若模型已加載CUDA,執(zhí)行model.half()可將參數(shù)轉(zhuǎn)為_(kāi)_______精度,顯存占用約變?yōu)樵瓉?lái)的________。答案:FP16;一半。21.在目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)mAP@0.5:0.95中,0.5:0.95表示IOU閾值從0.5到0.95,步長(zhǎng)________。答案:0.05。22.在DINOv2自監(jiān)督訓(xùn)練中,教師網(wǎng)絡(luò)權(quán)重采用________方式更新。答案:指數(shù)移動(dòng)平均(EMA)。23.在StableDiffusion采樣階段,DDIM采樣若設(shè)置步數(shù)為20,則相比原始DDPM1000步,速度提升約________倍。答案:50。24.在TensorRT中,若某算子不支持INT8,需插入________節(jié)點(diǎn)做精度轉(zhuǎn)換。答案:Reformat。25.在數(shù)據(jù)增強(qiáng)中,RandAugment的搜索空間包含________種變換,每次隨機(jī)選________種。答案:14;n(n為超參,通常2)。四、判斷改錯(cuò)題(每題2分,共10分,先判斷對(duì)錯(cuò),再改正錯(cuò)誤部分)26.在YOLOv5中,SPPF模塊通過(guò)不同大小的池化核并聯(lián)提取多尺度特征。答案:錯(cuò)。改正:SPPF為串行最大池化+拼接,非并聯(lián)。27.VisionTransformer的CLStoken在訓(xùn)練分類時(shí)必須放在序列末尾。答案:錯(cuò)。改正:CLStoken通常放在序列開(kāi)頭。28.在雙目立體視覺(jué)中,基線越大,可測(cè)距范圍越遠(yuǎn),但盲區(qū)越小。答案:錯(cuò)。改正:基線越大,盲區(qū)越大。29.使用BatchNorm時(shí),訓(xùn)練與測(cè)試階段的均值方差來(lái)源相同。答案:錯(cuò)。改正:訓(xùn)練用滑動(dòng)平均,測(cè)試用累積統(tǒng)計(jì)。30.在知識(shí)蒸餾中,教師模型準(zhǔn)確率越高,學(xué)生模型一定能獲得更高提升。答案:錯(cuò)。改正:教師過(guò)于強(qiáng)大可能導(dǎo)致優(yōu)化困難,需匹配容量。五、簡(jiǎn)答題(每題6分,共30分)31.描述MaskRCNN中ROIAlign與ROIPooling的量化誤差差異,并給出ROIAlign雙線性采樣具體步驟。答案:ROIPooling兩次量化:1.ROI坐標(biāo)取整;2.池化網(wǎng)格劃分取整。導(dǎo)致特征偏移。ROIAlign取消量化,將ROI劃分為7×7bin,每個(gè)bin內(nèi)取4個(gè)采樣點(diǎn),用雙線性插值計(jì)算采樣值,再取平均或最大。步驟:①保持浮點(diǎn)坐標(biāo);②計(jì)算bin寬高;③在每個(gè)bin內(nèi)均勻選4點(diǎn);④對(duì)每點(diǎn)計(jì)算雙線性插值;⑤對(duì)4點(diǎn)平均得到該bin值。32.解釋FocalLoss如何緩解前景背景比例極端失衡,并給出梯度形式。答案:FL(pt)=α(1pt)^γlog(pt)。對(duì)易分樣本pt→1,權(quán)重(1pt)^γ→0,梯度大幅縮小;對(duì)難分樣本pt→0,權(quán)重→1,梯度保持。梯度?FL/?x=α(1pt)^γ(γ(1pt)log(pt)1)?pt/?x,實(shí)現(xiàn)難樣本聚焦。33.列舉三種VisionTransformer輕量化方案并對(duì)比其計(jì)算復(fù)雜度。答案:①Swin:局部窗口注意力,復(fù)雜度O(M2·N),M=7;②PVT:空間降采樣key/value,復(fù)雜度O(N·N/s2);③Linformer:低秩投影,復(fù)雜度O(N·k),k?N。對(duì)比:Swin線性增長(zhǎng);PVT與降采樣倍平方反比;Linformer與序列長(zhǎng)度成線性。34.說(shuō)明NeRF中位置編碼(PositionalEncoding)作用,并給出三維坐標(biāo)編碼公式。答案:將低維坐標(biāo)映射到高維空間,使MLP可擬合高頻變化。公式:γ(p)=[sin(2?πp),cos(2?πp),…,sin(2^{L1}πp),cos(2^{L1}πp)],L=10為坐標(biāo),L=4為方向。35.對(duì)比單階段與雙階段目標(biāo)檢測(cè)在COCO小目標(biāo)AP上的差異,并給出三點(diǎn)改進(jìn)建議。答案:雙階段(CascadeRCNN)小目標(biāo)AP約26,單階段(YOLOv8l)約22。差異:雙階段多尺度ROI特征更精細(xì)。改進(jìn):①增大輸入分辨率;②引入超高分辨率分支(UFPN);③復(fù)制粘貼小目標(biāo)數(shù)據(jù)增強(qiáng);④使用更密集錨框或AnchorFree;⑤引入注意力增強(qiáng)小目標(biāo)特征。六、計(jì)算與推導(dǎo)題(共25分)36.(8分)給定特征圖F∈?^{C×H×W},采用可變形卷積(DCNv2),偏移域Δp∈?^{2k2×H×W},掩碼m∈?^{k2×H×W},推導(dǎo)輸出y(p)公式,并說(shuō)明m作用。答案:y(p)=∑_{k}w_k·x(p+p_k+Δp_k)·m_k,其中m_k∈[0,1]為學(xué)習(xí)權(quán)重,用于抑制異常偏移,提升魯棒性。37.(7分)在Transformer自注意力中,輸入X∈?^{N×d},計(jì)算注意力圖A=softmax(QK^T/√d),給出顯存占用公式,并分析當(dāng)N=4096,d=64,float16時(shí)顯存大小。答案:顯存=N2·2字節(jié)=40962×2≈32MB。推導(dǎo):QK^T矩陣大小N×N,float16占2字節(jié)。38.(10分)給定雙目相機(jī),基線B=0.12m,焦距f=700pixel,主點(diǎn)cx=640,左右圖像匹配點(diǎn)x_L=820,x_R=800,求深度Z,并推導(dǎo)誤差傳播公式,若視差誤差σ_d=0.1pixel,求深度標(biāo)準(zhǔn)差σ_Z。答案:視差d=x_Lx_R=20pixel。Z=B·f/d=0.12×700/20=4.2m。誤差傳播:σ_Z=|?Z/?d|·σ_d=Z2/(B·f)·σ_d=4.22/(0.12×700)×0.1≈0.021m。七、綜合應(yīng)用題(共30分)39.(15分)某工業(yè)場(chǎng)景需檢測(cè)直徑2mm的零件缺陷,相機(jī)分辨率2048×1536,視野FOV=100mm×75mm,擬采用YOLOv8s,輸入640×640。(1)計(jì)算單像素物理分辨率;(2)判斷該模型能否滿足最小缺陷占像素要求;(3)若不足,給出兩種可行方案并量化對(duì)比。答案:(1)分辨率=100mm/2048≈0.0488mm/pixel,缺陷直徑2mm→41pixel;(2)下采樣比例640/2048=0.3125,映射到輸入圖約13pixel,YOLOv8s下采樣32倍,特征圖13/32≈0.4pixel<1,無(wú)法檢測(cè);(3)方案A:切圖滑動(dòng)窗口,窗口640×640,步長(zhǎng)320,覆蓋全圖,需約3×2=6次推理,顯存增加6倍,延遲約150ms×6=900ms;方案B:換YOLOv8x,輸入1280×1280,下采樣32倍,特征圖40×40,單像素物理分辨率0.0488×(640/1280)=0.0244mm,缺陷占82pixel,特征圖2.5pixel,可滿足,推理延遲約80ms,顯存2GB。綜合:方案B延遲低、工程簡(jiǎn)單,優(yōu)先采用。40.(15分)某城市部署100路1080p攝像頭做車輛ReID,需白天+夜晚持續(xù)識(shí)別,預(yù)算限制單卡RTX306012GB。給定baseline:ResNet50IBN,輸入256×128,batch=64,顯存占9GB,特征維度2048,mAP=74.2。要求:顯存降至≤6GB,mAP下降≤1.5,延遲增加≤20%。(1)給出量化+蒸餾聯(lián)合訓(xùn)練流程圖;(2)列出關(guān)鍵超參;(3)給出最終指標(biāo)與對(duì)比表。答案:(1)流程:①準(zhǔn)備車輛ReID數(shù)據(jù)集(VeRi776+NightOwls);②教師模型ResNet50IBN,訓(xùn)練90epoch;③學(xué)生模型ResNet18IBN,輸入不變;④聯(lián)合損失L=αL_ID+(1α)L_KD+βL_triplet,其中L_K

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論