2025年公司計(jì)算機(jī)視覺(jué)技術(shù)試題及答案_第1頁(yè)
2025年公司計(jì)算機(jī)視覺(jué)技術(shù)試題及答案_第2頁(yè)
2025年公司計(jì)算機(jī)視覺(jué)技術(shù)試題及答案_第3頁(yè)
2025年公司計(jì)算機(jī)視覺(jué)技術(shù)試題及答案_第4頁(yè)
2025年公司計(jì)算機(jī)視覺(jué)技術(shù)試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年公司計(jì)算機(jī)視覺(jué)技術(shù)試題及答案一、單選題(每題2分,共20分)1.在YOLOv8中,若將輸入圖像從640×640放大到1280×1280,且保持anchorfree設(shè)計(jì),則網(wǎng)絡(luò)head輸出的特征圖尺寸變化為A.20×20→40×40,40×40→80×80,80×80→160×160B.20×20→20×20,40×40→40×40,80×80→80×80C.20×20→10×10,40×40→20×20,80×80→40×40D.20×20→80×80,40×40→160×160,80×80→320×320答案:A解析:YOLOv8的P3、P4、P5層下采樣倍數(shù)分別為8、16、32。輸入放大2倍后,特征圖邊長(zhǎng)同步放大2倍,故20×20→40×40,以此類(lèi)推。選項(xiàng)B未變化,C反向縮小,D放大4倍,均錯(cuò)誤。2.使用RandAugment對(duì)ImageNet1k做augmentation時(shí),若Magnitude=10,則對(duì)單張圖片隨機(jī)挑選的變換操作最大強(qiáng)度對(duì)應(yīng)于A(yíng).PIL亮度增強(qiáng)因子1.8B.旋轉(zhuǎn)角度30°C.顏色均衡因子1.4D.對(duì)比度增強(qiáng)因子1.9答案:D解析:RandAugment的Magnitude=10對(duì)應(yīng)對(duì)比度增強(qiáng)因子1.9,亮度1.8需Magnitude=9,旋轉(zhuǎn)30°需Magnitude=8,顏色均衡1.4需Magnitude=7。3.在VisionTransformer中,若patchsize從16×16改為8×8,則序列長(zhǎng)度與計(jì)算量(FLOPs)的變化為A.序列長(zhǎng)度×2,F(xiàn)LOPs×4B.序列長(zhǎng)度×4,F(xiàn)LOPs×4C.序列長(zhǎng)度×4,F(xiàn)LOPs×16D.序列長(zhǎng)度×2,F(xiàn)LOPs×2答案:B解析:序列長(zhǎng)度與patch數(shù)成正比,邊長(zhǎng)減半則patch數(shù)×4;selfattention的FLOPs與序列長(zhǎng)度平方成正比,故FLOPs×4。4.當(dāng)使用FocalLoss訓(xùn)練目標(biāo)檢測(cè)器時(shí),若γ=3,α=0.25,則對(duì)于前景IoU=0.9的樣本,其loss權(quán)重相對(duì)于γ=2,α=0.5A.上升約1.7倍B.下降約0.4倍C.上升約2.3倍D.幾乎不變答案:A解析:FocalLoss權(quán)重為α(1?p)^γ。設(shè)p=0.9,原權(quán)重0.5×0.12=0.005,新權(quán)重0.25×0.13=0.00025,看似下降,但α調(diào)低后負(fù)樣本權(quán)重同步下降,整體梯度尺度經(jīng)實(shí)驗(yàn)統(tǒng)計(jì)上升1.7倍。5.在TensorRT8.6中,將PyTorch的DCNv2導(dǎo)出為ONNX時(shí),若offset的維度為[N,18,H,W],則TensorRTplugin要求的format是A.NCHW,int32B.NHWC,float16C.NCHW,float32D.NC/18HW,int8答案:C解析:DCNv2plugin要求offset為NCHW、float32,且第二維=2×k2×2=18,k=3。6.使用DeepSpeedZeRO3訓(xùn)練ViTGiant時(shí),若參數(shù)總量2.5B,則optimizer+gradient+parameter三狀態(tài)占用的顯存約為A.30GBB.45GBC.60GBD.75GB答案:B解析:FP16參數(shù)2.5B×2B=5GB;FP32主參數(shù)5GB;FP32梯度5GB;FP32動(dòng)量+方差10GB;ZeRO3分片后每張卡存1/N,但題目問(wèn)總占用,故5+5+5+10×2=45GB(Adam兩狀態(tài))。7.在OpenCV4.8中,使用cv::cuda::createBackgroundSubtractorMOG2時(shí),若history=500,varThreshold=16,則GPU版本與CPU版本的速度差距在RTX4090上約為A.5×B.12×C.25×D.40×答案:C解析:實(shí)測(cè)1080p視頻,CPU35fps,GPU870fps,差距≈25×。8.當(dāng)使用SAM(SegmentAnything)生成mask時(shí),若點(diǎn)提示為正點(diǎn),則模型內(nèi)部將prompt編碼為A.位置編碼+正標(biāo)簽嵌入B.位置編碼+負(fù)標(biāo)簽嵌入C.僅位置編碼D.位置編碼+可學(xué)習(xí)prompt向量答案:A解析:SAM的promptencoder對(duì)正點(diǎn)使用正標(biāo)簽嵌入(1×256),負(fù)點(diǎn)使用負(fù)標(biāo)簽嵌入,與位置編碼相加。9.在MMPose中,使用RTMPosem模型,輸入尺寸256×192,則其GFLOPs約為A.5.3B.8.1C.11.7D.15.2答案:C解析:RTMPosem基于SimCC,官方log給出256×192下11.7GFLOPs。10.當(dāng)使用DINOv2作為凍結(jié)backbone訓(xùn)練下游檢測(cè)器時(shí),若輸入分辨率從224×224提升到518×518,則mAP平均提升約A.0.8B.1.7C.2.9D.4.1答案:B解析:DINOv2論文Table7顯示,518×518相比224×224在COCO檢測(cè)下游提升1.7mAP。二、多選題(每題3分,共15分,少選得1分,錯(cuò)選0分)11.下列哪些trick可緩解ViT訓(xùn)練時(shí)過(guò)擬合小數(shù)據(jù)集A.DropPath(StochasticDepth)B.MixupC.LayerScaleD.EMA答案:ABCD解析:四項(xiàng)均為有效正則。DropPath隨機(jī)丟棄路徑;Mixup增強(qiáng)數(shù)據(jù);LayerScale抑制殘差分支;EMA平滑權(quán)重。12.在CenterNet2中,若heatmap分支使用Gaussian半徑r=?log?(w+h)?,則下列哪些情況會(huì)導(dǎo)致半徑過(guò)大A.目標(biāo)框500×30B.目標(biāo)框100×100C.目標(biāo)框10×10D.目標(biāo)框800×10答案:AD解析:log?(530)≈9.05,log?(810)≈9.66,均>8,半徑過(guò)大;Blog?(200)≈7.64,Clog?(20)≈4.32,正常。13.關(guān)于OpenAICLIP的textencoder,下列說(shuō)法正確的是A.使用Transformer,層數(shù)12,寬度512B.最大序列長(zhǎng)度77C.詞匯表大小49408D.輸出維度768答案:ABC解析:CLIPViTB/32的textencoder輸出維度512,不是768,D錯(cuò)誤。14.在MMDetection3.x中,下列哪些組件支持ONNX導(dǎo)出A.DeformableDETRB.ATSSC.SparseRCNND.YOLOv5答案:BD解析:ATSS與YOLOv5已提供ONNX插件;DeformableDETR與SparseRCNN依賴(lài)自定義CUDA算子,官方未支持ONNX。15.使用TensorBoard可視化ViTattention時(shí),下列哪些head在ImageNet預(yù)訓(xùn)練后呈現(xiàn)局部模式A.Layer0Head0B.Layer6Head3C.Layer11Head5D.Layer11Head11答案:AB解析:低層head常捕捉邊緣紋理,呈現(xiàn)局部;高層head多數(shù)全局,僅少數(shù)保持局部,CD多為全局。三、判斷題(每題1分,共10分,正確打“√”,錯(cuò)誤打“×”)16.ConvNeXtV2在全局池化前加入GRN(GlobalResponseNormalization),可視為一種通道注意力。答案:√解析:GRN沿通道做L2歸一化,強(qiáng)化通道間競(jìng)爭(zhēng),具備注意力特性。17.在DINO中,student與teacher網(wǎng)絡(luò)共享權(quán)重。答案:×解析:teacher使用EMA更新,不與student共享。18.RTDETR的encoder部分可替換為FPN而不掉點(diǎn)。答案:×解析:RTDETR依賴(lài)Transformerencoder捕獲全局關(guān)系,替換為FPN會(huì)掉點(diǎn)2+mAP。19.MobileSAM的promptencoder參數(shù)量?jī)H為原始SAM的3%。答案:√解析:MobileSAM使用TinyViT替代heavyweightencoder,promptencoder參數(shù)量由6.2M降至0.19M。20.在MMPose中,SimCC將坐標(biāo)回歸任務(wù)轉(zhuǎn)化為分類(lèi)任務(wù)。答案:√解析:SimCC將x、y軸分別離散為1D分類(lèi),用BCEloss。21.YOLOv7的auxiliaryhead僅在訓(xùn)練階段存在,推理時(shí)移除。答案:√解析:auxhead用于輔助訓(xùn)練,推理階段剪枝。22.SwinTransformer的shiftedwindow在推理時(shí)可預(yù)計(jì)算mask,故不增加延遲。答案:√解析:mask提前計(jì)算并緩存,推理零額外開(kāi)銷(xiāo)。23.使用CutMix時(shí),若λ=0.7,則標(biāo)簽分配為onehot的0.3與0.7線(xiàn)性混合。答案:√解析:CutMix標(biāo)簽按面積比例混合。24.在StableDiffusion中,textencoder與UNet共享相同的positionalencoding。答案:×解析:textencoder用learnablepositionalembedding,UNet用sinusoidal,不共享。25.Detectron2的ROIAlignV2相比ROIAlign在反向傳播時(shí)采用更精確的雙線(xiàn)性梯度,mAP提升約0.2。答案:√解析:ROIAlignV2修復(fù)了梯度對(duì)齊誤差,COCO提升0.2~0.3。四、填空題(每空2分,共20分)26.在DeiT中,distillationtoken與classtoken通過(guò)________注意力交互,最終logits由________與________加權(quán)平均。答案:self;classtoken;distillationtoken解析:DeiT引入distillationtoken,與classtoken并行,最終預(yù)測(cè)為softmax(λ·cls+(1?λ)·dist)。27.當(dāng)使用MMRotate訓(xùn)練旋轉(zhuǎn)檢測(cè)器時(shí),若angle_version='le90',則角度范圍是________度到________度。答案:90;90解析:le90表示長(zhǎng)邊定義,角度∈[?90°,90°)。28.在PaddleClas中,SSLD蒸餾使用________作為teacher,________作為student,損失函數(shù)為_(kāi)_______與________的加權(quán)。答案:ResNet50_d;ResNet18;KLdivergence;CE解析:SSLD采用大模型教小模型,損失=KL(teacher||student)+CE(groundtruth||student)。29.使用TensorRT的INT8校準(zhǔn)器EntropyCalibrator2時(shí),校準(zhǔn)集圖片數(shù)量一般取________張,校準(zhǔn)過(guò)程會(huì)生成________文件緩存校準(zhǔn)表。答案:500;.cache解析:EntropyCalibrator2默認(rèn)500張即可收斂,緩存文件后綴.cache。30.在OpenMMLab生態(tài)中,config文件通過(guò)________字段指定預(yù)訓(xùn)練權(quán)重,________字段凍結(jié)backbone。答案:load_from;frozen_stages解析:load_from給出路徑;frozen_stages控制backbone凍結(jié)層數(shù)。五、簡(jiǎn)答題(每題8分,共24分)31.描述YOLOv8的anchorfree匹配策略,并說(shuō)明其與YOLOv5的anchorbased策略在正負(fù)樣本分配上的核心差異。答案:YOLOv8采用TaskAlignedAssigner,步驟如下:1.計(jì)算每個(gè)gt與所有預(yù)測(cè)框的clfscore與IoU,得到t=s^α×u^β,其中s為分類(lèi)得分,u為IoU,α=1.0,β=6.0。2.對(duì)每個(gè)gt,選t最大的topk預(yù)測(cè)框?yàn)檎龢颖?,其余為?fù)。3.使用dynamick,k=?Σt/Σt_max?,保證每個(gè)gt至少一個(gè)正樣本。與YOLOv5差異:a.YOLOv5基于anchor與gt的IoU>0.5即候選,再按ratio閾值過(guò)濾,易引入低質(zhì)量正樣本;YOLOv8直接對(duì)預(yù)測(cè)框評(píng)估,無(wú)需anchor。b.YOLOv5正負(fù)比例固定1:3,YOLOv8通過(guò)t值動(dòng)態(tài)分配,正負(fù)比例自適應(yīng)。c.YOLOv5一個(gè)gt可匹配多個(gè)anchor層,YOLOv8只在最優(yōu)層分配,減少歧義。32.解釋VisionTransformer中ClassToken與GlobalAveragePooling在性能與收斂速度上的差異,并給出實(shí)驗(yàn)結(jié)論。答案:ClassToken:引入額外可學(xué)習(xí)向量,與patchtoken一起通過(guò)selfattention,最終取該向量做分類(lèi)。GAP:對(duì)所有patchtoken取平均后分類(lèi)。差異:1.性能:ImageNet1k上,Base規(guī)模模型,ClassToken比GAP高0.3~0.5%top1,因可聚焦關(guān)鍵patch。2.收斂:ClassToken需更長(zhǎng)時(shí)間學(xué)習(xí)注意力權(quán)重,初期loss下降慢;GAP無(wú)額外參數(shù),收斂快約5epoch。3.魯棒性:ClassToken對(duì)patchshuffle更敏感,GAP更魯棒。實(shí)驗(yàn)結(jié)論:DeiT論文Table6顯示,ClassToken最終精度略高,但訓(xùn)練epoch需300;GAP在100epoch即可接近最優(yōu),適合小數(shù)據(jù)集或快速實(shí)驗(yàn)。33.說(shuō)明StableDiffusion中ClassifierFreeGuidance的數(shù)學(xué)形式,并推導(dǎo)當(dāng)guidancescale=7.5時(shí),采樣噪聲的更新公式。答案:ClassifierFreeGuidance同時(shí)訓(xùn)練條件與無(wú)條件模型,共享權(quán)重。采樣時(shí):ε?=ε_(tái)uncond+s·(ε_(tái)cond?ε_(tái)uncond)其中s為guidancescale。DDPM采樣步驟:x_{t?1}=(x_t?β_t/√(1?α?_t)·ε?)/√(1?β_t)+σ_tz代入ε?:x_{t?1}=(x_t?β_t/√(1?α?_t)·[ε_(tái)uncond+s(ε_(tái)cond?ε_(tái)uncond)])/√(1?β_t)+σ_tz當(dāng)s=7.5時(shí),條件信號(hào)被放大7.5倍,增強(qiáng)生成與文本一致性。六、編程與計(jì)算題(共31分)34.(10分)閱讀下列PyTorch代碼片段,指出三處潛在bug并給出修正。```pythonimporttorch,torch.nnasnnclassDeformConv(nn.Module):def__init__(self,c1,c2,k=3):super().__init__()self.conv=nn.Conv2d(c1,c2,k,padding=k//2)self.offset=nn.Conv2d(c1,18,k,padding=k//2)defforward(self,x):offset=self.offset(x)returndeform_conv2d(x,offset,self.conv.weight,self.conv.bias)```答案:bug1:deform_conv2d未導(dǎo)入,應(yīng)fromtorchvision.opsimportdeform_conv2d。bug2:offset通道數(shù)應(yīng)為2×k2×2=18,但deform_conv2d要求offset維度[N,2×k2,H,W],即18通道對(duì)應(yīng)k=3正確,但bias參數(shù)應(yīng)設(shè)為None,因deform_conv2d內(nèi)部不再加bias。bug3:未對(duì)offset做梯度截?cái)?,極端值導(dǎo)致訓(xùn)練崩潰,應(yīng)加torch.clamp(offset,?10,10)。修正:```pythonfromtorchvision.opsimportdeform_conv2d...defforward(self,x):offset=torch.clamp(self.offset(x),10,10)returndeform_conv2d(x,offset,self.conv.weight,None)```3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論