2025年人工智能考研專業(yè)課真題解析測試試卷及答案_第1頁
2025年人工智能考研專業(yè)課真題解析測試試卷及答案_第2頁
2025年人工智能考研專業(yè)課真題解析測試試卷及答案_第3頁
2025年人工智能考研專業(yè)課真題解析測試試卷及答案_第4頁
2025年人工智能考研專業(yè)課真題解析測試試卷及答案_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年人工智能考研專業(yè)課練習(xí)題解析測試試卷及答案一、單項選擇題(每題2分,共20分)1.在ResNet中引入殘差連接的主要目的是A.減少網(wǎng)絡(luò)參數(shù)量B.緩解梯度消失問題C.提高卷積核感受野D.降低顯存占用答案:B解析:殘差連接將輸入直接加到輸出,形成恒等映射,使深層網(wǎng)絡(luò)在反向傳播時梯度可直接回傳,有效緩解梯度消失。2.下列關(guān)于Transformer自注意力機制的說法正確的是A.查詢向量Q與鍵向量K的點積需先經(jīng)過Softmax再縮放B.縮放點積后需進行Mask操作才能輸入SoftmaxC.多頭注意力中每個頭的維度必須等于模型總維度D.自注意力計算復(fù)雜度與序列長度呈線性關(guān)系答案:B解析:在解碼器自注意力中,未來位置需被Mask;縮放因子為√d_k,點積后先Mask再Softmax,防止信息泄露。3.在強化學(xué)習(xí)中,若策略π滿足π(a|s)>0對所有s,a成立,則該策略被稱為A.貪婪策略B.確定性策略C.隨機策略D.平穩(wěn)策略答案:C解析:隨機策略對所有動作賦予非零概率,保證探索性;貪婪策略僅選擇最優(yōu)動作,概率為1。4.聯(lián)邦學(xué)習(xí)場景下,客戶端上傳本地模型梯度而非原始數(shù)據(jù),主要為了A.降低通信開銷B.提高模型精度C.保護用戶隱私D.加速服務(wù)器聚合答案:C解析:梯度相對原始數(shù)據(jù)更抽象,且可結(jié)合安全聚合協(xié)議,防止逆向推斷出用戶隱私。5.在圖神經(jīng)網(wǎng)絡(luò)中,GCN的一階近似卷積公式H^(l+1)=σ(D?^(1/2)A?D?^(1/2)H^(l)W^(l))中,A?表示A.原始鄰接矩陣B.添加自環(huán)的鄰接矩陣C.歸一化鄰接矩陣D.拉普拉斯矩陣答案:B解析:A?=A+I,引入自環(huán)使節(jié)點在更新時能保留自身信息,避免過度平滑。6.若一個二分類問題的數(shù)據(jù)集正負樣本比例為1:99,下列評價指標(biāo)最不敏感的是A.F1scoreB.AUCROCC.準確率D.平均精度(AP)答案:C解析:準確率受樣本比例影響極大,即使模型全部預(yù)測負類也能達99%,無法反映真實性能。7.在PyTorch中,以下代碼片段執(zhí)行后x.grad的值為```pythonx=torch.tensor(2.0,requires_grad=True)y=x3y.backward()```A.4B.6C.8D.12答案:D解析:dy/dx=3x2,x=2時導(dǎo)數(shù)為12;backward()自動計算并累加到x.grad。8.關(guān)于BERT的預(yù)訓(xùn)練任務(wù),下列說法錯誤的是A.MLM任務(wù)中15%的token被選中,其中80%替換為[MASK]B.NSP任務(wù)輸入為兩個句子,預(yù)測它們是否相鄰C.MLM任務(wù)使用交叉熵損失,忽略未掩碼位置D.RoBERTa去除了NSP任務(wù)并采用動態(tài)掩碼答案:A解析:15%選中token里80%替換為[MASK],10%隨機替換,10%不變,防止預(yù)訓(xùn)練與微調(diào)不一致。9.在AlphaGoZero中,蒙特卡洛樹搜索使用的先驗概率P(s,a)由哪個網(wǎng)絡(luò)輸出A.快速走子策略網(wǎng)絡(luò)B.價值網(wǎng)絡(luò)C.策略網(wǎng)絡(luò)D.殘差網(wǎng)絡(luò)答案:C解析:策略網(wǎng)絡(luò)f_θ(s)輸出先驗概率P(s,a),價值網(wǎng)絡(luò)輸出v(s)評估局面,二者共同指導(dǎo)MCTS。10.若將YOLOv5的IoU損失替換為CIoU損失,則新增懲罰項為A.中心點距離與對角線距離之比B.長寬比一致性C.重疊面積D.預(yù)測框置信度答案:B解析:CIoU在DIoU基礎(chǔ)上增加v=(4/π2)(arctan(wgt/hgt)arctan(w/h))2,懲罰長寬比不一致。二、多項選擇題(每題3分,共15分,多選少選均不得分)11.下列方法可用于緩解神經(jīng)網(wǎng)絡(luò)過擬合的是A.DropoutB.BatchNormalizationC.L2權(quán)重衰減D.早停(EarlyStopping)答案:ACD解析:Dropout隨機失活神經(jīng)元;L2正則化約束權(quán)重;早停防止訓(xùn)練過度;BN主要加速收斂,對過擬合作用有限。12.關(guān)于生成對抗網(wǎng)絡(luò),下列說法正確的是A.判別器損失越小,生成器梯度消失越嚴重B.WGAN使用Wasserstein距離替代JS散度C.模式崩塌(ModeCollapse)表現(xiàn)為生成樣本多樣性下降D.條件GAN通過將類別向量拼接至噪聲向量實現(xiàn)控制生成答案:ABCD解析:WGANcritic輸出標(biāo)量而非概率,梯度更平滑;模式崩塌指生成器僅輸出少數(shù)模式;條件信息可拼接或投影。13.在深度強化學(xué)習(xí)中,以下屬于“onpolicy”算法的是A.A3CB.PPOC.DDPGD.TRPO答案:ABD解析:onpolicy要求行為策略與目標(biāo)策略相同或近似;DDPG使用經(jīng)驗回放,屬于offpolicy。14.關(guān)于VisionTransformer(ViT),下列說法正確的是A.圖像塊線性投影后需添加位置編碼B.分類token僅與最后一層MLPHead連接C.使用LayerNorm而非BatchNormD.在小型數(shù)據(jù)集上通常需先大規(guī)模預(yù)訓(xùn)練答案:ACD解析:分類token貫穿所有層;LayerNorm對序列更穩(wěn)定;小數(shù)據(jù)集直接訓(xùn)練ViT易過擬合。15.下列關(guān)于模型壓縮技術(shù)描述正確的是A.知識蒸餾中溫度系數(shù)T越大,軟標(biāo)簽越平滑B.剪枝后需重新訓(xùn)練以恢復(fù)精度C.量化感知訓(xùn)練(QAT)將權(quán)重離散化嵌入前向傳播D.低秩分解將權(quán)重矩陣分解為兩個小矩陣相乘答案:ABCD解析:T→∞時分布趨均勻;剪枝破壞原優(yōu)化點,需微調(diào);QAT模擬量化誤差;低秩分解減少參數(shù)量。三、填空題(每空2分,共20分)16.若某卷積層輸入特征圖尺寸為112×112,步長為2,填充為3,卷積核大小為7×7,則輸出特征圖尺寸為________。答案:56×56解析:o=?(i+2pk)/s?+1=?(112+67)/2?+1=56。17.在PyTorch中,若模型參數(shù)存儲為FP32,占用的字節(jié)數(shù)為4,則一個參數(shù)量為1.2×10?的模型約占用________GB顯存。答案:4.47解析:1.2×10?×4÷10243≈4.47GB。18.若某GAN的生成器使用譜歸一化(SpectralNormalization),則其作用是約束網(wǎng)絡(luò)層權(quán)重矩陣的________范數(shù)。答案:譜(或2范數(shù))解析:譜歸一化將權(quán)重矩陣除以最大奇異值,使其Lipschitz常數(shù)≤1,穩(wěn)定訓(xùn)練。19.在LSTM中,遺忘門輸出值接近________時,表示細胞狀態(tài)信息被保留。答案:1解析:遺忘門f_t=σ(W_f·[h_(t1),x_t]+b_f),f_t→1時保留舊信息。20.若使用混合精度訓(xùn)練,損失縮放(lossscaling)因子為1024,反向傳播后發(fā)現(xiàn)梯度出現(xiàn)________,則需減小縮放因子。答案:溢出(或NaN/Inf)解析:FP16動態(tài)范圍小,梯度過小會下溢,過大則上溢,需動態(tài)調(diào)整縮放。21.在知識圖譜嵌入模型TransE中,若關(guān)系為“首都”,則期望滿足的向量等式為________。答案:h+r≈t解析:TransE假設(shè)h+r≈t,即頭實體加關(guān)系向量接近尾實體。22.若某深度網(wǎng)絡(luò)使用Swish激活函數(shù)f(x)=x·sigmoid(x),則其導(dǎo)數(shù)在x=0處的取值為________。答案:0.5解析:f'(x)=sigmoid(x)+x·sigmoid(x)(1sigmoid(x)),x=0時sigmoid(0)=0.5,故f'(0)=0.5。23.在AlphaFold2中,Evoformer模塊利用________注意力機制對多序列比對(MSA)和配對表示進行聯(lián)合更新。答案:軸向(或Axial)解析:軸向注意力沿序列方向和配對方向分別計算,降低O(N2)復(fù)雜度。24.若使用RandAugment進行數(shù)據(jù)增強,其兩個超參數(shù)分別為________和________。答案:N(變換個數(shù))、M(強度)解析:RandAugment從14種變換中隨機選N個,每個強度為M(010)。25.在聯(lián)邦學(xué)習(xí)FedAvg算法中,服務(wù)器對客戶端模型進行加權(quán)聚合時,權(quán)重通常取客戶端________。答案:本地數(shù)據(jù)量占比解析:加權(quán)平均保證全局梯度無偏,權(quán)重為n_k/Σn_k。四、簡答題(每題10分,共30分)26.描述DDPG算法中目標(biāo)網(wǎng)絡(luò)(targetnetwork)的更新方式,并說明為何采用軟更新而非硬更新。答案:DDPG維護兩套網(wǎng)絡(luò):主網(wǎng)絡(luò)θ^μ、θ^Q與目標(biāo)網(wǎng)絡(luò)θ^μ'、θ^Q'。軟更新采用指數(shù)滑動平均:θ'←τθ+(1τ)θ',其中τ?1(通常0.005)。原因:(1)硬更新(每隔固定步長直接復(fù)制)會導(dǎo)致策略突變,破壞訓(xùn)練穩(wěn)定性;(2)軟更新使目標(biāo)網(wǎng)絡(luò)參數(shù)緩慢跟蹤主網(wǎng)絡(luò),相當(dāng)于在時序上平滑目標(biāo),減少非平穩(wěn)性,提高收斂穩(wěn)定性;(3)經(jīng)驗回放中的樣本由舊策略生成,軟更新保證目標(biāo)值變化連續(xù),與回放數(shù)據(jù)分布差異更小。27.解釋VisionTransformer中“圖像塊嵌入+位置編碼”如何保留二維空間結(jié)構(gòu),并分析為何使用可學(xué)習(xí)1D位置編碼仍能獲得良好效果。答案:ViT將圖像切分為16×16塊,線性投影為D維向量,形成序列。為保留空間信息,需添加位置編碼E_pos∈R^(N×D)。(1)1D可學(xué)習(xí)編碼:按光柵順序編號0~N1,每個索引對應(yīng)D維向量,通過訓(xùn)練學(xué)習(xí)。(2)保留二維結(jié)構(gòu):雖然編碼為1D,但自注意力機制具有排列等變性,模型可通過學(xué)習(xí)將相鄰索引的向量映射到相近表示,間接編碼局部鄰接關(guān)系;同時,高層注意力頭可捕獲全局依賴。(3)良好效果原因:a.大規(guī)模預(yù)訓(xùn)練提供充足數(shù)據(jù),使模型足以學(xué)習(xí)隱式2D結(jié)構(gòu);b.多頭注意力機制允許不同頭關(guān)注不同距離,近似卷積的局部歸納偏置;c.現(xiàn)代ViT引入更精細的2Daware編碼(如2Dsinusoid、相對位置)可進一步提升,但1D已足夠在ImageNet上取得SOTA,說明數(shù)據(jù)驅(qū)動可彌補歸納偏置不足。28.對比批歸一化(BatchNorm)與層歸一化(LayerNorm)在計算方式、統(tǒng)計量、適用場景三方面的差異,并說明為何Transformer選擇LayerNorm。答案:(1)計算方式:BN:對同一通道、跨樣本、跨空間位置求均值方差,輸出=(xμ_B)/√(σ2_B+ε)·γ+β;LN:對同一樣本、跨特征維度求均值方差,輸出=(xμ_L)/√(σ2_L+ε)·γ+β。(2)統(tǒng)計量:BN依賴minibatch,訓(xùn)練時實時計算,推理時用移動平均;LN無batch維度,訓(xùn)練和推理一致。(3)適用場景:BN適合CNN,批量大且固定;LN適合RNN、Transformer,序列長度可變,批量小。Transformer選擇LN原因:a.序列長度常變,BN統(tǒng)計量不穩(wěn)定;b.推理時batchsize可能為1,BN退化;c.LN對特征維度歸一化,與自注意力機制配合,消除不同維度尺度差異,加速收斂;d.LayerNorm無batch依賴,更利于分布式訓(xùn)練與動態(tài)圖。五、計算與推導(dǎo)題(每題15分,共45分)29.給定一個三分類問題,softmax輸出為p=[0.7,0.2,0.1],真實標(biāo)簽onehot為y=[0,1,0]。(1)計算交叉熵損失L_CE;(2)求損失對softmax輸入z的梯度?L/?z;(3)若使用標(biāo)簽平滑(labelsmoothingε=0.1),求新標(biāo)簽y'及新?lián)p失L'_CE。答案:(1)L_CE=Σy_ilogp_i=log0.2≈1.6094(2)?L/?z_i=p_iy_i,故梯度=[0.7,0.8,0.1](3)y'=(1ε)y+ε/K=[0.0333,0.9,0.0667]L'_CE=Σy'_ilogp_i=0.9log0.20.0667log0.1≈1.49630.考慮一個二維線性可分數(shù)據(jù)集,正例位于(1,1)、(2,2),負例位于(2,0)、(3,1)。使用硬間隔SVM,求最優(yōu)超平面方程w^Tx+b=0,并計算幾何間隔γ。答案:支持向量為(2,2)與(2,0)。中垂線方向為y軸,故w∝(0,1)。設(shè)w=(0,1),則對正例:1·2+b=1?b=1;對負例:1·0+b=1?b=1。超平面:y1=0。幾何間隔γ=2/‖w‖=2/1=2。31.在PPOclip目標(biāo)函數(shù)中,給定舊策略π_θ_old、新策略π_θ,優(yōu)勢函數(shù)A_t=G_tV(s_t),clip區(qū)間為[1ε,1+ε],ε=0.2。(1)寫出目標(biāo)函數(shù)L^CLIP(θ);(2)若r_t(θ)=π_θ(a_t|s_t)/π_θ_old(a_t|s_t)=1.3,A_t=0.5,求clip前后兩項值;(3)說明clip操作如何防止策略更新過大。答案:(1)L^CLIP(θ)=E[min(r_t(θ)A_t,clip(r_t(θ),1ε,1+ε)A_t)](2)未clip項:1.3×0.5=0.65;clip項:clip(1.3,0.8,1.2)=1.2,故clip后1.2×0.5=0.6(3)當(dāng)r_t>1+ε且A_t>0時,clip將目標(biāo)值限制為(1+ε)A_t,使梯度在此區(qū)域為零,阻止θ繼續(xù)增大該動作概率,避免策略突變導(dǎo)致性能崩潰。六、綜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論