2025年人工智能基礎知識考核試卷及答案_第1頁
2025年人工智能基礎知識考核試卷及答案_第2頁
2025年人工智能基礎知識考核試卷及答案_第3頁
2025年人工智能基礎知識考核試卷及答案_第4頁
2025年人工智能基礎知識考核試卷及答案_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2025年人工智能基礎知識考核及答案一、單項選擇題(每題2分,共30分)1.在深度學習訓練過程中,當驗證集損失連續(xù)5個epoch不再下降,而訓練集損失仍在緩慢降低,此時最應該優(yōu)先嘗試的策略是A.增大學習率B.減小批尺寸C.加入L2正則化并啟用早停D.增加網絡深度答案:C。驗證集損失停滯而訓練集損失下降是典型過擬合信號,L2正則化與早停可直接緩解。2.下列關于Transformer自注意力機制的說法正確的是A.查詢向量Q與鍵向量K的點積結果直接作為輸出B.縮放點積因子dk?的引入是為了防止梯度消失C.掩碼自注意力允許當前位置看到未來tokenD.多頭機制擴展了模型在不同子空間捕捉信息的能力答案:D。多頭并行計算不同表示子空間,增強表達能力。3.聯(lián)邦學習中“模型參數(shù)泄露”風險主要指A.中央服務器被攻擊B.參與方上傳的梯度或權重可能暴露原始數(shù)據特征C.通信鏈路被竊聽D.本地模型更新太慢答案:B。梯度/權重與原始數(shù)據存在隱式映射,可被逆向推斷。4.在DDPG算法中,目標網絡軟更新系數(shù)τ通常設為0.005,其作用是A.加快主網絡收斂B.提高探索率C.穩(wěn)定訓練過程,避免目標Q值震蕩D.減小經驗回放內存占用答案:C。軟更新使目標網絡緩慢跟蹤主網絡,穩(wěn)定訓練。5.若將BERT-base的隱藏層維度從768壓縮至384,參數(shù)量約減少A.25%B.50%C.75%D.不變答案:C。注意力權重矩陣參數(shù)量與d2成正比,近似減少75%。6.在目標檢測任務中,YOLOv8引入的“anchor-free”機制主要解決了A.小目標漏檢B.anchor與目標形狀不匹配導致的定位偏差C.正負樣本不均衡D.后處理NMS耗時答案:B。直接預測中心點與寬高,避免預設anchor帶來的匹配誤差。7.下列關于DiffusionModel的描述錯誤的是A.前向過程固定為馬爾可夫高斯加噪B.反向去噪網絡訓練完成后采樣需多步迭代C.似然計算可直接用變分下界得到精確值D.DDIM采樣可在更少步數(shù)下生成高質量樣本答案:C。變分下界是近似,非精確似然。8.在強化學習中,使用重要性采樣比率ρ=π(a|s)/b(a|s)進行離線策略評估時,若行為策略b與目標策略π差異過大,最可能出現(xiàn)A.高方差B.高偏差C.收斂加速D.樣本效率提升答案:A。重要性權重可能極端,導致估計方差爆炸。9.在模型蒸餾中,溫度參數(shù)T→∞時,軟標簽分布趨近A.均勻分布B.狄拉克δ分布C.原logitsD.硬標簽答案:A。溫度越高,softmax輸出越平滑,趨近均勻。10.當使用混合精度訓練時,下列哪項操作最可能引發(fā)梯度下溢A.在FP16下計算lossB.在FP32下更新權重C.對梯度進行L2范數(shù)裁剪D.使用動態(tài)損失放大答案:A。FP16動態(tài)范圍小,loss過小會下溢。11.在圖神經網絡中,GCN的層數(shù)過深導致性能下降的主要原因是A.過擬合B.過平滑C.梯度消失D.參數(shù)量爆炸答案:B。節(jié)點表示隨層數(shù)增加趨于一致,區(qū)分度下降。12.下列關于PromptTuning的敘述正確的是A.需更新全部預訓練參數(shù)B.軟提示向量在輸入層拼接C.硬提示由反向傳播優(yōu)化D.只適用于生成任務答案:B。軟提示作為可訓練向量與輸入拼接,凍結主干。13.在AutoML中,超參優(yōu)化方法TPE基于A.高斯過程B.樹形Parzen估計C.遺傳算法D.強化學習答案:B。TPE用非參數(shù)密度估計建模超參表現(xiàn)。14.當使用8-bit量化時,權重范圍[-1,1]被線性映射至[-128,127],若某權重0.3對應的量化值為A.38B.39C.40D.41答案:B。round(0.3×127)=38.1→38,但對稱量化零點為0,故38。15.在對比學習SimCLR中,批尺寸從256增至4096,線性評估準確率提升的主要原因是A.更多負樣本B.更大的學習率C.更強的數(shù)據增強D.更少的訓練輪次答案:A。負樣本數(shù)量隨批尺寸線性增加,對比信號增強。二、多項選擇題(每題3分,共30分,多選少選均不得分)16.下列哪些技術可有效緩解LLM推理時的顯存占用A.KV-cache復用B.梯度檢查點C.8-bit權重量化D.連續(xù)批處理答案:A、C、D。梯度檢查點用于訓練,不減少推理顯存。17.關于VisionTransformer,下列說法正確的有A.位置編碼可采用二維插值適應不同分辨率B.分類token在所有層與patchtoken交互C.自注意力計算復雜度與圖像像素數(shù)呈線性關系D.使用LayerNorm而非BatchNorm答案:A、B、D。復雜度為O(n2d),n=patch數(shù),非像素。18.在AlphaGoZero中,下列哪些組件被完全舍棄A.人類棋譜B.手工特征C.蒙特卡洛樹搜索D.卷積神經網絡答案:A、B。Zero版本無需人類知識,僅MCTS+神經網絡。19.以下屬于可解釋性方法且可直接得到輸入特征重要性的有A.SHAPB.Grad-CAMC.LIMED.注意力可視化答案:A、B、C。注意力僅為相關性,非因果。20.在聯(lián)邦學習FedAvg中,客戶端本地epoch數(shù)E過大可能導致A.全局模型發(fā)散B.通信輪次減少C.客戶端計算負擔增加D.數(shù)據異構性影響加劇答案:A、C、D。E大不會減少通信輪次,反而可能因發(fā)散需更多輪次。21.下列關于自監(jiān)督學習的敘述正確的有A.對比學習依賴負樣本B.生成式方法無需負樣本C.掩碼圖像建模屬于生成式D.自監(jiān)督預訓練權重可直接用于下游任務無需微調答案:A、B、C。通常仍需微調,D錯誤。22.在模型壓縮技術中,下列哪些方法屬于結構化剪枝A.通道剪枝B.神經元剪枝C.權重矩陣低秩分解D.稀疏模式非結構化剪枝答案:A、B、C。D為非結構化。23.關于強化學習中的獎勵塑形,下列說法正確的有A.可加速收斂B.可能改變最優(yōu)策略C.需保持勢函數(shù)滿足最優(yōu)策略不變性D.與課程學習無關答案:A、B、C。獎勵塑形可與課程學習結合,D錯誤。24.在DiffusionModel加速采樣中,下列哪些方法可將步數(shù)降至50以下A.DDIMB.DPM-SolverC.知識蒸餾訓練小步網絡D.提高噪聲調度βt答案:A、B、C。提高βt會加劇樣本質量下降,非加速。25.下列關于LoRA微調的說法正確的有A.在注意力權重旁引入低秩旁路B.推理時可合并旁路,零額外延遲C.秩r越大,可恢復全量微調效果D.只適用于Transformer答案:A、B、C。LoRA可推廣至CNN,D錯誤。三、判斷題(每題1分,共10分,正確打“√”,錯誤打“×”)26.使用ReLU激活的深層網絡一定不會出現(xiàn)梯度消失。答案:×。ReLU在負半軸梯度為零,深層仍可能梯度消失。27.在圖注意力網絡GAT中,不同注意力頭可以共享權重矩陣。答案:×。每頭獨立線性變換,不共享。28.模型剪枝后稀疏度越高,越適合在通用GPU上獲得加速。答案:×。非結構化稀疏需專用硬件才能加速。29.對比學習中的InfoNCE損失可看作交叉熵的特例。答案:√。InfoNCE將正樣本視為一類,負樣本為其余類。30.在DDPG中,確定性策略梯度定理比隨機策略梯度方差更低。答案:√。確定性策略無需對動作積分,方差小。31.BatchNorm在RNN的循環(huán)連接上同樣有效。答案:×。循環(huán)動態(tài)導致統(tǒng)計量不穩(wěn)定,需LayerNorm。32.使用混合專家模型MoE可在不增加推理時間的前提下擴大參數(shù)量。答案:√。稀疏激活僅部分專家參與計算。33.在VisionTransformer中,去掉位置編碼對分類任務幾乎無影響。答案:×。無位置編碼會丟失空間結構,準確率顯著下降。34.聯(lián)邦學習中的安全聚合協(xié)議可防止中央服務器看到任何客戶端的明文梯度。答案:√。通過同態(tài)加密或秘密共享實現(xiàn)。35.擴散模型的前向加噪過程是可逆的馬爾可夫鏈。答案:×。前向過程固定且不可逆,反向才學習去噪。四、填空題(每空2分,共20分)36.在Transformer中,自注意力計算采用縮放點積,縮放因子為________。答案:dk??,其中dk?為查詢向量維度。37.若某卷積層輸入通道64,輸出通道128,卷積核3×3,偏置=True,則參數(shù)量為________。答案:(64×3×3+1)×128=73984。38.在PyTorch中,將模型平均精度AMP從FP32切換至BF16,需調用的上下文管理器為________。答案:torch.cuda.amp.autocast(dtype=torch.bfloat16)。39.在強化學習策略梯度定理中,目標函數(shù)J(θ)對參數(shù)θ的梯度可寫為________。答案:?θ?J(θ)=Eπ?[?θ?logπθ?(a∣s)Qπ(s,a)]。40.當使用知識蒸餾,教師模型logits為zT?,學生為zS?,溫度T=4,則軟標簽損失為________。答案:KL(softmax(zT?/4)∥softmax(zS?/4))。41.在VisionTransformer中,輸入圖像224×224,patch大小16×16,則patchtoken數(shù)量為________。答案:(224/16)2=196。42.若某模型FP32訓練占用顯存12GB,采用DeepSpeedZeRO-3將優(yōu)化器、梯度、參數(shù)全部分片至8卡,則每卡顯存約________GB。答案:12/8=1.5GB。43.在對比學習中,若批尺寸為N,則InfoNCE損失的分母項包含________個負樣本。答案:N?1。44.擴散模型反向去噪網絡通常預測________,而非直接預測原始圖像。答案:噪聲ε。45.在聯(lián)邦學習FedProx中,近端項系數(shù)μ越大,本地更新越________。答案:保守(或接近初始全局模型)。五、簡答題(每題10分,共30分)46.描述FlashAttention的核心思想,并說明其如何將注意力內存復雜度從O(n2)降至O(n)。答案:FlashAttention通過分塊(tile)計算softmax,將注意力矩陣從顯存中完全物化改為在線計算。具體步驟:1)將Q、K、V按行塊加載到GPU高速共享內存;2)在每個塊內計算局部注意力得分,立即得到局部softmax的歸一化因子;3)利用數(shù)值穩(wěn)定的softmax更新公式,將塊結果逐步合并到全局統(tǒng)計量,避免存儲n×n矩陣;4)輸出時僅保存O(n)的O、L、M向量。由于無需存儲完整注意力矩陣,顯存占用與序列長度n呈線性關系,同時利用共享內存提升計算強度,實現(xiàn)內存與速度雙優(yōu)化。47.闡述強化學習人類反饋(RLHF)三階段流程,并指出每階段的關鍵技術細節(jié)。答案:階段1:獎勵建模。收集同一提示下多條模型輸出,由人類標注偏好排序,訓練Bradley-Terry獎勵模型rθ(x,y)。關鍵:使用交叉熵損失最大化偏好對似然,引入正則項防止過擬合。階段2:強化學習微調。凍結獎勵模型,將語言模型視為策略π??,以最大化E[rθ(x,y)?βKL(π??∥πref?)]為目標,采用PPO算法。關鍵:使用KL懲罰防止策略偏離參考模型πref?太遠,采用廣義優(yōu)勢估計GAE降低方差。階段3:拒絕采樣迭代。用微調后模型生成多候選,經獎勵模型篩選高分樣本,再監(jiān)督微調SFT,形成自我迭代。關鍵:動態(tài)更新πref?,控制分布漂移,確保人類偏好持續(xù)對齊。48.說明混合專家模型(MoE)中“專家容量因子”(capacityfactor)的定義,并分析其過大或過小對訓練與推理的影響。答案:專家容量因子=每個專家可處理的最大token數(shù)/平均負載token數(shù)。影響:1)過大:計算冗余增加,顯存與延遲上升,但負載不均衡容忍度高,路由dropout減少,訓練穩(wěn)定;2)過小:專家溢出頻繁,token被丟棄導致信息丟失,訓練信號不足,模型性能下降,推理時輸出不完整。實踐中常取1.0~1.25,通過動態(tài)路由損失(auxiliaryloadbalancingloss)調節(jié),使專家負載均衡且不過度浪費計算。六、計算與推導題(共30分)49.(10分)給定一個兩層的全連接神經網絡,輸入維度d?=512,隱藏層d?=1024,輸出維度d?=10,使用ReLU激活與交叉熵損失。若采用雅可比矩陣Frobenius范數(shù)計算對抗訓練擾動ε=0.01,求輸入樣本x∈R512的最大擾動范數(shù)上界。答案:設網絡映射f(x)=W?ReLU(W?x+b?)+b?。雅可比J=?f/?x=W?diag(??[W?x+b?>0])W??!琂‖F(xiàn)?≤‖W?‖F(xiàn)??‖W?‖F(xiàn)?。假設權重服從N(0,2/fan_in?)初始化,則‖W?‖F(xiàn)?≈512×1024×2/512?=1024,‖W?‖F(xiàn)?≈1024×10×2/1024?=4.47。因此‖J‖F(xiàn)?≤1024×4.47≈4580。最大擾動上界ε·‖J‖F(xiàn)?≈0.01×4580=45.8。即輸入擾動范數(shù)不超過45.8時,輸出變化上限由ε·‖J‖F(xiàn)?控制。50.(10分)在擴散模型中,已知前向過程方差調度βt?線性增加至0.02,T=1000。求q(xt?∣x??)的方差αˉt?,并計算t=500時xt?的SNR(信噪比)。答案:βt?=t/T?0.02,αt?=1?βt?,αˉt?=∏i=1t?αi?。取對數(shù)lnαˉt?=∑i=1t?ln(1?i?0.02/T)≈?0.02/T?t(t+1)/2。代入t=500,lnαˉ500?≈?0.02/1000?500×501/2=?2.505,αˉ500?≈e?2.505≈0.0816。SNR=αˉt?/(1?αˉt?)=0.0816/0.9184≈0.0888。51.(10分)給定一個批尺寸為32的對比學習場景,特征維度128,溫度τ=0.1,計算InfoNCE損失的梯度范數(shù)上界。答案:設歸一化特征zi?,余弦相似度sij?=zi??zj?/τ。InfoNCE損失Li?=?logexp(sii?)/∑j?exp(sij?)。梯度?Li?/?zi?=(pi????i=j)zj?/τ,其中pi?=softmax(sij?)。范數(shù)‖?Li?/?zi?‖≤(1+maxpi?)‖zj?‖/τ≤2/τ=20。因此單樣本梯度范數(shù)上界為20,批總上界32×20=640。七、綜合應用題(共30分)52.(15分)某企業(yè)需在邊緣設備部署實時目標檢測模型,要求幀率≥30FPS,顯存≤2GB,mAP≥35。給定YOLOv8-nano(1.2GB,25mAP,45FPS)、YOLOv8-small(2.5GB,38mAP,22FPS)。請設計一套壓縮與加速方案,并給出量化指標。答案:方案:1)通道剪枝:對YOLOv8-small執(zhí)行基于BN縮放因子的結構化剪枝,剪枝率40%,顯存

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論