版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2025年人工智能基礎試題及答案一、單項選擇題(每題2分,共20分。每題只有一個正確答案,錯選、多選、未選均不得分)1.在深度學習中,若將ReLU激活函數(shù)全部替換為Sigmoid,下列關于梯度流動的描述最準確的是A.梯度消失問題會顯著緩解B.梯度爆炸問題會顯著加劇C.深層網(wǎng)絡反向傳播時梯度仍可能指數(shù)級衰減D.梯度將保持恒等映射,網(wǎng)絡可訓練任意深度答案:C解析:Sigmoid導數(shù)最大值僅為0.25,連乘后梯度指數(shù)級衰減,ReLU在正區(qū)間導數(shù)為1,可緩解但無法根除梯度消失;替換后反而使問題重現(xiàn)。2.在Transformer架構中,MaskedMultiHeadAttention模塊在訓練階段的主要作用是A.防止未來信息泄露B.降低注意力計算復雜度C.增強Encoder與Decoder交互D.實現(xiàn)跨層參數(shù)共享答案:A解析:解碼器在生成第t個詞時只能看到1…t1位置,掩碼將t及之后位置設為?∞,softmax后概率歸零,確保自回歸特性。3.若使用Adam優(yōu)化器訓練GAN,生成器與判別器共享同一學習率,下列最可能導致模式崩塌(modecollapse)的初始學習率是A.1e4B.2e4C.5e4D.1e3答案:D解析:GAN需維持微妙平衡,過高學習率使判別器損失迅速震蕩,生成器梯度方向失真,易陷入單一模式輸出。4.在聯(lián)邦學習場景下,客戶端上傳本地模型梯度而非參數(shù),主要防范的安全威脅是A.模型逆向推斷B.成員推理攻擊C.梯度泄露原始數(shù)據(jù)D.后門投毒答案:C解析:梯度與原始數(shù)據(jù)呈線性關系,若上傳完整梯度,攻擊者可通過優(yōu)化求解近似恢復輸入,上傳參數(shù)或加噪梯度可降低風險。5.在AlphaGoZero的自對弈強化學習中,用于評估局面優(yōu)劣的網(wǎng)絡稱為A.SL策略網(wǎng)絡B.RL策略網(wǎng)絡C.價值網(wǎng)絡D.快速走子網(wǎng)絡答案:C解析:價值網(wǎng)絡輸出當前局面勝率,與蒙特卡洛樹搜索結(jié)合指導動作選擇,SL策略網(wǎng)絡僅用于初代AlphaGo。6.若將BERTbase的隱藏層維度從768降至256,參數(shù)量約減少A.25%B.40%C.60%D.75%答案:C解析:參數(shù)量主要集中在注意力權重與FeedForward,維度d與參數(shù)量近似平方關系,(256/768)2≈0.11,但Embedding層不變,綜合約減60%。7.在DiffusionModel前向加噪過程中,若設置T=1000,β_t線性遞增,下列關于采樣速度提升技巧描述正確的是A.DDIM可在50步內(nèi)生成近似樣本B.必須重新訓練模型才能減少步數(shù)C.降低T會顯著增加似然值D.只能使用高階ODE求解器答案:A解析:DDIM通過非馬爾可夫ian構造,固定訓練后調(diào)整采樣步數(shù),保持生成質(zhì)量,無需重訓。8.在VisionTransformer中,位置編碼采用二維插值后輸入尺寸變?yōu)樵瓉?倍,分類token仍放在第0位,則新序列長度是A.4×原長B.2×原長+1C.保持原長D.4×原長?3答案:B解析:ViT序列長度=patch數(shù)+1,圖像邊長翻倍后patch數(shù)×4,序列長度=4N+1,原長N+1,故為2×原長+1近似。9.在模型蒸餾中,若教師模型輸出softmax溫度τ=4,學生模型τ=1,下列關于損失函數(shù)設計正確的是A.蒸餾損失權重應隨τ增大而減小B.蒸餾損失與交叉熵損失不可同時存在C.必須對學生logits再次升溫后計算KL散度D.蒸餾損失只與正確類別概率相關答案:C解析:為匹配教師分布,學生logits需除以相同τ,再計算softtarget的KL散度,否則分布尺度不一致。10.在AutoML中,采用權重共享的OneShotNAS方法,超級網(wǎng)絡訓練完成后,下列關于子模型性能估計正確的是A.共享權重可直接反映子模型真實精度B.需重新訓練子模型才能得到無偏估計C.性能排序與獨立訓練完全一致D.超級網(wǎng)絡深度越深排序越可靠答案:B解析:權重共享帶來共適應偏差,超級網(wǎng)絡權重對子模型為次優(yōu),需微調(diào)或重訓以消除估計偏差。二、多項選擇題(每題3分,共15分。每題有兩個或以上正確答案,多選、少選、錯選均不得分)11.下列關于PyTorch自動求圖(autograd)的描述正確的有A.葉子節(jié)點requires_grad默認為TrueB.調(diào)用detach()會阻斷梯度回傳C.原位操作可能導致梯度錯誤D.設置torch.no_grad()可節(jié)省顯存答案:B、C、D解析:葉子節(jié)點requires_grad需手動指定;detach()創(chuàng)建新張量,梯度流中斷;原位修改可能覆蓋中間結(jié)果,使梯度計算失效;no_grad關閉求圖,減少中間緩存。12.在目標檢測任務中,YOLOv7相對YOLOv4的改進包括A.引入EELAN模塊B.使用AnchorFree分支C.采用動態(tài)標簽分配策略D.加入Transformer編碼器答案:A、C解析:YOLOv7提出EELAN增強梯度流,使用OTA動態(tài)匹配;仍保持anchorbased,未引入Transformer。13.下列技術可用于緩解LLM推理時顯存占用的有A.GradientCheckpointingB.KVCache壓縮C.8bit量化D.FlashAttention答案:B、C、D解析:Checkpointing用于訓練;KVCache存儲歷史鍵值,可裁剪或量化;8bit權重降低顯存;FlashAttention通過分塊減少峰值。14.在圖神經(jīng)網(wǎng)絡中,下列關于過平滑(oversmoothing)現(xiàn)象的描述正確的有A.隨著層數(shù)增加,節(jié)點特征趨于一致B.加入殘差連接可緩解C.使用個性化PageRank可緩解D.過平滑只出現(xiàn)在無向圖答案:A、B、C解析:過平滑與圖結(jié)構無關,有向圖同樣存在;殘差保留初始特征;個性化PageRank引入自環(huán)權重,減緩收斂到同一子空間。15.在強化學習PPO算法中,下列操作可提升樣本效率的有A.使用GAE估計優(yōu)勢函數(shù)B.增加Clipping范圍C.采用ValueClippingD.使用LSTM策略網(wǎng)絡答案:A、C解析:GAE平衡方差與偏差;ValueClipping穩(wěn)定Critic;Clipping范圍過大反而破壞保守策略;LSTM增加復雜度但未必提升樣本效率。三、判斷題(每題1分,共10分。正確請?zhí)睢啊獭?,錯誤填“×”)16.在卷積神經(jīng)網(wǎng)絡中,空洞卷積(dilatedconvolution)可在不增加參數(shù)的前提下擴大感受野。答案:√解析:空洞卷積在核元素間插入零,等效擴大卷積核尺寸,參數(shù)量不變。17.LSTM的門控機制使其在反向傳播時梯度不可能大于1,因此徹底解決了梯度爆炸問題。答案:×解析:遺忘門輸出接近1時,梯度仍可累積大于1,需通過梯度裁剪抑制爆炸。18.在VisionTransformer中,去掉分類token,改用全局平均池化,模型仍可收斂且精度幾乎無損。答案:√解析:DeiT等實驗表明GAP可替代clstoken,精度差異在0.1%以內(nèi)。19.對比學習損失InfoNCE在負樣本數(shù)量趨于無窮時,其梯度范數(shù)趨于零,導致無法優(yōu)化。答案:×解析:InfoNCE梯度非零,負樣本越多,分母越大,梯度變小但仍可訓練,需適當溫度縮放。20.在模型并行訓練中,PipelineBubble的大小與microbatch數(shù)量成反比。答案:√解析:增加microbatch可填充空閑時間,Bubble占比降低,呈反比關系。21.使用混合精度訓練時,損失縮放(lossscaling)是為了防止半精度下梯度下溢。答案:√解析:fp16動態(tài)范圍小,乘以大系數(shù)后回傳,再縮放權重更新,避免極小梯度歸零。22.在DiffusionModel中,DDPM的反向過程若采用確定性ODE,則不再具有隨機性,生成樣本多樣性為零。答案:×解析:DDIM為確定性采樣,但仍可通過不同初始噪聲生成多樣樣本,多樣性非零。23.在聯(lián)邦平均(FedAvg)中,本地epoch越多,全局模型收斂速度一定越快。答案:×解析:本地epoch過多導致客戶端漂移,非IID數(shù)據(jù)下反而減慢收斂甚至發(fā)散。24.在自監(jiān)督學習中,數(shù)據(jù)增強強度越大,下游任務性能一定越好。答案:×解析:過強增強破壞語義信息,如將圖像旋轉(zhuǎn)90°對物體識別無益,需適度。25.在AlphaFold2中,Evoformer模塊利用MSA與配對表示共同更新,以提升結(jié)構預測精度。答案:√解析:Evoformer交替更新MSA表示與配對矩陣,捕獲共進化信息,是AlphaFold2核心。四、填空題(每空2分,共20分)26.在ResNet中,若輸入特征圖尺寸為56×56×64,經(jīng)過stride=2、kernel=3×3、padding=1的卷積后,輸出尺寸為________。答案:28×28×64解析:輸出尺寸公式?(N?K+2P)/S?+1,(56?3+2)/2+1=28。27.若Transformer模型隱藏維度為512,注意力頭數(shù)為8,則每個頭的維度為________。答案:64解析:512/8=64。28.在DDPM中,若前向過程方差schedule采用線性β_t∈[1e4,0.02],則β_500=________(保留6位小數(shù))。答案:0.010100解析:線性插值,β_t=1e4+(0.02?1e4)×500/1000=0.010100。29.在PyTorch中,若模型參數(shù)總量為1.2億,采用fp16存儲,則理論顯存占用約為________MB(不考慮緩存與優(yōu)化)。答案:228.88解析:1.2×10^8×2字節(jié)=2.4×10^8字節(jié)≈228.88MB。30.在ImageNet上,Top1精度為85.2%,錯誤率為________%。答案:14.8解析:100?85.2=14.8。31.在強化學習中,折扣因子γ=0.99,則100步后的獎勵權重為________(保留4位小數(shù))。答案:0.3660解析:γ^100=0.99^100≈0.3660。32.若使用4卡GPU做數(shù)據(jù)并行,全局batchsize=256,則每卡有效batchsize為________。答案:64解析:256/4=64。33.在BERT預訓練中,掩碼語言模型(MLM)的掩碼比例為________%。答案:15解析:原文掩碼15%的token,其中80%用[MASK],10%隨機,10%不變。34.在YOLOv5中,輸入圖像尺寸為640×640,下采樣32倍后特征圖尺寸為________。答案:20×20解析:640/32=20。35.在知識蒸餾中,若教師模型對某樣本輸出概率分布為[0.05,0.90,0.05],學生輸出[0.30,0.50,0.20],溫度τ=3,則軟目標損失項的KL散度為________(保留4位小數(shù))。答案:0.3485解析:計算soft(q/τ)與soft(p/τ)的KL,得0.3485。五、簡答題(每題10分,共30分)36.描述VisionTransformer(ViT)中PatchEmbedding的實現(xiàn)細節(jié),并說明為何在中小數(shù)據(jù)集上表現(xiàn)不如ResNet,給出至少兩種改進方案。答案:實現(xiàn)細節(jié):輸入圖像H×W×3,分割為N個P×P不重疊patch,N=HW/P2;每個patch展平為3P2維向量,經(jīng)線性投影(權重矩陣E∈?^(3P2×D))映射到D維,得到N個patchtoken;為保留位置信息,加入可學習1D位置編碼E_pos∈?^(N+1)×D;額外引入可學習分類tokencls,與patchtoken拼接成(N+1)×D輸入Transformer。中小數(shù)據(jù)集劣勢:ViT缺乏CNN歸納偏置(局部性、平移等變性),需大量數(shù)據(jù)學習;patch內(nèi)局部信息被壓縮為單向量,小數(shù)據(jù)易過擬合。改進方案:1.混合架構:前段采用lightweightCNN(如ConvStem)提取低層特征,再輸入Transformer,兼顧局部偏置與全局建模。2.數(shù)據(jù)高效訓練:使用強數(shù)據(jù)增強(RandAugment、MixUp、CutMix)、正則化(DropPath、StochasticDepth)及更長的預訓練schedule;或采用自監(jiān)督預訓練(MoCov3、DINO)提升泛化。3.局部窗口注意力:如SwinTransformer引入shiftedwindow,降低數(shù)據(jù)需求。4.知識蒸餾:使用CNN教師(如RegNet)指導ViT學生,彌補歸納偏置不足。37.闡述擴散模型(DiffusionModel)與VAE在隱變量推斷上的本質(zhì)區(qū)別,并推導DDPM的簡化訓練目標L_simple。答案:本質(zhì)區(qū)別:VAE需學習可逆編碼器q(z|x)與解碼器p(x|z),通過變分下界優(yōu)化,隱變量z維度通常遠小于x;DDPM前向過程固定為馬爾可夫加噪,無需學習q,反向過程學習去噪網(wǎng)絡p_θ(x_{t1}|x_t),隱變量維度與數(shù)據(jù)相同,推斷過程為逐步去噪。推導:前向:q(x_t|x_{t1})=N(x_t;√(1?β_t)x_{t1},β_tI),令α_t=1?β_t,α?_t=∏_{i=1}^tα_i,可得q(x_t|x_0)=N(x_t;√α?_tx_0,(1?α?_t)I)。反向:p_θ(x_{t1}|x_t)=N(x_{t1};μ_θ(x_t,t),Σ_θ(x_t,t))。變分下界:L_vlb=??_q[?logp_θ(x_0|x_1)+∑_{t=2}^TD_KL(q(x_{t1}|x_t,x_0)||p_θ(x_{t1}|x_t))]。利用重參數(shù):x_t(x_0,ε)=√α?_tx_0+√(1?α?_t)ε,ε~N(0,I),可證KL項為MSE:??_{x_0,ε}[||ε?ε_θ(√α?_tx_0+√(1?α?_t)ε,t)||2]。忽略加權系數(shù)得簡化目標:L_simple=??_{t,x_0,ε}[||ε?ε_θ(x_t,t)||2],即網(wǎng)絡直接預測噪聲。38.解釋PPO算法中ClippedSurrogateObjective的動機,并給出偽代碼,說明clip系數(shù)ε對訓練穩(wěn)定性的影響。答案:動機:傳統(tǒng)策略梯度使用重要性采樣,步長過大導致策略分布劇變,樣本效率低;PPO通過限制新策略與舊策略的概率比r_t(θ)=π_θ(a_t|s_t)/π_{θ_old}(a_t|s_t)落在[1?ε,1+ε]內(nèi),避免過大更新,保持單調(diào)改進。偽代碼:1.收集軌跡D={s_t,a_t,r_t}使用π_{θ_old}2.計算優(yōu)勢A_tusingGAE3.forepoch=1…K:??forminibatchinD:????計算r_t(θ)=π_θ(a_t|s_t)/π_{θ_old}(a_t|s_t)????L^CLIP(θ)=min(r_t(θ)A_t,clip(r_t(θ),1?ε,1+ε)A_t)????L^VF=(V_θ(s_t)?R_t)^2????L=L^CLIP?c_1L^VF+c_2H(π_θ)????梯度上升更新θ4.θ_old←θε影響:ε過小,策略更新保守,學習慢;ε過大,clip失效,策略震蕩。通常取0.1~0.2,需與KL散度監(jiān)控結(jié)合,動態(tài)調(diào)整。六、編程與計算題(共45分)39.(15分)給定一個簡化的自注意力模塊,輸入序列長度n=4,隱藏維度d=8,頭數(shù)h=2。請用NumPy實現(xiàn)單頭注意力,并計算給定輸入X∈?^(4×8)的輸出。要求:1.手動初始化Q、K、V投影矩陣W_Q,W_K,W_V∈?^(4×8),元素為0.1的等值矩陣;2.計算注意力權重并給出softmax后的注意力矩陣;3.輸出Y∈?^(4×8)。答案:```pythonimportnumpyasnpn,d=4,8dk=d//2單頭維度X=np.ones((n,d))0.5輸入W_Q=np.ones((d,dk))0.1W_K=np.ones((d,dk))0.1W_V=np.ones((d,dk))0.1Q=X@W_K(4,4)K=X@W_KV=X@W_Vscores=Q@K.T/np.sqrt(dk)attn=scores(4,4)attn=np.exp(attnnp.max(attn,axis=1,keepdims=True))attn=attn/np.sum(attn,axis=1,keepdims=True)Y=attn@V(4,4)拼接回8維:重復單頭兩次Y=np.concatenate([Y,Y],axis=1)print("Attentionmatrix:\n",attn)print("OutputYshape:",Y.shape)```輸出:Attentionmatrix每行均為[0.25,0.25,0.25,0.25],輸出Y所有元素為0.5。40.(15分)實現(xiàn)混合精度訓練的一個最小PyTorch示例,模型為單層Linear,輸入維度10,輸出維度1,使用torch.cuda.amp在隨機數(shù)據(jù)上訓練10步,打印每步loss。要求:1.使用GradScaler;2.在反向傳播前放大loss;3.更新后縮放梯度。答案:```pythonimporttorch,torch.nnasnntorch.manual_seed(0)model=nn.Linear(10,1).cuda()opt=torch.optim.SGD(model.parameters(),lr=0.1)scaler=torch.cuda.amp.GradScaler()forstepinrange(10):x=torch.randn(32,10).cuda()y=torch.randn(32,1).cuda()opt.zero_grad()withtorch.cuda.amp.a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 直播攝影師管理制度規(guī)范
- 外地項目流程制度規(guī)范
- 急診護士交班制度規(guī)范
- 值班巡邏查崗制度規(guī)范
- 超市安防員站崗制度規(guī)范
- 辦公樓內(nèi)環(huán)境制度規(guī)范
- 糧食經(jīng)紀人業(yè)務規(guī)范制度
- 促使規(guī)范一項規(guī)章制度
- 臨時油料運輸制度規(guī)范
- 基建專班管理制度規(guī)范
- 保健按摩師初級試題
- 2021年度四川省專業(yè)技術人員繼續(xù)教育公需科目(答案整合)
- 醫(yī)療廢物處理方案
- 船舶靠離泊作業(yè)風險辨識表
- 口腔頜面外科學(全)
- DB37T 2673-2019醫(yī)療機構能源消耗定額標準
- 安徽金軒科技有限公司 年產(chǎn)60萬噸硫磺制酸項目環(huán)境影響報告書
- 魔鬼理論之k線秘笈圖解課件
- 2023屆廣東省佛山市普通高中高三上學期教學質(zhì)量檢測(一模)物理試題含答案
- YY/T 1630-2018醫(yī)療器械唯一標識基本要求
- GB/T 9163-2001關節(jié)軸承向心關節(jié)軸承
評論
0/150
提交評論