2025年人工智能自然語言處理基礎(chǔ)測試題庫及答案_第1頁
2025年人工智能自然語言處理基礎(chǔ)測試題庫及答案_第2頁
2025年人工智能自然語言處理基礎(chǔ)測試題庫及答案_第3頁
2025年人工智能自然語言處理基礎(chǔ)測試題庫及答案_第4頁
2025年人工智能自然語言處理基礎(chǔ)測試題庫及答案_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2025年人工智能自然語言處理基礎(chǔ)測試題庫及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息而不引入額外參數(shù)的結(jié)構(gòu)是A.絕對位置編碼表B.相對位置偏置C.正弦位置編碼D.可學(xué)習(xí)位置向量答案:C解析:正弦位置編碼由Vaswani等人提出,使用固定函數(shù)生成,不引入額外可訓(xùn)練參數(shù),同時(shí)支持外推更長序列。2.下列哪一項(xiàng)不是BERT預(yù)訓(xùn)練階段的任務(wù)A.下一句預(yù)測(NSP)B.掩碼語言模型(MLM)C.句子順序預(yù)測(SOP)D.整句重構(gòu)(SR)答案:D解析:整句重構(gòu)并非BERT原始預(yù)訓(xùn)練任務(wù);NSP與MLM為原始任務(wù),RoBERTa用SOP替代NSP。3.當(dāng)使用ALBERT對詞嵌入矩陣進(jìn)行因式分解時(shí),主要目的是A.提升推理速度B.減少參數(shù)量C.增強(qiáng)長文本建模D.改善跨語言遷移答案:B解析:ALBERT將V×H矩陣拆成V×E與E×H兩步,E?H,顯著壓縮嵌入?yún)?shù)。4.在GPT3的175B參數(shù)版本中,采用的最大學(xué)習(xí)率調(diào)度策略是A.線性預(yù)熱+余弦衰減B.線性預(yù)熱+逆平方根衰減C.常數(shù)學(xué)習(xí)率D.循環(huán)余弦重啟答案:B解析:OpenAI技術(shù)報(bào)告披露,GPT3使用線性預(yù)熱后接逆平方根衰減,保證大batch穩(wěn)定收斂。5.對于中文文本,使用WordPiece與BPE相比,最顯著差異在于A.子詞粒度B.是否基于頻率合并C.是否保留單字邊界D.是否支持跨詞編碼答案:C解析:WordPiece以最大似然增益合并,常保留單字作為基礎(chǔ)符號(hào);BPE可跨字合并,易丟失單字邊界。6.在訓(xùn)練文本生成模型時(shí),若出現(xiàn)“重復(fù)塌陷”現(xiàn)象,優(yōu)先嘗試的解碼策略是A.貪心搜索B.溫度采樣C.Topk采樣D.重復(fù)懲罰(repetitionpenalty)答案:D解析:重復(fù)塌陷指模型不斷輸出相同片段,重復(fù)懲罰直接降低已生成token的logit,效果立竿見影。7.下列評價(jià)指標(biāo)中,對長度懲罰最敏感的是A.BLEU4B.ROUGELC.METEORD.BERTScore答案:A解析:BLEU使用短句懲罰因子BP,長度越短懲罰越大;ROUGEL與BERTScore對長度相對魯棒。8.在PromptTuning中,為提升小樣本效果,通常將softprompt長度設(shè)為A.1B.5–20C.100D.512答案:B解析:實(shí)證研究表明5–20個(gè)可學(xué)習(xí)token可在參數(shù)效率與性能間取得最佳平衡。9.使用混合精度訓(xùn)練時(shí),下列哪項(xiàng)操作必須保留FP32副本A.激活值B.權(quán)重主副本(masterweights)C.梯度D.優(yōu)化器動(dòng)量答案:B解析:為避免梯度下溢,權(quán)重主副本維持FP32,更新后再轉(zhuǎn)換為FP16。10.在RLHF(人類反饋強(qiáng)化學(xué)習(xí))中,用于擬合獎(jiǎng)勵(lì)模型的損失函數(shù)通常是A.MSEB.交叉熵C.排序損失(pairwiserankingloss)D.負(fù)對數(shù)似然答案:C解析:獎(jiǎng)勵(lì)模型輸出標(biāo)量,訓(xùn)練目標(biāo)為最大化人類偏好排序的margin,常用pairwiserankingloss。二、多項(xiàng)選擇題(每題3分,共15分)11.關(guān)于LayerNorm與BatchNorm,下列說法正確的是A.LayerNorm在RNN中表現(xiàn)更穩(wěn)定B.BatchNorm依賴batchsizeC.LayerNorm可應(yīng)用于可變長序列D.BatchNorm對推理時(shí)長度外推更友好答案:A、B、C解析:LayerNorm沿特征維度歸一化,與batch無關(guān),適合動(dòng)態(tài)長度;BatchNorm需維護(hù)runningstats,batchsize過小噪聲大。12.以下哪些技術(shù)可直接降低Transformer自注意力計(jì)算復(fù)雜度A.LinformerB.PerformerC.SparseTransformerD.GradientCheckpointing答案:A、B、C解析:Linformer投影維度,Performer使用FAVOR+,Sparse限制注意力稀疏模式;GradientCheckpointing僅節(jié)省顯存,不降低復(fù)雜度。13.在構(gòu)建中文醫(yī)療NER數(shù)據(jù)集時(shí),需重點(diǎn)解決的難點(diǎn)包括A.嵌套實(shí)體B.英文縮寫對齊C.隱私脫敏D.口語化表達(dá)答案:A、B、C、D解析:醫(yī)療文本常出現(xiàn)“疾病/癥狀/檢查”嵌套,英文縮寫如MRI,需對齊原文;隱私與口語化均影響標(biāo)注一致性。14.關(guān)于對比學(xué)習(xí)在句子表示中的應(yīng)用,下列做法有效的是A.使用反向翻譯做正樣本B.批量內(nèi)負(fù)采樣C.添加對抗擾動(dòng)D.溫度縮放答案:A、B、D解析:反向翻譯生成語義等效句;批量負(fù)采樣與溫度縮放提升對比信號(hào);對抗擾動(dòng)易破壞語義,一般不用。15.在部署端側(cè)語言模型時(shí),可采用的加速手段有A.權(quán)重量化至INT8B.知識(shí)蒸餾至小模型C.動(dòng)態(tài)組卷積D.投機(jī)解碼(speculativedecoding)答案:A、B、D解析:量化與蒸餾直接壓縮;投機(jī)解碼利用小模型草稿+大模型驗(yàn)證,提升2–3×吞吐;組卷積對Transformer加速有限。三、填空題(每空2分,共20分)16.在Transformer中,若隱藏維度d_model=512,注意力頭數(shù)h=8,則每個(gè)頭的維度為______。答案:64解析:512/8=64,保證多頭并行后拼接還原。17.BERTbase模型總層數(shù)L=______,參數(shù)量約為______億。答案:12,0.11解析:12層,768隱藏,12頭,約110M參數(shù)。18.當(dāng)使用F1score評估二分類時(shí),若precision=0.8,recall=0.5,則F1=______。答案:0.615解析:F1=2PR/(P+R)=2×0.8×0.5/1.3≈0.615。19.在GPT自回歸訓(xùn)練中,若序列長度1024,vocabsize=50257,則輸出層每個(gè)位置分類交叉熵?fù)p失的維度為______。答案:50257解析:語言模型頭對每個(gè)位置預(yù)測vocab分布。20.使用LoRA微調(diào)時(shí),若原矩陣W∈R^(768×768),秩r=16,則新增可訓(xùn)練參數(shù)量為______。答案:24576解析:2×768×16=24576(A與B兩個(gè)低秩矩陣)。21.在中文文本中,若字符級字典大小為15000,采用BPE繼續(xù)合并3000步,最終子詞詞表大小約為______。答案:18000解析:初始15000,每步新增一個(gè)合并符號(hào),共約18000。22.若使用beamsearch,beamsize=5,序列長度=10,則最壞情況需維護(hù)______條候選。答案:5解析:每步僅保留top5,長度10仍為5條。23.當(dāng)溫度系數(shù)τ→0時(shí),softmax分布趨近于______分布。答案:onehot(硬最大)解析:τ→0放大差異,概率質(zhì)量集中于最大值。24.在ELECTRA中,生成器與判別器參數(shù)共享比例通常為______%。答案:100解析:ELECTRAsmall全共享,ELECTRAbase亦默認(rèn)全共享,提升訓(xùn)練效率。25.若模型參數(shù)量1B,使用AdamW優(yōu)化器,則存儲(chǔ)一階與二階動(dòng)量所需顯存約為______GB。答案:8解析:1B參數(shù)×4字節(jié)×2狀態(tài)≈8GB(FP32)。四、判斷題(每題1分,共10分)26.使用更大batchsize一定需要線性放大學(xué)習(xí)率。答案:錯(cuò)解析:僅當(dāng)同步更新步數(shù)不變時(shí)適用,需配合warmup與梯度累積策略。27.在Transformer解碼端,交叉注意力層的Query來自解碼器隱狀態(tài),Key/Value來自編碼器輸出。答案:對解析:交叉注意力機(jī)制定義如此。28.BERT的[CLS]向量在微調(diào)階段一定優(yōu)于平均池化句向量。答案:錯(cuò)解析:部分任務(wù)平均池化或池化+whitening效果更佳。29.使用混合專家(MoE)層后,模型總參數(shù)量增加但推理激活參數(shù)量不變。答案:對解析:MoE僅激活topk專家,推理計(jì)算量可控。30.在RLHF中,PPOclip的ε通常設(shè)為0.2。答案:對解析:OpenAI與DeepMind均報(bào)告0.2為魯棒缺省值。31.中文文本無需子詞切分,字符級已足夠。答案:錯(cuò)解析:未登錄詞、罕見詞、專業(yè)詞需子詞緩解OOV。32.使用DeepSpeedZeRO3可在數(shù)千張GPU上訓(xùn)練萬億參數(shù)模型。答案:對解析:ZeRO3將參數(shù)、梯度、優(yōu)化器狀態(tài)全分片,理論支持萬億級。33.在FewRel數(shù)據(jù)集上,原型網(wǎng)絡(luò)(PrototypicalNetworks)效果一定優(yōu)于微調(diào)BERT。答案:錯(cuò)解析:若基線BERT已充分預(yù)訓(xùn)練并微調(diào),可能反超原型網(wǎng)絡(luò)。34.梯度爆炸時(shí),優(yōu)先降低學(xué)習(xí)率而非裁剪梯度。答案:錯(cuò)解析:應(yīng)先裁剪梯度保證穩(wěn)定,再調(diào)學(xué)習(xí)率。35.使用RMSNorm替代LayerNorm可去除均值計(jì)算,從而加速。答案:對解析:RMSNorm省掉去均值步驟,約減少5–10%計(jì)算。五、簡答題(每題8分,共24分)36.描述Transformer自注意力的時(shí)間復(fù)雜度,并說明Linformer如何將其降至O(n)。答案與解析:自注意力計(jì)算QK^T∈R^(n×n),后續(xù)softmax與V相乘,時(shí)間復(fù)雜度O(n2d)。Linformer假設(shè)注意力矩陣低秩,將K、V投影至k?n維度得K'=K·E,V'=V·E,E∈R^(n×k),則注意力變?yōu)?QK'^T)V',復(fù)雜度O(nkd)。當(dāng)k為常數(shù),整體O(n)。實(shí)驗(yàn)表明k=256即可在n=8192時(shí)保持性能。37.解釋“梯度累積”與“梯度檢查點(diǎn)”在顯存優(yōu)化中的差異,并給出適用場景。答案與解析:梯度累積將batch拆成m個(gè)小microbatch,前向+反向后不清零梯度,累加m次再更新,等價(jià)大batch,顯存峰值未減少,僅解決batchsize受限。梯度檢查點(diǎn)在前向時(shí)丟棄中間激活,反向時(shí)重新計(jì)算,顯存降至O(√n),但計(jì)算量增加約1/3,適用于顯存極缺、可接受額外計(jì)算的場景,如訓(xùn)練大模型長序列。38.對比“提示學(xué)習(xí)”(PromptLearning)與“微調(diào)”(Finetuning)在少樣本場景下的優(yōu)缺點(diǎn)。答案與解析:提示學(xué)習(xí)凍結(jié)大模型,僅優(yōu)化軟提示或模板,參數(shù)少,過擬合風(fēng)險(xiǎn)低,適合<100樣本;但提示設(shè)計(jì)敏感,性能常低于微調(diào)。微調(diào)更新全模型,可充分?jǐn)M合任務(wù),樣本>500時(shí)優(yōu)勢明顯,然參數(shù)量大,易過擬合。折中方案為LoRA+PromptHybrid,前6層LoRA,后6層加軟提示,在FewNERP數(shù)據(jù)集上F1提升2.3。六、計(jì)算與推導(dǎo)題(共21分)39.(10分)給定單頭注意力分?jǐn)?shù)矩陣A=softmax(QK^T/√d),其中Q,K∈R^(n×d),n=4,d=2,Q=[[1,0],[0,1],[1,1],[0,0]],K=[[1,1],[0,1],[1,0],[0,0]]。(1)計(jì)算QK^T;(2)計(jì)算A;(3)驗(yàn)證A行和為1。答案:(1)QK^T=[[1,1,1,0],[0,1,0,0],[1,2,1,0],[0,0,0,0]](2)除以√d=√2后softmax:A=[[0.3925,0.3925,0.3925,0.1478],[0.25,0.5,0.25,0.0979],[0.1959,0.5224,0.1959,0.0858],[0.25,0.25,0.25,0.25]](3)每行求和≈1,數(shù)值誤差<1e4,驗(yàn)證完畢。40.(11分)假設(shè)使用AdamW優(yōu)化,學(xué)習(xí)率η=1e4,權(quán)重衰減λ=0.01,β1=0.9,β2=0.999,ε=1e8。第t步梯度g_t=0.1,歷史m_(t1)=0.2,v_(t1)=0.015。(1)更新m_t、v_t;(2)計(jì)算偏差修正m?、v?;(3)求參數(shù)更新量Δθ。答案:(1)m_t=0.9×0.2+0.1×0.1=0.19v_t=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論