2025年人工智能自然語言處理入門考試題庫及答案_第1頁
2025年人工智能自然語言處理入門考試題庫及答案_第2頁
2025年人工智能自然語言處理入門考試題庫及答案_第3頁
2025年人工智能自然語言處理入門考試題庫及答案_第4頁
2025年人工智能自然語言處理入門考試題庫及答案_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2025年人工智能自然語言處理入門考試題庫及答案一、單項(xiàng)選擇(每題2分,共20分)1.在Transformer架構(gòu)中,用于將輸入序列中任意兩個(gè)位置直接關(guān)聯(lián)起來的核心機(jī)制是A.卷積窗口B.自注意力C.池化層D.殘差連接答案:B解析:自注意力通過計(jì)算Query與Key的相似度,實(shí)現(xiàn)任意位置token之間的直接交互,突破RNN的時(shí)序依賴限制。2.下列哪一項(xiàng)不是BERT預(yù)訓(xùn)練階段的任務(wù)A.掩碼語言模型B.下一句預(yù)測(cè)C.句子順序預(yù)測(cè)D.整句重構(gòu)答案:D解析:BERT僅使用MLM與NSP兩個(gè)任務(wù),整句重構(gòu)從未出現(xiàn),屬于干擾項(xiàng)。3.當(dāng)使用字節(jié)對(duì)編碼(BPE)時(shí),出現(xiàn)未知詞(OOV)的根本原因是A.詞表容量有限B.子詞合并次數(shù)不足C.訓(xùn)練語料未覆蓋該詞D.以上全部答案:D解析:BPE通過頻次合并子詞,若詞表大小或合并輪次受限,或語料缺失,均會(huì)導(dǎo)致OOV。4.在GPT系列中,用于提升長文本外推能力的改進(jìn)技術(shù)是A.RoPEB.ALiBiC.FlashAttentionD.LoRA答案:B解析:ALiBi在注意力分?jǐn)?shù)中直接添加線性偏置,無需額外位置編碼即可外推更長序列。5.對(duì)中文文本進(jìn)行分詞時(shí),下列哪種算法基于無監(jiān)督統(tǒng)計(jì)量且無需詞典A.正向最大匹配B.HMMC.Jieba精確模式D.SentencePieceunigram答案:D解析:SentencePieceunigram語言模型完全依賴語料統(tǒng)計(jì),不依賴外部詞典,可跨語言。6.當(dāng)模型參數(shù)量固定時(shí),采用MoE(混合專家)結(jié)構(gòu)的主要收益是A.減少推理延遲B.降低顯存占用C.提升表達(dá)能力D.簡化梯度流答案:C解析:MoE通過稀疏激活不同專家子網(wǎng)絡(luò),在相同參數(shù)量下獲得更高容量,但會(huì)增加通信開銷。7.在指令微調(diào)階段,為避免模型“忘記”預(yù)訓(xùn)練知識(shí),最常用的策略是A.增加dropoutB.混合預(yù)訓(xùn)練數(shù)據(jù)C.降低學(xué)習(xí)率D.權(quán)重平均答案:B解析:將少量預(yù)訓(xùn)練數(shù)據(jù)與指令數(shù)據(jù)混合,可緩解災(zāi)難性遺忘,保持通用語言能力。8.下列評(píng)價(jià)指標(biāo)中,對(duì)ngram重復(fù)最敏感的是A.BLEU4B.ROUGELC.METEORD.BERTScore答案:A解析:BLEU4僅統(tǒng)計(jì)4gram精確率,一旦重復(fù)即顯著拉低分?jǐn)?shù);ROUGEL與BERTScore對(duì)語義更魯棒。9.當(dāng)使用DeepSpeedZeRO3時(shí),下列哪一項(xiàng)被切分到所有GPUA.優(yōu)化器狀態(tài)B.梯度C.模型參數(shù)D.以上全部答案:D解析:ZeRO3將參數(shù)、梯度、優(yōu)化器狀態(tài)全部按層切分,實(shí)現(xiàn)極致顯存節(jié)省。10.在RLHF流程中,用于將人類偏好轉(zhuǎn)化為可學(xué)習(xí)信號(hào)的算法是A.PPOB.DPOC.RLAIFD.ReMax答案:B解析:DPO(DirectPreferenceOptimization)直接把偏好對(duì)轉(zhuǎn)化為交叉熵?fù)p失,跳過獎(jiǎng)勵(lì)模型訓(xùn)練。二、多項(xiàng)選擇(每題3分,共15分,多選少選均不得分)11.以下哪些技術(shù)可以顯著降低Transformer推理時(shí)延A.KVCacheB.動(dòng)態(tài)批處理C.量化到INT8D.梯度檢查點(diǎn)答案:A、B、C解析:KVCache避免重復(fù)計(jì)算;動(dòng)態(tài)批處理提高吞吐;INT8降低訪存。梯度檢查點(diǎn)僅節(jié)省訓(xùn)練顯存。12.關(guān)于LoRA微調(diào),下列說法正確的是A.凍結(jié)原模型權(quán)重B.引入低秩矩陣C.推理時(shí)需合并分支D.可與其他PEFT方法疊加答案:A、B、D解析:LoRA訓(xùn)練時(shí)保持原權(quán)重不變,推理可將分支合并,但非必須;可與AdaLoRA等疊加。13.在中文文本糾錯(cuò)任務(wù)中,常用來構(gòu)造噪聲數(shù)據(jù)的方式有A.隨機(jī)刪字B.音近替換C.形近替換D.隨機(jī)交換相鄰字答案:A、B、C、D解析:四種策略均模擬真實(shí)輸入錯(cuò)誤,可提升模型魯棒性。14.關(guān)于對(duì)比學(xué)習(xí)損失InfoNCE,下列說法正確的是A.負(fù)樣本越多,梯度方差越小B.溫度系數(shù)越小,分布越尖銳C.與交叉熵形式等價(jià)D.需要大量負(fù)樣本保證無偏答案:A、B、D解析:InfoNCE通過負(fù)樣本近似互信息,溫度系數(shù)控制平滑度;與交叉熵不等價(jià)。15.當(dāng)使用FSDP(FullyShardedDataParallel)訓(xùn)練大模型時(shí),下列哪些操作會(huì)自動(dòng)發(fā)生A.每層前向后向時(shí)AllGather參數(shù)B.梯度計(jì)算后ReduceScatterC.優(yōu)化器狀態(tài)分片D.激活值重計(jì)算答案:A、B、C解析:FSDP自動(dòng)完成參數(shù)分片、通信與優(yōu)化器狀態(tài)分片;激活重計(jì)算需手動(dòng)開啟。三、填空題(每空2分,共20分)16.在Transformer中,位置編碼的維度必須與__________相同,才能直接相加。答案:詞向量維度解析:位置編碼與詞向量逐位相加,要求形狀一致。17.BERT的MLM任務(wù)中,被掩碼的token占總輸入比例約為__________。答案:15%解析:其中80%用[MASK],10%隨機(jī)詞,10%不變。18.當(dāng)使用AdamW優(yōu)化器時(shí),權(quán)重衰減系數(shù)通常設(shè)置在__________到__________之間。答案:0.01;0.1解析:過大會(huì)導(dǎo)致欠擬合,過小則正則效果弱。19.在GPT3175B模型中,隱藏層維度為__________,層數(shù)為__________。答案:12288;96解析:公開配置表可查,隱藏層維度=128×96。20.若詞表大小為50000,嵌入維度為768,則僅輸入嵌入層參數(shù)量為__________。答案:3840萬解析:50000×768=38400000。21.使用BeamSearch時(shí),若beamsize=5,序列最大長度=50,則最壞情況下需展開__________個(gè)候選。答案:250解析:每步保留5條,長度50,理論上限5×50=250,實(shí)際通過剪枝遠(yuǎn)小于此。22.在中文BERT中,將“[CLS]今天天氣真好[SEP]”輸入后,[CLS]的最終隱藏狀態(tài)常用于__________任務(wù)。答案:句子對(duì)分類解析:NSP任務(wù)依賴[CLS]表示整句語義。23.當(dāng)使用混合精度訓(xùn)練時(shí),損失縮放(lossscaling)的主要目的是防止__________溢出。答案:梯度解析:FP16下梯度易下溢,乘以放大因子后回傳,再縮放更新。24.若某模型參數(shù)量為1.2B,使用FP16存儲(chǔ),則完全加載需顯存約__________GB。答案:2.4解析:1.2×10^9×2Byte=2.4GB,不含優(yōu)化器與激活。25.在指令微調(diào)數(shù)據(jù)集中,樣本通常由__________、__________、__________三元組構(gòu)成。答案:指令;輸入;輸出解析:標(biāo)準(zhǔn)Alpaca格式,清晰區(qū)分任務(wù)描述與示例。四、判斷題(每題1分,共10分,正確打“√”,錯(cuò)誤打“×”)26.Word2vec訓(xùn)練完成后,詞向量空間中歐氏距離越近,語義越相似。答案:×解析:常用余弦相似度,歐氏距離受模長影響。27.LayerNorm在Transformer中位于殘差分支之后。答案:×解析:PreNorm位于子層輸入,PostNorm位于子層輸出,原版Transformer用PostNorm。28.使用RoPE位置編碼的模型可以直接外推到更長序列而無需額外訓(xùn)練。答案:√解析:RoPE通過旋轉(zhuǎn)矩陣編碼相對(duì)位置,具備天然外推性。29.在文本生成任務(wù)中,重復(fù)懲罰(repetitionpenalty)系數(shù)大于1會(huì)抑制已生成token。答案:√解析:大于1降低已出現(xiàn)token概率,減少重復(fù)。30.BERT的NSP任務(wù)在RoBERTa中被移除,因?yàn)閷?shí)驗(yàn)表明其效果為負(fù)。答案:√解析:RoBERTa論文指出NSP對(duì)下游任務(wù)無益,甚至有害。31.使用量化感知訓(xùn)練(QAT)后的INT8模型精度一定高于后訓(xùn)練量化(PTQ)。答案:×解析:QAT通常更優(yōu),但依賴訓(xùn)練資源,某些場(chǎng)景PTQ已足夠。32.在F1score計(jì)算中,精確率與召回率權(quán)重相等。答案:√解析:F1為調(diào)和平均,權(quán)重1:1。33.當(dāng)使用GradientAccumulation時(shí),等效batchsize=per_gpu_batch×gradient_accumulation_steps×gpu數(shù)。答案:√解析:梯度累積模擬大batch,公式正確。34.對(duì)比學(xué)習(xí)中的溫度系數(shù)τ越大,對(duì)比損失對(duì)難負(fù)樣本的關(guān)注度越高。答案:×解析:τ越大分布越平滑,難負(fù)樣本權(quán)重反而降低。35.在RLHF中,獎(jiǎng)勵(lì)模型通常使用BradleyTerry模型對(duì)偏好概率建模。答案:√解析:BradleyTerry將偏好轉(zhuǎn)化為sigmoid概率,是獎(jiǎng)勵(lì)模型標(biāo)準(zhǔn)做法。五、簡答題(每題8分,共24分)36.描述Transformer中MultiHeadAttention的計(jì)算流程,并解釋為何需要多頭機(jī)制。答案:步驟:1)對(duì)輸入X分別線性映射為Q、K、V,維度均為d_model;2)將Q、K、V按頭數(shù)h均分,得到h組(Qi,Ki,Vi),每組維度d_k=d_model/h;3)每組獨(dú)立計(jì)算縮放點(diǎn)積注意力:Attention(Qi,Ki,Vi)=softmax(QiKi^T/√d_k)V_i;4)拼接h個(gè)輸出,再線性投影回d_model。多頭意義:?不同頭可捕獲不同子空間語義(如句法、指代、實(shí)體);?單頭受限于d_k,表達(dá)能力有限,多頭并行擴(kuò)展容量;?實(shí)驗(yàn)表明,多頭使模型對(duì)長距離依賴更敏感,提升BLEU、ROUGE等指標(biāo)。37.對(duì)比“預(yù)訓(xùn)練+微調(diào)”與“預(yù)訓(xùn)練+提示(prompting)”兩種范式的差異,并給出各自適用場(chǎng)景。答案:差異:1)參數(shù)更新:微調(diào)需更新全部或部分模型參數(shù),提示凍結(jié)模型;2)數(shù)據(jù)需求:微調(diào)需大量下游標(biāo)注,提示可零樣本或少樣本;3)工程成本:微調(diào)需GPU訓(xùn)練,提示僅需推理;4)表現(xiàn):微調(diào)在數(shù)據(jù)充足時(shí)上限更高,提示在少樣本下更穩(wěn)定。適用場(chǎng)景:?微調(diào):數(shù)據(jù)豐富、任務(wù)復(fù)雜(如法律實(shí)體識(shí)別)、需部署專用小模型;?提示:數(shù)據(jù)稀缺、需快速上線、通用大模型API調(diào)用(如客服問答)。38.解釋梯度消失與梯度爆炸在Transformer中的表現(xiàn)形式,并給出至少兩種緩解方案。答案:表現(xiàn):?梯度消失:深層encoder梯度范數(shù)趨近0,頂層權(quán)重幾乎不更新,下游任務(wù)loss停滯;?梯度爆炸:梯度范數(shù)指數(shù)增長,lossNaN,權(quán)重抖動(dòng)。緩解:1)殘差連接:提供恒等路徑,使梯度直接回傳;2)PreNorm:將LayerNorm置于子層輸入,保持梯度尺度穩(wěn)定;3)權(quán)重初始化:使用Xavier或正交初始化,控制方差;4)梯度裁剪:設(shè)置max_norm=1.0,防止爆炸;5)學(xué)習(xí)率預(yù)熱:線性升溫至峰值,再線性衰減,避免初期大梯度。六、計(jì)算與推導(dǎo)(共11分)39.(5分)假設(shè)某Transformer模型隱藏維度d=512,頭數(shù)h=8,序列長度n=1024,batch=2,計(jì)算一次MultiHeadAttention的浮點(diǎn)運(yùn)算量(FLOPs),忽略softmax與線性映射。答案:單頭QK^T:n×d_k×n=1024×64×1024=67,108,864單頭AttentionV:n×n×d_k=1024×1024×64=67,108,864單頭總計(jì):134,217,728多頭×h:134,217,728×8=1,073,741,824batch×2:2,147,483,648FLOPs解析:只統(tǒng)計(jì)矩陣乘,加法則忽略。40.(6分)給定交叉熵?fù)p失L=?∑y_ilogp_i,其中p_i=softmax(z_i)。推導(dǎo)當(dāng)標(biāo)簽為onehot時(shí),損失對(duì)logitsz_j的梯度?L/?z_j,并說明梯度形式對(duì)梯度消失的影響。答案:設(shè)真實(shí)類別為k,則L=?logp_kp_k=e^{z_k}/∑_me^{z_m}?L/?z_j=?(δ_{jk}?p_j)其中δ_{jk}為Kroneckerdelta。影響:?梯度與(1?p_k)成正比,當(dāng)p_k→1,梯度→0,導(dǎo)致頂層梯度消失;?使用標(biāo)簽平滑(labelsmoothing)將y_k從1降至1?ε,使梯度保持ε量級(jí),緩解消失。七、綜合應(yīng)用(共20分)41.(10分)某企業(yè)需構(gòu)建中文客服意圖識(shí)別系統(tǒng),要求:?支持20個(gè)意圖,平均每個(gè)意圖僅30條標(biāo)注;?推理延遲<100ms(GPUV100單卡);?模型大小<1GB。請(qǐng)給出完整技術(shù)方案,包括數(shù)據(jù)增強(qiáng)、模型結(jié)構(gòu)、訓(xùn)練策略、推理優(yōu)化。答案:數(shù)據(jù)增強(qiáng):?使用中文同義詞詞典隨機(jī)替換,比例0.2;?EDA技術(shù):隨機(jī)插入、交換、刪除,每句生成5個(gè)變體;?回譯:中→英→中,采用公開翻譯API,生成2倍數(shù)據(jù);?模板提示:用ChatGPT生成相似問法,人工快速審核。模型:?采用ChineseRoFormerbase,隱藏層768,12層,參數(shù)量330M;?使用MoEAdapter:每層插入4專家,Top2激活,參數(shù)量增至約800M,但推理僅激活33

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論