2025自然語(yǔ)言處理考試題及答案_第1頁(yè)
2025自然語(yǔ)言處理考試題及答案_第2頁(yè)
2025自然語(yǔ)言處理考試題及答案_第3頁(yè)
2025自然語(yǔ)言處理考試題及答案_第4頁(yè)
2025自然語(yǔ)言處理考試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025自然語(yǔ)言處理考試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于防止未來(lái)信息泄露的核心機(jī)制是A.層歸一化B.殘差連接C.因果掩碼(causalmask)D.位置編碼答案:C解析:因果掩碼在自注意力計(jì)算時(shí)將當(dāng)前位置之后的注意力權(quán)重設(shè)為?∞,確保第t步只能看到1…t?1的信息,實(shí)現(xiàn)自回歸語(yǔ)言建模。2.下列哪一項(xiàng)不是BERT預(yù)訓(xùn)練任務(wù)之一A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.TokenTypeEmbedding答案:C解析:BERT僅使用MLM與NSP兩項(xiàng)任務(wù),SentenceOrderPrediction是ALBERT的改進(jìn)任務(wù)。3.當(dāng)使用字節(jié)對(duì)編碼(BPE)時(shí),若詞表大小固定為32000,繼續(xù)訓(xùn)練出現(xiàn)OOV的最可能原因是A.訓(xùn)練語(yǔ)料出現(xiàn)新Unicode區(qū)段字符B.學(xué)習(xí)率過(guò)大C.批大小過(guò)小D.權(quán)重衰減系數(shù)過(guò)高答案:A解析:BPE按頻率合并子詞,若新字符從未在訓(xùn)練階段出現(xiàn),則無(wú)法被任何子詞覆蓋,導(dǎo)致OOV。4.在序列標(biāo)注任務(wù)中,使用CRF層相對(duì)于Softmax解碼的最大優(yōu)勢(shì)是A.降低參數(shù)量B.引入標(biāo)簽轉(zhuǎn)移約束C.支持多標(biāo)簽分類D.加速訓(xùn)練收斂答案:B解析:CRF通過(guò)轉(zhuǎn)移矩陣建模標(biāo)簽間依賴(如BPER后不能接ILOC),全局最優(yōu)解碼,有效減少非法序列。5.對(duì)于中文文本,以下哪種分詞方式在下游任務(wù)中通常表現(xiàn)最差A(yù).基于BERT的WordPieceB.基于詞典的最大匹配C.基于字的BiLSTMCRFD.基于統(tǒng)計(jì)的Unigram語(yǔ)言模型答案:B解析:最大匹配無(wú)法處理未登錄詞與歧義,且與預(yù)訓(xùn)練模型子詞粒度不匹配,導(dǎo)致語(yǔ)義碎片化。6.當(dāng)微調(diào)GPT3175B時(shí),若僅更新0.1%參數(shù)即可達(dá)到全量微調(diào)96%效果,該方法稱為A.AdaptertuningB.LoRAC.PrefixtuningD.BitFit答案:B解析:LoRA通過(guò)低秩分解引入可訓(xùn)練旁路矩陣,凍結(jié)原權(quán)重,僅訓(xùn)練秩r?d的矩陣A、B。7.在對(duì)比學(xué)習(xí)損失InfoNCE中,溫度系數(shù)τ→0時(shí),損失函數(shù)行為趨近于A.平方誤差B.交叉熵C.最大間隔hingeD.負(fù)對(duì)數(shù)似然withhardmax答案:D解析:τ→0使softmax逼近onehot,InfoNCE退化為僅強(qiáng)化最難正例的hardmax形式。8.將32維詞向量壓縮至2維并可視化,若希望保留全局距離比率,應(yīng)選用A.PCAB.tSNEC.UMAPD.Isomap答案:D解析:Isomap基于測(cè)地距離保持全局幾何,而tSNE/UMAP側(cè)重局部鄰域。9.在機(jī)器翻譯評(píng)價(jià)中,BLEU得分的主要設(shè)計(jì)假設(shè)是A.譯文越長(zhǎng)越好B.ngram共現(xiàn)反映充分性與流暢度C.同義詞替換應(yīng)受懲罰D.人工評(píng)分服從正態(tài)分布答案:B解析:BLEU通過(guò)修正ngram精確率衡量翻譯片段與參考譯文的重疊,隱含流暢與充分性。10.若某模型在GLUE的RTE任務(wù)上準(zhǔn)確率達(dá)92.0,而人類表現(xiàn)86.0,最需優(yōu)先驗(yàn)證A.數(shù)據(jù)泄漏B.過(guò)擬合C.學(xué)習(xí)率調(diào)度D.批大小答案:A解析:遠(yuǎn)超人類表現(xiàn)往往提示訓(xùn)練集與測(cè)試集存在重疊或標(biāo)注泄露。二、多項(xiàng)選擇題(每題3分,共15分,多選少選均不得分)11.以下哪些技術(shù)可直接緩解Transformer長(zhǎng)文本O(N2)內(nèi)存問(wèn)題A.LinformerB.PerformerC.GradientcheckpointingD.ALiBi位置編碼答案:A、B解析:Linformer將Key/Value投影至低維,Performer使用FAVOR+核近似,均把復(fù)雜度降至O(Nk)或O(N)。Checkpoint僅減內(nèi)存不復(fù)改復(fù)雜度,ALiBi不改注意力計(jì)算量。12.關(guān)于PromptTuning,敘述正確的有A.僅在輸入前添加可訓(xùn)練連續(xù)向量B.參數(shù)量少于AdapterC.離散模板需人工設(shè)計(jì)D.與模型規(guī)模呈正相關(guān)效果答案:A、C、D解析:PromptTuning訓(xùn)練前置"軟token",離散模板需人工設(shè)計(jì);效果隨參數(shù)量增大而提升;Adapter插入中間層,參數(shù)量通常高于純Prompt。13.在文本風(fēng)格遷移任務(wù)中,為實(shí)現(xiàn)"內(nèi)容保留+風(fēng)格改變",常用策略包括A.對(duì)抗判別器區(qū)分風(fēng)格B.重構(gòu)損失保證內(nèi)容C.使用VAE解耦隱空間D.強(qiáng)化學(xué)習(xí)直接優(yōu)化BLEU答案:A、B、C解析:重構(gòu)損失保留語(yǔ)義,對(duì)抗與VAE解耦風(fēng)格;RL優(yōu)化BLEU偏向流暢而非風(fēng)格。14.下列哪些指標(biāo)可用于衡量句子向量質(zhì)量A.SpearmanρonSTSBB.AveragePrecisiononFlickr30KC.F1onCoNLL2003D.MSEonWordSim353答案:A、B解析:STSB與Flickr30K分別評(píng)測(cè)語(yǔ)義相似度與圖文檢索,均依賴句子向量;CoNLL2003為token級(jí)NER,WordSim為詞級(jí)相似度。15.當(dāng)使用混合精度訓(xùn)練時(shí),可能帶來(lái)的副作用有A.梯度下溢B.權(quán)重更新不穩(wěn)定C.批歸一化統(tǒng)計(jì)偏移D.激活值動(dòng)態(tài)范圍降低答案:A、B、D解析:FP16下容易出現(xiàn)梯度下溢與舍入誤差,導(dǎo)致更新抖動(dòng);動(dòng)態(tài)范圍降低可通過(guò)lossscaling緩解;BN統(tǒng)計(jì)在混合精度下通常不受影響。三、填空題(每空2分,共20分)16.在自注意力計(jì)算中,若Q∈?^{n×d_k},K∈?^{n×d_k},則注意力權(quán)重矩陣形狀為________。答案:n×n解析:QK^T后得n×n,每行對(duì)列做softmax。17.若使用ALBERT參數(shù)共享方案,編碼器12層共享同一套Transformer權(quán)重,則總參數(shù)量約為BERTbase的________倍。答案:1/12解析:ALBERT共享層后,僅保留1層參數(shù)與層間映射,比例≈1/12。18.將英文"unbelievable"經(jīng)WordPiece分詞后,最可能輸出________(寫出一個(gè)可能結(jié)果)。答案:["un","bel","ievable"]解析:WordPiece從字符起按頻率合并,"un"為高頻前綴,""標(biāo)記繼續(xù)片段。19.在CRF損失函數(shù)中,前向后向算法用于計(jì)算________,以得到歸一化因子Z(x)。答案:所有可能標(biāo)簽序列的得分指數(shù)和解析:Z(x)為配分函數(shù),需用前向后向動(dòng)態(tài)規(guī)劃高效求和。20.若使用RDrop正則化,則在同一批次內(nèi)對(duì)同一輸入進(jìn)行兩次________,并對(duì)兩次輸出概率分布計(jì)算KL散度。答案:前向傳播(或forwardpass)解析:RDrop通過(guò)Dropout的隨機(jī)性產(chǎn)生兩次不同輸出,用KL約束一致性。21.當(dāng)微調(diào)T5進(jìn)行摘要任務(wù)時(shí),需在輸入前加入任務(wù)前綴,如________。答案:"summarize:"解析:T5文本到文本統(tǒng)一框架依賴前綴區(qū)分任務(wù)。22.在對(duì)比學(xué)習(xí)訓(xùn)練后,若溫度系數(shù)τ=0.05,則InfoNCE損失對(duì)難負(fù)例的梯度權(quán)重將________(增大/減?。?。答案:增大解析:τ越小,softmax分布越尖銳,難負(fù)例獲得更大梯度。23.若使用F1score評(píng)估序列標(biāo)注,則需先對(duì)預(yù)測(cè)序列進(jìn)行________,才能與gold標(biāo)簽對(duì)齊。答案:實(shí)體級(jí)匹配(或phraselevel匹配)解析:BIO標(biāo)簽需按實(shí)體邊界與類型合并后計(jì)算precision/recall。24.當(dāng)采用CurriculumLearning策略訓(xùn)練機(jī)器翻譯模型時(shí),通常先使用________(短/長(zhǎng))句子。答案:短解析:短句梯度方差小、收斂易,符合由易到難課程。25.在知識(shí)蒸餾中,若教師模型輸出為softmax(q_i/T),學(xué)生模型應(yīng)使用相同的________。答案:溫度T解析:匹配溫度才能對(duì)齊softened分布,傳遞暗知識(shí)。四、簡(jiǎn)答題(每題8分,共24分)26.描述Transformer位置編碼在長(zhǎng)度外推時(shí)的問(wèn)題,并給出兩種改進(jìn)方案及其核心思想。答案:?jiǎn)栴}:標(biāo)準(zhǔn)正弦位置編碼為絕對(duì)位置向量,訓(xùn)練長(zhǎng)度≤L,測(cè)試長(zhǎng)度>L時(shí),模型需泛化到未見(jiàn)過(guò)的絕對(duì)位置,導(dǎo)致注意力權(quán)重分布外推困難,性能驟降。方案一:ALiBi(AttentionwithLinearBiases)。取消位置向量,改為在注意力得分上直接添加線性偏置b·|i?j|,b與頭相關(guān)且固定。偏置僅依賴相對(duì)距離,訓(xùn)練后天然外推。方案二:RoPE(RotaryPositionEmbedding)。將query、key向量按二維旋轉(zhuǎn)矩陣乘以e^{imθ},使內(nèi)積僅與相對(duì)位置m有關(guān),實(shí)現(xiàn)絕對(duì)編碼形式卻蘊(yùn)含相對(duì)位置,外推時(shí)旋轉(zhuǎn)角度連續(xù),可處理更長(zhǎng)序列。解析:絕對(duì)編碼需存儲(chǔ)每個(gè)位置參數(shù),外推即分布漂移;相對(duì)編碼或線性偏置使注意力僅依賴距離,長(zhǎng)度變化不改變分布族,因而具備長(zhǎng)度泛化能力。27.解釋梯度消失與表示崩潰在深度雙向語(yǔ)言模型中的區(qū)別,并給出各自緩解方法。答案:梯度消失:反向傳播時(shí),隨著層數(shù)增加,梯度呈指數(shù)級(jí)縮小,導(dǎo)致底層參數(shù)幾乎不更新。表現(xiàn)為訓(xùn)練損失下降極慢。緩解:采用PreNorm(LayerNorm前置)、殘差連接、增大初始化方差、使用激活如GELU。表示崩潰:深層輸出逐漸退化為低秩矩陣,不同輸入的隱藏狀態(tài)高度相似,信息熵降低。表現(xiàn)為訓(xùn)練損失可下降但下游任務(wù)效果差。緩解:增加跳躍連接多樣性(如RealFormer)、引入噪聲(DropKey)、使用對(duì)比正則化(SimCSE)或特征歸一化。解析:前者是信號(hào)傳播問(wèn)題,后者是表示空間退化;前者需穩(wěn)定梯度,后者需保持表示多樣性。28.對(duì)比學(xué)習(xí)中的"假負(fù)例"指什么?給出兩種檢測(cè)與修正方法。答案:假負(fù)例:minibatch中與被查詢樣本同屬一類卻被當(dāng)作負(fù)例的樣本,導(dǎo)致梯度將同類向量推開,損害表示一致性。檢測(cè)方法一:基于置信度。先用弱聚類或初始模型計(jì)算樣本間相似度,若某負(fù)例與正例相似度高于閾值且topk鄰居標(biāo)簽一致,則判為假負(fù),隨后將其梯度屏蔽或轉(zhuǎn)為正例。檢測(cè)方法二:隊(duì)列記憶庫(kù)+動(dòng)態(tài)更新。維護(hù)大型FIFO記憶庫(kù)擴(kuò)大負(fù)樣本規(guī)模,利用時(shí)序滯后模型對(duì)查詢樣本重新標(biāo)注,若記憶庫(kù)中負(fù)例與查詢?cè)跍竽P拖骂A(yù)測(cè)相同,則修正。修正:將假負(fù)例從負(fù)損失項(xiàng)剔除,或引入修正項(xiàng)加權(quán)降低其貢獻(xiàn),或采用監(jiān)督對(duì)比損失直接利用標(biāo)簽。五、計(jì)算與推導(dǎo)題(共21分)29.(10分)設(shè)單頭自注意力得分s_{ij}=(q_ik_j^T)/√d,其中d=64。給定q_1=[1,0,…,0]∈?^{64},k_j=e_j(第j個(gè)標(biāo)準(zhǔn)基向量),序列長(zhǎng)度n=4。(1)計(jì)算softmax歸一化后α_{1j},j=1,2,3,4;(2)若采用長(zhǎng)度外推的ALiBi偏置,設(shè)斜率b=?0.1,重新計(jì)算α_{1j};(3)比較兩種情形下α_{14}的變化,說(shuō)明ALiBi如何抑制遠(yuǎn)距注意力。答案:(1)s_{1j}=1/√d·δ_{1j},故s=[1/8,0,0,0]。softmax后α=[e^{1/8},1,1,1]/Z,Z=e^{1/8}+3。數(shù)值:e^{0.125}≈1.133,Z≈4.133,α_{11}≈0.274,α_{12}=α_{13}=α_{14}≈0.242。(2)加偏置后得分s'_{1j}=s_{1j}+b·|1?j|。則s'=[1/8,?0.1,?0.2,?0.3]。softmax輸入指數(shù):e^{0.125}≈1.133,e^{?0.1}≈0.905,e^{?0.2}≈0.819,e^{?0.3}≈0.741。Z'≈1.133+0.905+0.819+0.741≈3.598。α'_{14}=0.741/3.598≈0.206。(3)α_{14}從0.242降至0.206,相對(duì)下降約14.9%。ALiBi通過(guò)線性遞減偏置使遠(yuǎn)距離注意力得分指數(shù)級(jí)降低,從而抑制長(zhǎng)距關(guān)注,迫使模型更多利用局部上下文,同時(shí)無(wú)需額外位置參數(shù)即可外推更長(zhǎng)序列。30.(11分)給定一個(gè)兩標(biāo)簽CRF,標(biāo)簽集合={B,I},轉(zhuǎn)移矩陣A=[[0.1,0.9],[0.8,0.2]],其中A_{ij}=從標(biāo)簽i到j(luò)的得分。觀測(cè)序列為x=(x_1,x_2),發(fā)射得分分別為f_1(B)=1.0,f_1(I)=0.5,f_2(B)=0.3,f_2(I)=0.7。(1)列出所有合法標(biāo)簽序列并計(jì)算其未歸一化得分;(2)用前向算法計(jì)算配分函數(shù)Z(x);(3)求最優(yōu)序列及概率。答案:(1)合法序列:①(B,B):得分=f_1(B)+A_{B→B}+f_2(B)=1.0+0.1+0.3=1.4②(B,I):得分=1.0+0.9+0.7=2.6③(I,B):得分=0.5+0.8+0.3=1.6④(I,I):得分=0.5+0.2+0.7=1.4(2)前向:初始化:α_1(B)=f_1(B)=1.0,α_1(I)=0.5遞推:α_2(B)=logsumexp(α_1(B)+A_{B→B},α_1(I)+A_{I→B})+f_2(B)=logsumexp(1.0+0.1,0.5+0.8)+0.3=logsumexp(1.1,1.3)+0.3=log(e^{1.1}+e^{1.3})+0.3≈log(3.66)+0.3≈1.30+0.3=1.60α_2(I)=logsumexp(1.0+0.9,0.5+0.2)+0.7=log(e^{1.9}+e^{0.7})+0.7≈log(7.10)+0.7≈1.96+0.7=2.66Z(x)=logsumexp(α_2(B),α_2(I))=log(e^{1.6}+e^{2.66})≈log(16.0)≈2.77(3)最大得分序列②(B,I)得分2.6,概率P=e^{2.6}/e^{2.77}≈0.84。解析:前向算法用logsumexp避免數(shù)值溢出,全局概率由最后一步歸一化得到。六、綜合應(yīng)用題(共20分)31.某公司需構(gòu)建中文客服對(duì)話情緒識(shí)別系統(tǒng),數(shù)據(jù)規(guī)模:正負(fù)樣本各20k,平均句長(zhǎng)20字。要求模型<100MB,推理延遲<10msonCPU。(1)選擇預(yù)訓(xùn)練模型并說(shuō)明理由;(2)設(shè)計(jì)微調(diào)策略與損失函數(shù);(3)給出模型壓縮方案,確保精度下降<1%;(4)描述如何驗(yàn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論