版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025年自然語言處理題庫及答案一、單項選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,ScaledDotProductAttention的縮放因子為A.√d_kB.d_kC.1/√d_kD.d_v答案:A解析:為防止點積結(jié)果過大導致softmax梯度消失,QK^T需除以√d_k,d_k為Query向量的維度。2.下列哪項技術(shù)最早將預訓練+微調(diào)范式引入NLP?A.Word2VecB.ELMoC.GPT1D.BERT答案:C解析:GPT12018年提出“GenerativePretraining”,首次在NLP中系統(tǒng)驗證預訓練+微調(diào)的遷移效果,早于BERT。3.在中文BERT中,為了適配繁簡混合語料,最常采用的字符級分詞策略是A.SentencePieceunigramB.jieba精確模式C.字+詞混合粒度D.純詞粒度答案:A解析:SentencePieceunigram模型無需預分詞,可直接輸出繁簡兼容的子詞,避免OOV。4.當使用ALBERT替代BERT時,以下哪項操作直接降低了參數(shù)量?A.跨層參數(shù)共享B.FactorizedembeddingC.SOP任務D.以上全部答案:D解析:ALBERT通過共享層、分解Embedding、替換NSP為SOP,綜合減少參數(shù)量與訓練時間。5.在文本風格遷移任務中,若采用“無平行語料”設置,最常用的訓練信號是A.重構(gòu)損失+對抗損失B.最大似然估計C.最小風險訓練D.交叉熵+CTC答案:A解析:無平行數(shù)據(jù)時,模型通過自重構(gòu)保證內(nèi)容保留,通過判別器對抗損失保證風格遷移。6.使用RougeL評價摘要時,匹配單元基于A.ngram共現(xiàn)B.最長公共子序列C.編輯距離D.依存路徑答案:B解析:RougeL以最長公共子序列(LCS)長度計算召回與F1,兼顧順序信息。7.在對話系統(tǒng)安全回復檢測中,以下哪種數(shù)據(jù)增強方式對“隱性歧視”檢出率提升最大?A.同義詞替換B.回譯C.模板對抗生成D.隨機丟棄答案:C解析:模板對抗可定向生成含隱性歧視的句子,擴充難負例,提升模型魯棒性。8.若將RoBERTalarge用于長文本(>2048token),需最先考慮的改進是A.增大學習率B.使用Longformer稀疏注意力C.增加warmup步數(shù)D.改用AdamWβ2=0.9答案:B解析:RoBERTa采用全連接注意力,長文本顯存平方增長;Longformer滑動窗口+全局注意力可線性擴展。9.在知識圖譜嵌入中,ComplEx模型可捕獲的關(guān)系模式是A.對稱/反對稱B.組合C.逆D.以上全部答案:D解析:ComplEx使用復數(shù)嵌入,通過共軛操作天然支持對稱、反對稱、逆與組合模式。10.當使用混合精度訓練FP16時,下列哪項操作最可能防止梯度下溢?A.LossscalingB.GradientclippingC.權(quán)重衰減D.EMA答案:A解析:FP16下梯度<2^24會歸零;Lossscaling先放大loss再反向,避免下溢。二、多項選擇題(每題3分,共15分)11.以下哪些方法可直接緩解BERT在中文命名實體識別上的“邊界切分”錯誤?A.引入詞匯增強(LexiconAugmented)B.使用CRF輸出層C.采用spanbasedNERD.預訓練階段加入WWM策略答案:A、C、D解析:CRF僅優(yōu)化標簽轉(zhuǎn)移,不直接改善邊界;詞匯增強與spanbased顯式利用詞邊界;WWM讓模型學習完整詞掩碼,提升邊界感知。12.關(guān)于PromptTuning,下列說法正確的是A.離散模板搜索屬于PromptTuningB.Ptuningv2在輸入層插入可訓練偽tokenC.PromptTuning參數(shù)量一定小于AdapterTuningD.零樣本推理時PromptTuning無需任何梯度更新答案:A、B、D解析:Adapter需插入額外模塊,參數(shù)量常高于純PromptEmbedding;C錯誤。13.在機器翻譯中,使用BLEURT作為指標的優(yōu)勢包括A.基于多語言預訓練,跨語對穩(wěn)定B.可捕獲語義相似度而非字面重合C.與人工相關(guān)度高于BLEU4D.無需參考譯文即可計算答案:A、B、C解析:BLEURT仍需參考譯文,D錯誤。14.下列哪些技術(shù)可降低文本生成中的“重復解碼”現(xiàn)象?A.重復懲罰(repetitionpenalty)B.采樣時設置no_repeat_ngram_sizeC.使用ContrastiveSearchD.增大beamsize答案:A、B、C解析:beamsize過大易復制高頻片段,反而加劇重復。15.關(guān)于對比學習在句子表示中的應用,正確的有A.SimCSE使用dropout作為正樣本對B.溫度參數(shù)τ越小,分布越尖銳C.批內(nèi)負樣本越多,效果一定越好D.梯度累積可模擬大批次答案:A、B、D解析:負樣本過多引入假負例,效果可能下降,C錯誤。三、填空題(每空2分,共20分)16.在Transformer中,位置編碼的維度與________相同,以保證相加兼容。答案:詞向量維度d_model解析:位置編碼需逐元素加到詞向量,故維度一致。17.BERT的掩碼語言模型在15%被選中token中,有________%被替換為隨機token,________%保持不變。答案:10;10解析:80%替換為[MASK],10%隨機,10%原token。18.當使用FocalLoss解決NER類別不平衡時,調(diào)制因子γ>0會________易分樣本的權(quán)重。答案:降低解析:FocalLoss通過(1p)^γ抑制高置信度樣本,聚焦難例。19.在對話狀態(tài)跟蹤中,槽值若采用“跨域可遷移”表示,通常將槽名與槽值編碼進________空間。答案:共享語義(或共享embedding)解析:共享空間使新域槽值無需重新訓練即可匹配。20.使用ReZero初始化Transformer時,殘差分支乘的可學習參數(shù)初始值為________。答案:0解析:ReZero將殘差乘以α,初始α=0,保證訓練初期恒等映射,穩(wěn)定深層梯度。21.在文本對抗訓練FGM中,擾動范數(shù)約束通常選擇________范數(shù)。答案:L2解析:FGM沿梯度方向加擾動,約束L2范數(shù)防止擾動過大。22.若將GPT3175B模型量化為INT8,權(quán)重元素從32bit壓縮到8bit,理論上存儲減少________倍。答案:4解析:32/8=4,實際因零點和縮放還需額外空間,略小于4。23.在RAG模型中,檢索器與生成器聯(lián)合訓練時,為離散檢索段可導,常采用________技巧。答案:REINFORCE/SCST(策略梯度)解析:檢索不可導,通過強化學習將檢索視為動作,用獎勵信號回傳梯度。24.使用ALBERT對中文文本進行預訓練,若詞匯表大小為30000,嵌入維度128,因式分解后投影維度為768,則嵌入層參數(shù)量減少________倍。答案:64解析:原參數(shù)量30000×768,分解后30000×128+128×768,比值≈64。25.在零樣本跨語言遷移中,將英文模板“TranslatetoChinese:X”直接用于德文,性能下降主因是________。答案:模板語言與輸入語言不一致導致分布外解析:提示語言與輸入語言錯配,使預訓練多語言對齊失效。四、判斷題(每題1分,共10分)26.使用LayerNorm前后,Transformer中同一token的表示范數(shù)保持不變。答案:錯誤解析:LayerNorm重新縮放平移,范數(shù)通常改變。27.ELECTRA采用生成器判別器框架,其判別器任務為區(qū)分“真實token”與“生成器替換token”。答案:正確解析:ELECTRA用替換token檢測(RTD)替代MLM,提高效率。28.在中文分詞中,使用BIO標注比BMES標注更節(jié)省標簽空間。答案:正確解析:BIO僅B、I、O三標簽,BMES四標簽。29.將ReLU替換為GELU一定會提升BERT在下游任務的表現(xiàn)。答案:錯誤解析:激活函數(shù)影響非線性,但任務差異大,未必“一定”提升。30.對比學習損失InfoNCE是交叉熵的特例。答案:正確解析:InfoNCE可視為(K+1)類分類的交叉熵,正樣本為1類,負樣本為其余K類。31.在文本分類中,使用Mixup數(shù)據(jù)增強需保證混合比例λ與標簽y的線性插值一致。答案:正確解析:Mixup對onehot標簽同樣線性插值,保持一致性。32.使用beamsearch解碼時,beamsize=1等價于貪心解碼。答案:正確解析:beam=1僅保留最高分1條路徑,即貪心。33.將GPT的causalmask替換為雙向mask,即可直接用于BERT式預訓練。答案:錯誤解析:還需更換訓練目標為MLM,并去掉下句預測或替換為NSP/SOP。34.在Transformer中,QK^T的數(shù)值范圍隨d_k增大而減小。答案:錯誤解析:方差隨d_k線性增大,故需縮放。35.使用梯度累積時,等效批次大小=accumulationsteps×GPU批次大小。答案:正確解析:梯度累積將多步梯度求平均再更新,等效大批次。五、簡答題(每題8分,共40分)36.描述如何在不改變模型結(jié)構(gòu)的前提下,僅通過修改注意力掩碼,使BERT支持任意長度文檔的片段級訓練,并說明訓練與推理階段的掩碼差異。答案:訓練階段:將長文檔切分為固定長度片段(如512token),每個片段獨立添加[CLS]與[SEP],注意力掩碼為全1方陣;跨片段不共享信息。為讓模型感知片段順序,在片段間添加可學習“段落嵌入”加到tokenembedding。推理階段:采用滑動窗口,窗口間重疊一半長度,掩碼仍為局部方陣;對需整篇表示的任務,將各窗口[CLS]輸出做均值池化。解析:僅改掩碼與位置嵌入,無需稀疏注意力即可擴展長度,但窗口間無全局交互,性能略降。37.解釋“溫度采樣”中溫度系數(shù)T→0與T→∞時的采樣行為,并給出T對生成多樣性與質(zhì)量的影響曲線示意。答案:T→0:分布趨近onehot,采樣退化為貪心解碼,多樣性最低。T→∞:分布趨近均勻,采樣完全隨機,質(zhì)量最低。曲線:橫軸T從0到2,縱軸為BLEU與SelfBLEU;BLEU隨T增大單調(diào)降,SelfBLEU單調(diào)升,交點處為質(zhì)量多樣性平衡點。解析:溫度通過softmax縮放logits,調(diào)節(jié)峰值銳度,實現(xiàn)質(zhì)量與多樣性權(quán)衡。38.對比“細粒度情感分析”與“屬性級情感分析”在標注體系、建模目標與評價指標上的差異。答案:標注體系:細粒度需標注情感持有者、情感表達、情感原因;屬性級僅需標注(屬性,情感極性)。建模目標:前者輸出三元組(持有者,情感,原因),后者輸出(屬性,極性)。評價指標:前者采用三元組F1,后者采用屬性級準確率/宏F1。解析:細粒度更復雜,需聯(lián)合抽取多個元素;屬性級聚焦“屬性情感”對,任務粒度不同。39.說明如何使用“控制碼”方法在GPT2中實現(xiàn)多風格生成,并給出訓練數(shù)據(jù)構(gòu)造與損失修改細節(jié)。答案:訓練數(shù)據(jù):每段文本前插入風格控制碼token,如<romantic>、<news>,再跟原文。損失:僅計算原文token交叉熵,控制碼token參與attention但不計損失,防止模型學會復制控制碼。推理:輸入指定控制碼即可采樣對應風格。解析:控制碼作為條件上下文,無需修改模型結(jié)構(gòu),實現(xiàn)零樣本風格切換。40.闡述“課程對比學習”在句子表示訓練中的實施步驟,并解釋為何能緩解早期訓練崩潰。答案:步驟:1)按句子長度或難度排序,構(gòu)建課程;2)訓練初期僅使用簡單正樣本對(短句、高頻句);3)隨訓練逐步加入難負樣本與長句;4)對比損失溫度τ隨課程遞增,防止初期梯度爆炸。原因:早期模型表示隨機,難負樣本易引入假負例導致崩潰;課程策略讓模型先學習粗略分布,再細化邊界,穩(wěn)定訓練。解析:課程學習由易到難,與對比學習漸進擴大負樣本空間契合,提升收斂穩(wěn)定性。六、綜合應用題(共35分)41.(15分)某企業(yè)需構(gòu)建“中文合同條款抽取”模型,數(shù)據(jù)含1000份標注合同,每份平均3k字,條款類型15類,存在嚴重長尾(最多類占35%,最少0.8%)。(1)給出數(shù)據(jù)預處理與負樣本構(gòu)造方案;(2)設計模型架構(gòu),需利用預訓練模型并解決長文本與類別不平衡;(3)給出評價指標與實驗對比基線。答案:(1)預處理:將合同按段落切分,滑動窗口512token,重疊128;負樣本:隨機抽取不含任何條款的窗口作為“O”類,比例與正樣本1:1;使用標簽平滑ε=0.1緩解過擬。(2)模型:Longformerbase+CRF;為每類條款引入可學習“類別提示”token,拼接到[CLS]后,作為輔助任務預測類別先驗;損失采用FocalLossγ=2,α=0.25;長文本采用梯度檢查點節(jié)省顯存。(3)指標:宏F1、微F1、每類F1;繪制PR曲線計算AUC;基線:BERTbase+CRF、RoBERTawwmext+CRF、BiLSTMCRF;實驗顯示Longformer+Focal宏F1提升4.7%,長尾類召回提升9.2%。解析:滑動窗口保證長文本覆蓋;Focal+CRF聯(lián)合優(yōu)化序列與不平衡;類別提示提供先驗,提升少樣本表現(xiàn)。42.(20分)閱讀下列代碼片段,指出三處隱藏錯誤并給出修正方案,使其能在單機四卡訓練千億級模型時激活checkpoint+ZeRO3并行。(代碼略,以下為文字描述關(guān)鍵行)錯誤1:model=torch.nn.DataParallel(model)錯誤2:deepspeed.initialize(model,optimizer,config_params={"zero_optimization":{"stage":2}})錯誤3:loss.backward()后未執(zhí)行model.step()答案:錯誤1:DataParallel與ZeRO沖突,應改用DistributedDataParallel;修正:初始化進程組后torch.nn.parallel.DistributedDataParallel(model,device_ids=[local_rank])。錯誤2:ZeRO3需設置stage=3,并開啟parampartitioning;修正:config中"stage":3,"offload_param":{"device":"cpu"}。錯誤3:DeepSpeed引擎封裝step,應使用engine.backward(loss)與engine.step();修正:移除原始loss.backward()與optimizer.step(),統(tǒng)一由engine管理。解析:ZeRO3需DDP收集梯度并分區(qū)參數(shù),DataParallel無法支持;stage=2僅優(yōu)化器狀態(tài)分區(qū),不足以訓練千億模型;DeepSpeed引擎接管梯度累積與更新,避免沖突。七、計算與推導題(共30分)43.(10分)給定Transformer單頭注意力,d_k=64,輸入Q、K、V∈R^{n×d_k},n=1024,batch=8,計算標準
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 禁毒條例培訓課件
- 2026年建筑市場政策解讀與案例分析
- 2026年甘肅省金昌市機關(guān)事務管理局補招臨聘駕駛員備考題庫及答案詳解一套
- 2026安徽亳州蒙城第一中學面向北京師范大學等教育部直屬師范院校應屆畢業(yè)生引進人才20人備考題庫及答案詳解(奪冠系列)
- 2026臺州臨海市司法局編外招聘1人備考題庫有完整答案詳解
- 2026國家自然資源部所屬單位招聘634人備考題庫(第一批)附答案詳解
- 2026廣東深圳市公安局招聘750人備考題庫及一套完整答案詳解
- 2025中國科學院高能物理研究所財務會計崗招聘2人備考題庫完整答案詳解
- 元旦介紹的教學課件
- 2026年綠色供應鏈協(xié)同平臺項目可行性研究報告
- 浦發(fā)銀行貸款合同模板
- 基于機器學習的缺陷預測技術(shù)
- 擋土墻、圍墻石砌體作業(yè)安全措施
- 工程勘察設計收費標準(2002年修訂本)完整版
- GB/T 34956-2017大氣輻射影響航空電子設備單粒子效應防護設計指南
- 三菱扶梯介紹PLUS概述課件
- 江西樂平工業(yè)園區(qū)污水處理廠提標改造工程環(huán)評報告書
- 勞務作業(yè)分包勞務分包技術(shù)方案
- 山東省實習律師面授考試往期考題及法條匯編
- 股東名冊(范本)
- 2022版融媒體中心智慧媒資建設最佳方案
評論
0/150
提交評論