2025年自然語言處理技術(shù)培訓(xùn)試卷(含答案)_第1頁
2025年自然語言處理技術(shù)培訓(xùn)試卷(含答案)_第2頁
2025年自然語言處理技術(shù)培訓(xùn)試卷(含答案)_第3頁
2025年自然語言處理技術(shù)培訓(xùn)試卷(含答案)_第4頁
2025年自然語言處理技術(shù)培訓(xùn)試卷(含答案)_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2025年自然語言處理技術(shù)培訓(xùn)試卷(含答案)一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息的核心組件是A.卷積核B.位置編碼C.層歸一化D.殘差連接答案:B解析:Transformer本身不具備循環(huán)或卷積結(jié)構(gòu),位置編碼(PositionalEncoding)顯式注入token的相對或絕對位置信息,使模型感知順序。2.下列哪項(xiàng)技術(shù)最直接緩解了BERT預(yù)訓(xùn)練時(shí)的“預(yù)訓(xùn)練微調(diào)不一致”問題A.WholeWordMaskingB.NextSentencePredictionC.SpanBERT的spanboundaryobjectiveD.RoBERTa移除NSP任務(wù)答案:D解析:RoBERTa通過實(shí)驗(yàn)發(fā)現(xiàn)NSP對下游任務(wù)無增益甚至有害,直接移除后僅使用MLM,減小了預(yù)訓(xùn)練與微調(diào)階段的目標(biāo)差異。3.當(dāng)使用混合精度訓(xùn)練(FP16+FP32)時(shí),下列哪項(xiàng)操作最能防止梯度下溢A.LossScalingB.GradientAccumulationC.DynamicPaddingD.WeightAveraging答案:A解析:FP16表示范圍小,梯度容易下溢。LossScaling在反向傳播前將loss乘以一個(gè)較大常數(shù),反向結(jié)束后再縮放回去,從而保護(hù)微小梯度。4.在文本風(fēng)格遷移任務(wù)中,若采用“無平行語料”的對抗訓(xùn)練框架,判別器通常用于判別A.句子情感極性B.句子風(fēng)格類別C.句子是否通順D.句子是否來自真實(shí)數(shù)據(jù)分布答案:B解析:生成器負(fù)責(zé)在保留內(nèi)容的前提下改變風(fēng)格;判別器僅判斷風(fēng)格標(biāo)簽,從而迫使生成器產(chǎn)生目標(biāo)風(fēng)格文本。5.對于超長文本(>8ktokens),下列哪種位置編碼在理論上可外推到更長序列而無需微調(diào)A.絕對正弦編碼B.可學(xué)習(xí)絕對編碼C.T5的相對偏置D.ALiBi(AttentionwithLinearBiases)答案:D解析:ALiBi將線性偏置直接加在attentionscore上,偏置值與距離成比例,不依賴任何可學(xué)習(xí)位置參數(shù),因此具備長度外推能力。6.在PromptTuning中,若softprompt長度從20增加到100,模型參數(shù)量A.線性增加B.指數(shù)增加C.不變D.僅embedding層參數(shù)量線性增加答案:D解析:softprompt對應(yīng)一組可學(xué)習(xí)的embedding向量,長度增加意味著更多可訓(xùn)練向量,其余模型參數(shù)凍結(jié),因此僅embedding層新增參數(shù)線性增長。7.使用BLEU評估機(jī)器翻譯時(shí),若候選譯文與任一參考譯文完全重復(fù),但參考譯文有4條,則BLEU4的懲罰因子BrevityPenaltyA.恒為1B.恒為0C.與候選長度/最短參考長度有關(guān)D.與最長參考長度有關(guān)答案:C解析:BP=exp(1?r/c)當(dāng)c≤r,其中r為最接近候選長度的參考長度,因此BP與相對長度有關(guān)。8.在知識(shí)蒸餾中,若教師模型輸出為softmax(logits/τ),τ>1的主要作用是A.加速收斂B.放大暗知識(shí)C.降低計(jì)算量D.防止過擬合答案:B解析:提高溫度τ使分布更平滑,突出次要類別的相對關(guān)系,這些“暗知識(shí)”有助于學(xué)生模型泛化。9.下列哪項(xiàng)不是GPT3175B模型在fewshot推理階段顯存占用過大的主要原因A.鍵值緩存(KVCache)B.參數(shù)本身C.動(dòng)態(tài)計(jì)算圖D.注意力計(jì)算復(fù)雜度O(n2d)答案:C解析:推理階段圖靜態(tài),顯存大頭來自參數(shù)、KVCache與注意力激活,動(dòng)態(tài)圖主要影響訓(xùn)練期。10.在中文文本糾錯(cuò)任務(wù)中,若采用“檢測糾正”兩階段流水線,檢測階段最常用的序列標(biāo)注方案是A.BIOB.BIESC.BMESD.0/1標(biāo)簽答案:B解析:BIES將每個(gè)字符標(biāo)注為{B,I,E,S},可精確定位錯(cuò)誤邊界,兼顧連續(xù)錯(cuò)誤與單字錯(cuò)誤。二、多項(xiàng)選擇題(每題3分,共15分)11.關(guān)于對比學(xué)習(xí)在句子表示中的應(yīng)用,下列說法正確的是A.SimCSE使用dropout作為最小數(shù)據(jù)增廣B.ConSERT通過對抗擾動(dòng)生成正例C.DiffCSE利用ELECTRstyle采樣獲得負(fù)例D.SNCSE引入軟負(fù)例加權(quán)答案:A、B、D解析:C項(xiàng)錯(cuò)誤,DiffCSE采用“替換檢測”任務(wù),而非ELECTRstyle采樣;其余均正確。12.下列哪些操作可有效緩解生成式摘要中的重復(fù)解碼問題A.CoverageMechanismB.RepetitionPenaltyC.BeamSearchBlockTrigramD.強(qiáng)制增加長度懲罰答案:A、B、C解析:D項(xiàng)僅控制長度,無法直接抑制重復(fù);Coverage顯式追蹤已關(guān)注狀態(tài),RepetitionPenalty與BlockTrigram直接抑制重復(fù)片段。13.關(guān)于instructiontuning與prompttuning的區(qū)別,正確的是A.前者更新全部參數(shù),后者僅更新promptB.前者需要instruction數(shù)據(jù)集,后者不需要C.前者通常采用seq2seq損失,后者采用CLM損失D.前者對未見任務(wù)泛化更強(qiáng)答案:A、D解析:B項(xiàng)錯(cuò)誤,prompttuning仍需任務(wù)數(shù)據(jù);C項(xiàng)錯(cuò)誤,兩者損失形式均可互換;A、D為本質(zhì)區(qū)別。14.在構(gòu)建中文醫(yī)療NER數(shù)據(jù)集時(shí),以下哪些策略有助于提升標(biāo)注一致性A.雙盲標(biāo)注+仲裁B.預(yù)定義統(tǒng)一標(biāo)注指南C.采用字符級(jí)BMES標(biāo)簽D.定期計(jì)算Krippendorffα答案:A、B、D解析:C項(xiàng)是標(biāo)簽體系選擇,與一致性無直接因果關(guān)系;其余均為質(zhì)量控制手段。15.當(dāng)使用LoRA(LowRankAdaptation)微調(diào)大模型時(shí),下列說法正確的是A.凍結(jié)原權(quán)重W,引入?W=BA,其中B,A為低秩矩陣B.推理階段可將?W合并到W,不引入額外延遲C.秩r通常取1或2即可達(dá)到全參數(shù)95%效果D.LoRA僅適用于注意力權(quán)重,不適用于FFN答案:A、B、C解析:D項(xiàng)錯(cuò)誤,LoRA可插入任何權(quán)重矩陣,包括FFN;A、B、C均與原文實(shí)驗(yàn)一致。三、填空題(每空2分,共20分)16.在Transformer的自注意力機(jī)制中,QK^T除以√d_k的目的是______。答案:防止點(diǎn)積值過大導(dǎo)致softmax梯度飽和解析:√d_k縮放使點(diǎn)積方差保持為1,softmax輸入分布更平滑,梯度穩(wěn)定。17.BERT的MaskedLM掩碼策略中,被選中掩碼的token有80%用[MASK]替換,10%用______,10%保持不變。答案:隨機(jī)token解析:隨機(jī)替換迫使模型不依賴表層[MASK]符號(hào),提升魯棒性。18.在RougeL評估指標(biāo)中,LCS表示______。答案:最長公共子序列解析:RougeL基于候選與參考之間的LCS長度計(jì)算召回與F1。19.采用Adafactor優(yōu)化器時(shí),若梯度二階矩估計(jì)被分解為行均值與列均值相乘,則參數(shù)更新復(fù)雜度從O(nm)降至______。答案:O(n+m)解析:分解后僅需存儲(chǔ)兩個(gè)向量,顯著節(jié)省內(nèi)存。20.在DiffusionModel用于文本生成時(shí),前向過程通常采用______噪聲調(diào)度,使x_T近似標(biāo)準(zhǔn)高斯。答案:線性或余弦解析:線性簡單,余弦可減緩中期噪聲速度,改善樣本質(zhì)量。21.使用FSDP(FullyShardedDataParallel)訓(xùn)練時(shí),每層前向計(jì)算前需執(zhí)行______操作,保證參數(shù)完整。答案:allgather解析:參數(shù)被分片到各GPU,計(jì)算前需收集完整權(quán)重。22.在檢索增強(qiáng)生成(RAG)中,若采用DPR作為檢索器,其雙編碼器分別編碼______與______。答案:query、passage解析:雙塔結(jié)構(gòu)使離線passage可預(yù)計(jì)算,在線僅算query,提速。23.當(dāng)使用ChatGLM6B進(jìn)行int8量化推理時(shí),需引入______縮放因子,減少精度損失。解析:逐通道(perchannel)縮放答案:逐通道縮放解析:perchannel比pertensor更細(xì)粒度,保持輸出方差。24.在指令微調(diào)階段,若采用“自指令”(SelfInstruct)策略,初始種子指令通常不少于______條。答案:175解析:原始論文使用175條手工指令啟動(dòng)生成,保證多樣性。25.對于多模態(tài)模型BLIP2,QFormer的查詢向量數(shù)量設(shè)為______,用于橋接視覺與語言。答案:32解析:32個(gè)可學(xué)習(xí)query在論文實(shí)驗(yàn)中平衡效果與效率。四、判斷改錯(cuò)題(每題2分,共10分)26.ELMo使用雙向LSTM拼接,因此其上下文表示在兩層LSTM間是同時(shí)可見的。答案:錯(cuò)誤解析:ELMo是“淺層雙向”,每層LSTM仍按左→右、右→左分別訓(xùn)練,上下文僅在拼接時(shí)融合,并非同時(shí)可見。27.在GPT系列中,GPT3首次引入RLHF(ReinforcementLearningfromHumanFeedback)。答案:錯(cuò)誤解析:RLHF首次應(yīng)用于InstructGPT(GPT3.5),非原始GPT3。28.使用混合專家(MoE)結(jié)構(gòu)時(shí),門控網(wǎng)絡(luò)總是選擇Top1專家進(jìn)行激活。答案:錯(cuò)誤解析:Top2或TopK選擇更常見,保證梯度多樣性并提升容量。29.在文本對抗樣本生成中,將“good”替換為“g00d”屬于字符級(jí)注入攻擊,可繞過基于子詞的分詞器。答案:正確解析:字符擾動(dòng)在子詞前完成,可能映射為不同token,導(dǎo)致模型誤判。30.對于UniLM,其雙向、單向、seq2seq三種注意力掩碼通過修改attentionmask矩陣實(shí)現(xiàn),無需改變模型參數(shù)。答案:正確解析:UniLM統(tǒng)一使用BERT骨架,僅通過不同的掩碼矩陣控制上下文可見性。五、簡答題(每題8分,共24分)31.描述如何在不增加額外推理延遲的前提下,將LoRA權(quán)重合并到原始LLM,并給出偽代碼。答案:設(shè)原線性權(quán)重W∈R^{m×n},LoRA低秩分解?W=BA,B∈R^{m×r},A∈R^{r×n},訓(xùn)練后只需計(jì)算W'=W+BA。偽代碼:```pythonimporttorchdefmerge_lora(W,B,A,alpha=1.0):W:nn.Parameter,B,A:nn.Parameterwithtorch.no_grad():W.addmm_(B,A,alpha=alpha)inplace更新delB,A釋放LoRA內(nèi)存```解析:推理前執(zhí)行一次合并,后續(xù)計(jì)算與原始模型完全一致,零額外延遲。32.對比“課程學(xué)習(xí)”(CurriculumLearning)與“自步學(xué)習(xí)”(SelfPacedLearning)在預(yù)訓(xùn)練語言模型繼續(xù)訓(xùn)練階段的差異,并給出適用場景。答案:課程學(xué)習(xí)由人工或啟發(fā)式規(guī)則按難度遞增排序數(shù)據(jù),模型被動(dòng)跟隨;自步學(xué)習(xí)由模型自身選擇損失小的樣本,主動(dòng)決定“簡單”樣本,逐步增加難度。適用場景:1.課程學(xué)習(xí)適合已有明確難度度量,如文本長度、詞匯復(fù)雜度;2.自步學(xué)習(xí)適合噪聲較多、難度難以先驗(yàn)定義的領(lǐng)域,如社交媒體文本。解析:前者控制流固定,后者動(dòng)態(tài)調(diào)整,對噪聲魯棒性更強(qiáng)。33.解釋為何在檢索增強(qiáng)生成(RAG)中,使用“檢索結(jié)果重排”(rerank)能提升最終答案準(zhǔn)確率,并給出一種輕量級(jí)重排模型結(jié)構(gòu)。答案:初始檢索采用雙編碼器,效率優(yōu)先但交互有限;重排階段使用交叉編碼器,同時(shí)編碼query與passage,捕獲細(xì)粒度交互,提升排序精度,進(jìn)而減少生成器輸入噪聲。輕量級(jí)結(jié)構(gòu):MiniLMcrossencoder,6層Transformer,hidden384,參數(shù)僅23M,推理延遲<5ms/passage(V100)。解析:交叉注意力提供richermatchingsignal,尤其利于消歧。六、計(jì)算與推導(dǎo)題(共21分)34.(11分)給定單頭注意力機(jī)制,輸入序列長度n=4,d_k=8,Q,K,V∈R^{4×8}。設(shè)QK^T結(jié)果矩陣為[[10,8,6,4],[12,14,10,8],[8,10,12,6],[4,6,8,10]](1)計(jì)算縮放后softmax(A)矩陣(保留兩位小數(shù));(2)若V矩陣全為1,求輸出矩陣O第一行元素和;(3)分析當(dāng)n→∞時(shí),softmax(QK^T/√d_k)的稀疏度趨勢。答案:(1)縮放后矩陣M=QK^T/√8,√8≈2.828,得M=[[3.54,2.83,2.12,1.41],[4.24,4.95,3.54,2.83],[2.83,3.54,4.24,2.12],[1.41,2.12,2.83,3.54]]對每行做softmax,例如第一行:exp值=[34.8,16.9,8.3,4.1],行和=64.1,歸一化后[0.54,0.26,0.13,0.06]同理得完整矩陣:[[0.54,0.26,0.13,0.06],[0.24,0.44,0.20,0.12],[0.17,0.24,0.40,0.19],[0.06,0.13,0.26,0.54]](2)V全1,O=softmax(QK^T/√d_k)V,每行權(quán)重和為1,故O第一行元素和=1×8=8(d_v=8,每列相同)。(3)當(dāng)n→∞,√d_k固定,點(diǎn)積方差隨n線性增加,導(dǎo)致最大值與均值差趨于∞,softmax輸出趨向onehot,稀疏度→1。解析:理論上方差O(n)增長,softmax濃度增高,注意力稀疏。35.(10分)假設(shè)使用INT8量化感知訓(xùn)練(QAT)對Transformer的矩陣乘法Y=XW進(jìn)行量化,權(quán)重組大小為128,采用對稱perchannel量化。(1)寫出量化公式與反量化公式;(2)若某通道權(quán)重最大絕對值|W_max|=2.0,求縮放因子s;(3)推導(dǎo)量化后該通道的舍入噪聲方差,并說明如何插入偽量化節(jié)點(diǎn)實(shí)現(xiàn)梯度回傳。答案:(1)對稱量化:W_q=round(W/s),s=|W_max|/127反量化:W?=W_q×s(2)s=2.0/127≈0.01575(3)舍入噪聲e=W??W,均勻分布在[?s/2,s/2],方差σ2=s2/12≈2.07×10??偽量化節(jié)點(diǎn)前向:W_q=round(W/s)×s,反向直通估計(jì)器(STE):?W_q/?W=1解析:STE使梯度直接穿過round,簡化實(shí)現(xiàn),訓(xùn)練時(shí)模擬量化誤差。七、綜合應(yīng)用題(共30分)36.某企業(yè)需構(gòu)建“可控多風(fēng)格營銷文案生成”系統(tǒng),要求:a.支持“正式/幽默/激勵(lì)”三種風(fēng)格,且可通過自然語言指令即時(shí)切換;b.輸出需包含一個(gè)產(chǎn)品關(guān)鍵詞,長度50~

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論