2025自然語(yǔ)言處理工程師秋招題庫(kù)及答案_第1頁(yè)
2025自然語(yǔ)言處理工程師秋招題庫(kù)及答案_第2頁(yè)
2025自然語(yǔ)言處理工程師秋招題庫(kù)及答案_第3頁(yè)
2025自然語(yǔ)言處理工程師秋招題庫(kù)及答案_第4頁(yè)
2025自然語(yǔ)言處理工程師秋招題庫(kù)及答案_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025自然語(yǔ)言處理工程師秋招題庫(kù)及答案一、單選題(每題2分,共20分)1.在Transformer架構(gòu)中,用于防止某一位置在自注意力計(jì)算中“偷看”后續(xù)位置的機(jī)制是A.DropoutB.LayerNormC.因果掩碼(CausalMask)D.相對(duì)位置編碼答案:C解析:因果掩碼將未來(lái)位置設(shè)為?∞,Softmax后概率為0,保證自回歸特性。2.下列哪種子詞切分算法在訓(xùn)練階段顯式引入似然目標(biāo)函數(shù)A.BPEB.WordPieceC.UnigramLanguageModelD.SentencePiece答案:C解析:UnigramLM通過(guò)最大化似然并迭代刪除對(duì)似然貢獻(xiàn)最小的子詞,與BPE/WordPiece的合并計(jì)數(shù)策略不同。3.使用Adam優(yōu)化器時(shí),若β1=0.9,β2=0.999,則第t步的偏差修正后學(xué)習(xí)率與真實(shí)二階矩估計(jì)之比約為A.1/(1?β2^t)B.(1?β2^t)/(1?β1^t)C.(1?β1^t)/(1?β2^t)D.1答案:C解析:Adam論文中給出修正公式,二階矩修正項(xiàng)在分母,故選C。4.在文本風(fēng)格遷移任務(wù)中,若采用“無(wú)平行語(yǔ)料”的解耦思路,通常需要額外約束A.循環(huán)一致性損失B.最大似然損失C.交叉熵D.負(fù)采樣答案:A解析:無(wú)平行數(shù)據(jù)時(shí),需保證內(nèi)容向量在往返遷移后重建原句,循環(huán)一致性提供弱監(jiān)督。5.當(dāng)使用混合精度訓(xùn)練時(shí),LossScaling的主要目的是A.減少顯存占用B.避免梯度下溢C.加速通信D.提高批大小答案:B解析:FP16下梯度易下溢,乘以Scale因子后回傳,再縮放更新,保留微小梯度信息。6.在BERT預(yù)訓(xùn)練中,NSP任務(wù)正負(fù)樣本比例通常設(shè)為A.1:1B.1:2C.1:3D.1:4答案:A解析:原始論文中50%下一句真實(shí),50%隨機(jī),保證平衡。7.下列哪項(xiàng)技術(shù)最適用于“端到端”直接輸出結(jié)構(gòu)化JSON而非線(xiàn)性文本A.PointerGeneratorB.T5的TexttoTextC.LUKE實(shí)體增強(qiáng)D.GPT3的FewshotPrompt答案:B解析:T5將一切任務(wù)轉(zhuǎn)為T(mén)exttoText,可序列化JSON字符串,實(shí)現(xiàn)端到端。8.在對(duì)話(huà)系統(tǒng)中,若采用MIPS(MaximumInnerProductSearch)檢索候選回復(fù),向量索引通常使用A.IVF+HNSWB.B樹(shù)C.倒排TFIDFD.最小堆答案:A解析:IVF先聚類(lèi)縮小候選,HNSW在簇內(nèi)做圖搜索,兼顧速度與精度。9.當(dāng)模型參數(shù)量>130億,單卡顯存不足時(shí),下列哪種并行策略對(duì)“注意力層”內(nèi)存開(kāi)銷(xiāo)降低最顯著A.DataParallelB.PipelineParallelC.TensorParallelD.ZeROOffload答案:C解析:TensorParallel把矩陣按列/行切分,每張卡只存部分權(quán)重,顯存線(xiàn)性下降。10.在中文NER任務(wù)中,若使用FlatLattice結(jié)構(gòu),其圖構(gòu)建階段的核心操作是A.動(dòng)態(tài)規(guī)劃合并部首B.將詞匯節(jié)點(diǎn)與字符節(jié)點(diǎn)按首尾位置連邊C.構(gòu)建句法樹(shù)D.計(jì)算互信息答案:B解析:Lattice通過(guò)詞匯節(jié)點(diǎn)與字符節(jié)點(diǎn)按span連邊,保留多粒度和沖突信息。二、多選題(每題3分,共15分,多選少選均不得分)11.以下哪些trick可緩解Transformer在長(zhǎng)文本上的O(n2)顯存爆炸A.Linformer投影B.Performer線(xiàn)性注意力C.GradientCheckpointingD.ALiBi位置偏置答案:ABC解析:Linformer與Performer降低復(fù)雜度;Checkpointing以時(shí)間換空間;ALiBi僅改變偏置,不降低顯存。12.在對(duì)比學(xué)習(xí)損失InfoNCE中,下列說(shuō)法正確的是A.溫度系數(shù)τ越小,分布越尖銳B.負(fù)樣本越多,梯度方差越小C.損失上界為log(負(fù)樣本數(shù)+1)D.與交叉熵形式等價(jià)答案:AC解析:τ→0近似hardmax;負(fù)樣本增加降低方差但計(jì)算增大;上界log(k+1)可推導(dǎo);形式類(lèi)似但不等價(jià)。13.關(guān)于PromptTuning與PTuningv2的區(qū)別,正確的是A.前者只調(diào)prompt嵌入,后者調(diào)深層promptB.后者在NLU任務(wù)上可媲美全參數(shù)微調(diào)C.前者需人工模板,后者用LSTM生成連續(xù)promptD.二者參數(shù)量均<0.1%答案:AB解析:PTuningv2將連續(xù)prompt插入每層,提升NLU;PromptTuning僅輸入層;v2不再用LSTM;參數(shù)量v2稍大但仍<1%。14.在文本生成評(píng)價(jià)中,下列指標(biāo)與ngram重疊度無(wú)關(guān)的是A.BLEUB.ROUGELC.BERTScoreD.BLEURT答案:CD解析:BERTScore與BLEURT基于上下文Embedding,不直接數(shù)ngram。15.當(dāng)使用DPO(DirectPreferenceOptimization)對(duì)齊大模型時(shí),其優(yōu)化目標(biāo)與下列哪些技術(shù)思想相通A.RLHF中的PPO階段B.對(duì)比學(xué)習(xí)C.最小化交叉熵D.BradleyTerry模型答案:ABD解析:DPO跳過(guò)強(qiáng)化學(xué)習(xí),直接優(yōu)化偏好似然,隱含BradleyTerry;與對(duì)比學(xué)習(xí)同用正負(fù)對(duì);交叉熵非直接目標(biāo)。三、填空題(每空2分,共20分)16.在RoPE位置編碼中,復(fù)數(shù)旋轉(zhuǎn)角θ_k=________,其目標(biāo)是使注意力得分僅依賴(lài)相對(duì)位置i?j。答案:10000^(?2k/d)解析:通過(guò)復(fù)數(shù)極坐標(biāo)形式e^(iθ(i?j))實(shí)現(xiàn)相對(duì)位置內(nèi)積。17.若使用DeepSpeedZeRO3,優(yōu)化器狀態(tài)、梯度、模型參數(shù)均被________,從而把7.5B模型顯存從28GB降至________GB(fp16,無(wú)offload)。答案:分片;1.2解析:ZeRO3三分片,顯存≈(2Φ+2K)/Nd,Φ為參數(shù)量,Nd為卡數(shù),單卡≈1.2GB。18.在中文文本糾錯(cuò)中,若采用“混淆集”策略,需先對(duì)句子做________檢測(cè),再對(duì)可疑位置用音近/形近混淆字做________排序。答案:錯(cuò)誤;候選19.當(dāng)使用FSDP(FullyShardedDataParallel)時(shí),前向計(jì)算前需執(zhí)行________操作,保證參數(shù)在________精度下完整。答案:allgather;fp16/bf16解析:FSDP層內(nèi)分片,前向時(shí)allgather組裝,計(jì)算完即釋放。20.若將SentenceTransformer微調(diào)為雙語(yǔ)檢索模型,損失函數(shù)常采用________,其負(fù)樣本需滿(mǎn)足________難度。答案:MultipleNegativesRanking;難負(fù)例(hardnegative)解析:MNRL拉近正樣本、推遠(yuǎn)負(fù)樣本;難負(fù)例提升魯棒性。四、判斷題(每題1分,共10分,正確寫(xiě)“T”,錯(cuò)誤寫(xiě)“F”)21.ELECTRA采用生成器判別器結(jié)構(gòu),其判別器任務(wù)為預(yù)測(cè)被替換的token。答案:T解析:ELECTRA用小型生成器采樣替換,判別器判斷每個(gè)token是否被替換,效率高于MLM。22.在GPT解碼中,使用topk采樣時(shí)k越大,重復(fù)懲罰系數(shù)應(yīng)越小。答案:T解析:k大則候選多,重復(fù)懲罰可放松,避免過(guò)度抑制。23.使用LoRA微調(diào)時(shí),若秩r=1,則梯度更新矩陣秩必為1。答案:T解析:LoRA更新為BA,秩≤min(r,out_features),r=1則秩≤1。24.在Transformer中,LayerNorm的γ與β參數(shù)在預(yù)訓(xùn)練后凍結(jié),可顯著加速推理。答案:F解析:LayerNorm參數(shù)占比極小,凍結(jié)幾乎無(wú)加速,且可能影響分布。25.對(duì)于多輪對(duì)話(huà),若采用“拼接歷史”方式,ROUGE指標(biāo)一定高于“獨(dú)立回復(fù)”評(píng)估。答案:F解析:拼接歷史增加長(zhǎng)度,ROUGE可能因ngram稀釋反而下降。26.使用混合專(zhuān)家(MoE)時(shí),門(mén)控網(wǎng)絡(luò)輸出為onehot,則專(zhuān)家負(fù)載必然均衡。答案:F解析:Onehot導(dǎo)致Top1路由,負(fù)載易傾斜,需輔助損失約束。27.在中文分詞中,若采用CRF解碼,轉(zhuǎn)移矩陣可學(xué)習(xí)出“BMES”標(biāo)簽的合法轉(zhuǎn)移。答案:T解析:CRF通過(guò)轉(zhuǎn)移矩陣自動(dòng)學(xué)習(xí)標(biāo)簽順序約束。28.當(dāng)使用FlashAttention時(shí),Attention計(jì)算復(fù)雜度由O(n2)降至O(nlogn)。答案:F解析:FlashAttention通過(guò)分塊+重計(jì)算降低顯存,計(jì)算量仍為O(n2),但常數(shù)小。29.在文本對(duì)抗訓(xùn)練(FGM)中,擾動(dòng)范數(shù)ε越大,模型魯棒性一定越好。答案:F解析:ε過(guò)大導(dǎo)致分布外擾動(dòng),性能可能崩潰。30.若將BERT的激活函數(shù)由GELU改為ReLU,模型參數(shù)量不變。答案:T解析:激活函數(shù)無(wú)參數(shù),僅計(jì)算方式改變。五、簡(jiǎn)答題(每題8分,共24分)31.描述如何在不增加額外標(biāo)注的情況下,利用“迭代自訓(xùn)練”提升低資源NER效果,并給出偽代碼。答案:步驟:1)用少量標(biāo)注數(shù)據(jù)訓(xùn)練初始Teacher模型;2)對(duì)大規(guī)模無(wú)標(biāo)注文本預(yù)測(cè),保留高置信度(entropy<τ)偽標(biāo)簽;3)合并人工標(biāo)注與偽標(biāo)簽,重新訓(xùn)練Student;4)Student成為新Teacher,重復(fù)K次。偽代碼:```forkinrange(K):pseudo=[]forxinunlabeled:logits=teacher(x)ifentropy(logits)<tau:pseudo.append((x,argmax(logits)))new_data=human+pseudostudent=train(new_data)teacher=student```解析:自訓(xùn)練利用模型自身知識(shí)迭代擴(kuò)增,高置信篩選降低噪聲,適合低資源場(chǎng)景。32.解釋為何“旋轉(zhuǎn)位置編碼(RoPE)”在長(zhǎng)度外推時(shí)優(yōu)于絕對(duì)位置編碼,并給出外推長(zhǎng)度≥2L時(shí)的兩點(diǎn)工程技巧。答案:RoPE將位置信息注入QK點(diǎn)積,使注意力僅依賴(lài)相對(duì)距離i?j,與絕對(duì)位置無(wú)關(guān),故具備天然外推能力;絕對(duì)編碼需訓(xùn)練時(shí)見(jiàn)過(guò)長(zhǎng)位,否則外推失效。技巧:1)線(xiàn)性插值:將θ_k按比例α=L'/L縮放,使新位置映射到原區(qū)間;2)NTKRoPE:高頻分量少插值、低頻多插值,保持周期特性,減少性能下降。解析:通過(guò)調(diào)整旋轉(zhuǎn)角,模型無(wú)需重訓(xùn)即可處理更長(zhǎng)文本。33.對(duì)比“PrefixLM”與“CausalLM”在微調(diào)摘要任務(wù)時(shí)的差異,并說(shuō)明何種場(chǎng)景下PrefixLM更優(yōu)。答案:PrefixLM:編碼器可見(jiàn)雙向上下文,解碼器自回歸;CausalLM:全自回歸。差異:1)PrefixLM編碼階段可并行,速度↑;2)摘要需理解全文,PrefixLM雙向編碼捕獲全局信息,減少重復(fù)與事實(shí)錯(cuò)誤;3)CausalLM需更長(zhǎng)prompt提示,易超出長(zhǎng)度限制。場(chǎng)景:長(zhǎng)文檔摘要、多語(yǔ)種摘要、低資源場(chǎng)景下PrefixLM更優(yōu)。解析:雙向編碼提升信息完整性,尤其適合長(zhǎng)輸入。六、編程與計(jì)算題(共31分)34.(10分)給定一個(gè)batch的注意力權(quán)重矩陣A∈R^(b×n×n),其中n=2048,b=4,顯存占用超標(biāo)。請(qǐng)用FlashAttention思想手寫(xiě)PyTorch偽代碼實(shí)現(xiàn)分塊計(jì)算Softmax(QK^T)V,要求:1)分塊大小Bc=Br=256;2)不存儲(chǔ)整個(gè)n×n矩陣;3)輸出O與L(歸一化因子)形狀正確。答案:```Q,K,V:[b,n,d]b,n,d=Q.shapeBc=Br=256O=torch.zeros_like(Q)L=torch.zeros(b,n,1,device=Q.device)foriinrange(0,n,Br):Qi=Q[:,i:i+Br][b,Br,d]Oi=torch.zeros_like(Qi)Li=torch.full((b,Br,1),inf,device=Q.device)forjinrange(0,n,Bc):Kj=K[:,j:j+Bc]Vj=V[:,j:j+Bc]Sij=torch.einsum('bnd,bmd>bnm',Qi,Kj)(d0.5)mij=Sij.max(dim=1,keepdim=True)[0]Pij=torch.exp(Sijmij)Lij=Pij.sum(dim=1,keepdim=True)onlinesoftmaxupdateli_new=Li+Lijtorch.exp(mijLi)Oi=(OiLi+torch.einsum('bnm,bmd>bnd',Pij,Vj))/li_newLi=li_newO[:,i:i+Br]=OiL[:,i:i+Br]=Li```解析:雙重循環(huán)分塊,每塊計(jì)算局部Softmax并用onlinesoftmax歸一化,避免存儲(chǔ)n×n。35.(10分)假設(shè)使用LoRA微調(diào)LLaMA7B,秩r=16,目標(biāo)模塊為q_proj、v_proj,隱藏維度h=4096。計(jì)算:1)新增參數(shù)量;2)若原模型7B參數(shù)需14GB顯存(fp16),LoRA梯度+優(yōu)化器狀態(tài)需額外多少顯存(Adam,fp32主權(quán)重)。答案:1)每層q,v兩個(gè)矩陣,共n=32層,新增=2×n×(h×r+r×h)=2×32×(4096×16×2)=8.4M;2)梯度f(wàn)p16:8.4M×2B=16.8MB;主權(quán)重fp32:8.4M×4B=33.6MB;Adamm,v:2×33.6MB=67.2MB;總計(jì)≈117MB。解析:LoRA僅訓(xùn)練低秩矩陣,顯存可忽略。36.(11分)給定一個(gè)批次含負(fù)樣本的對(duì)比學(xué)習(xí)場(chǎng)景,溫度τ=0.05,batchsize=32,特征維度=128。若使用混合精度(fp16)訓(xùn)練,請(qǐng)寫(xiě)出:1)InfoNCE損失公式;2)為避免fp16下溢,特征L2歸一化后需乘的縮放因子s;3)若使用allgather跨8卡擴(kuò)大負(fù)樣本,理論負(fù)樣本數(shù)。答案:1)L=?1/B∑_ilog(exp(z_i·z_{i'}/τ)/(∑_{k≠i}exp(z_i·z_k/τ)+exp(z_i·z_{i'}/τ)));2)s=1/√d=1/√128≈0.088,保證點(diǎn)積≈1,Softmax輸入≈20,fp16可表

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論