2025自然語言處理工程師招聘試題及答案_第1頁
2025自然語言處理工程師招聘試題及答案_第2頁
2025自然語言處理工程師招聘試題及答案_第3頁
2025自然語言處理工程師招聘試題及答案_第4頁
2025自然語言處理工程師招聘試題及答案_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

2025自然語言處理工程師招聘試題及答案一、單項選擇(每題2分,共20分)1.在Transformer架構(gòu)中,用于將輸入序列壓縮為固定長度上下文向量的子層是A.多頭自注意力?B.位置前饋網(wǎng)絡?C.編碼器最終層輸出?D.解碼器交叉注意力答案:C解析:編碼器最終層輸出即為整個輸入序列的上下文表示,供解碼器使用;其余選項均不直接承擔“壓縮”職責。2.下列哪項技術(shù)最直接緩解了BERT預訓練階段“預訓練微調(diào)不一致”問題?A.WholeWordMasking?B.NSP任務?C.RoBERTa移除NSP?D.SpanBERT的SBO答案:D解析:SpanBERT提出的SpanBoundaryObjective顯式訓練邊界表示,使掩碼片段在微調(diào)階段更一致地被利用,直接緩解不一致。3.在對比學習損失InfoNCE中,溫度系數(shù)τ→0時,梯度主要流向A.所有負樣本均勻?B.最難負樣本?C.正樣本?D.梯度消失答案:B解析:τ→0時softmax趨近于onehot,損失近似maxmargin,梯度集中在與正樣本最接近的負樣本。4.使用LoRA對大模型進行參數(shù)高效微調(diào)時,可訓練參數(shù)量的數(shù)量級約為A.0.1%?B.1%?C.10%?D.50%答案:A解析:LoRA在注意力權(quán)重中引入低秩分解,典型秩r=4~16,可訓練參數(shù)量約為原模型0.1%。5.在文本生成任務中,若重復懲罰系數(shù)設置過大,最可能導致的副作用是A.生成過短?B.生成跑題?C.生成亂碼?D.生成速度變慢答案:A解析:過度懲罰重復token會迫使模型選擇概率低的新詞,導致提前遇到EOS,輸出變短。6.下列哪種位置編碼可以天然外推到比訓練時更長的序列?A.絕對正弦?B.ALiBi?C.可學習絕對?D.相對TransformerXL答案:B解析:ALiBi將線性偏置直接加在注意力分數(shù)上,偏置與位置差呈固定線性關系,長度外推無需額外參數(shù)。7.在指令微調(diào)階段加入“思維鏈”樣本主要提升的是A.模型容量?B.推理可解釋性?C.低資源泛化?D.推理深度答案:D解析:思維鏈顯式生成中間推理步驟,使模型在復雜多跳推理任務上獲得更深層次的計算路徑。8.當使用FAISSIVF1024,PQ64索引時,PQ64的含義是A.64位量化?B.64維子空間乘積量化?C.64字節(jié)碼本?D.64簇倒排答案:B解析:PQ64表示將原始向量拆成64個子向量分別量化,乘積量化壓縮存儲。9.在中文文本糾錯任務中,若混淆集主要發(fā)生在“的得地”,最合適的評估指標是A.BLEU?B.F1span?C.M2?D.ERRANT答案:C解析:M2(MaxMatch)專為語法糾錯設計,支持字符級粒度的正誤邊界匹配。10.當使用DeepSpeedZeRO3時,下列哪類參數(shù)被分區(qū)到各GPU?A.激活?B.優(yōu)化器狀態(tài)+梯度+模型參數(shù)?C.僅優(yōu)化器狀態(tài)?D.僅梯度答案:B解析:ZeRO3將模型參數(shù)、梯度、優(yōu)化器狀態(tài)全部按層分區(qū),實現(xiàn)極致內(nèi)存節(jié)省。二、多項選擇(每題3分,共15分,多選少選均不得分)11.以下哪些方法可以顯式降低大模型推理時延?A.KVcache復用?B.動態(tài)批處理?C.激活量化INT8?D.梯度檢查點答案:A、B、C解析:KVcache減少重復計算;動態(tài)批處理提高吞吐;INT8加速矩陣乘;梯度檢查點僅節(jié)省訓練內(nèi)存,不降低推理時延。12.關于PromptTuning與PTuningv2的區(qū)別,正確的是A.前者只在輸入層加連續(xù)prompt?B.后者在每一層加可訓練向量?C.后者參數(shù)量更大?D.兩者都不更新模型參數(shù)答案:A、B、C、D解析:PTuningv2將深度prompt引入所有層,參數(shù)量高于PromptTuning,但二者均凍結(jié)主干。13.在訓練文本匹配模型時,使用難負樣本挖掘(hardnegativemining)可能帶來的風險有A.訓練不穩(wěn)定?B.過擬合噪聲?C.收斂變慢?D.正樣本梯度消失答案:A、B、C解析:難負樣本可能含標簽噪聲導致過擬合;梯度方差大導致不穩(wěn)定;需更多迭代才能收斂。14.下列哪些技術(shù)可直接用于“無監(jiān)督中文分詞”?A.PMI+頻率閾值?B.BytePairEncoding?C.基于Lattice的預訓練?D.基于Transformer的Seq2Seq答案:A、B、C解析:PMI與BPE為經(jīng)典無監(jiān)督方法;LatticeLM可在無標注字符序列上預訓練分詞;純Seq2Seq需標注。15.在RLHF階段,如果獎勵模型過度擬合人類偏好數(shù)據(jù),可能導致A.PPO更新方差增大?B.策略模型生成短句?C.策略模型溜須拍馬?D.策略模型利用獎勵黑客答案:A、C、D解析:獎勵模型過擬合會給出極端高分,策略模型利用漏洞生成“投其所好”卻無意義文本,同時梯度方差變大。三、填空題(每空2分,共20分)16.在Transformer中,若隱藏維度d=512,頭數(shù)h=8,則每個頭的維度為______。答案:64解析:512/8=64。17.若使用F1score衡量實體識別性能,當實體邊界必須完全匹配時,該準則稱為______評估。答案:exactmatch解析:exactmatch要求起始、結(jié)束、類型三者完全一致。18.在對比學習里,若batchsize=N,則對于每個樣本,InfoNCE損失中的負樣本數(shù)量為______。答案:N1解析:除自身外的batch內(nèi)其余樣本均為負例。19.若將GPT3175B模型權(quán)重以FP16存儲,所需內(nèi)存約為______GB。答案:350解析:175×10^9×2Byte≈350GB。20.使用BeamSearch時,若beamwidth=k,則每步需要保留的候選序列數(shù)為______。答案:k解析:每步從k×V個token中選topk序列。21.在中文BERT中,若詞匯表大小為21128,則Embedding層參數(shù)量約為______萬。答案:21128×768≈1622萬解析:21128×768/10^4≈1622。22.當使用混合精度訓練時,損失縮放(lossscaling)的主要目的是防止______下溢。答案:梯度解析:FP16梯度易下溢,乘以scale因子后放大,更新前再縮放。23.在指令微調(diào)中,若采用“用戶助手”對話格式,模板通常用______特殊token分隔角色。答案:<|im_start|>、<|im_end|>(或<|user|>、<|assistant|>,答出任意合理即可)解析:此類token幫助模型識別角色邊界。24.若使用ROUGEL評估摘要,其本質(zhì)是基于______最長公共子序列。答案:Fmeasure解析:ROUGEL計算LCS的precision、recall后取F1。25.當使用DeepspeedMiCS對參數(shù)做分片時,通信復雜度從O(G)降低到______。答案:O(G/N)解析:MiCS將通信量均攤到N卡,線性降低。四、簡答題(每題8分,共24分)26.描述如何通過“旋轉(zhuǎn)位置編碼(RoPE)”實現(xiàn)長度外推,并給出數(shù)學表達式。答案:RoPE將查詢q、鍵k與二維旋轉(zhuǎn)矩陣相乘,使內(nèi)積僅依賴于相對位置mn。具體地,對第d維向量x=[x0,x1,…,xd1],按相鄰兩維分組,對第i組應用[cos(mθi)sin(mθi)][sin(mθi)cos(mθi)]其中θi=10000^(2i/d)。由于旋轉(zhuǎn)僅依賴相對距離,訓練時未見過的長距離仍可用相同公式計算,故可外推。27.解釋“梯度累積”與“微批次”的關系,并給出在顯存受限時計算有效批大小的公式。答案:設微批次大小為m,梯度累積步數(shù)為G,則有效批大小B=m×G。前向反向僅處理m條樣本,但將梯度累加G次后才更新參數(shù),等價于一次性處理B條樣本的梯度。顯存峰值由m決定,訓練吞吐量由B決定。28.對比“知識蒸餾”與“模型融合”在提升小模型效果上的差異,并給出各自適用場景。答案:知識蒸餾利用大模型輸出的軟標簽或中間特征作為監(jiān)督,小模型學習模仿,適用于在線部署對延遲敏感場景;模型融合將多個模型預測加權(quán),不改動原模型,適用于離線競賽或容忍多倍計算場景。蒸餾可壓縮十倍參數(shù)量,融合通常保持原規(guī)模但提升上限。五、計算與推導題(共21分)29.(10分)給定一個單頭注意力,查詢q∈R^1×d,鍵值對K,V∈R^n×d,d=64,n=128。假設采用標準縮放點積注意力,計算其FLOPs,并分析若采用FlashAttention分塊大小為Bc=32,Br=32,則HBM讀寫量降低多少倍(忽略mask、dropout)。答案:(1)標準注意力FLOPs=2nd+nd+n=2×128×64+128×64+128=24576次乘加≈24.6KFLOPs。(2)標準HBM讀寫:QK^T需寫128×1=128,Softmax讀128寫128,WeightedSum讀128×64寫64,共約128+128+128×64+64≈8576float。(3)FlashAttention分塊后,QK^T在SRAM內(nèi)完成,無需寫回HBM,僅輸出O需寫回,共寫64,讀K,V每塊32×64,共4塊,讀4×32×64×2=16384,但可流水線重疊,實際最小HBM通信為O的64+KV的16384=16448。降低倍數(shù)為8576/16448≈0.52,即通信反而略增;但若不統(tǒng)計KV緩存復用,僅統(tǒng)計中間矩陣寫回,則從256降至64,降低4倍。評分以思路為主,答出“避免大中間矩陣寫回”即可給滿分。30.(11分)設使用PPO訓練策略πθ,舊策略π_old,優(yōu)勢函數(shù)A^π_old,clip范圍ε=0.1。給定某樣本的概率比rt=πθ(a|s)/π_old(a|s)=1.15,A=+2,計算該樣本對策略參數(shù)的梯度貢獻(無需算期望,僅寫出損失函數(shù)對rt的偏導),并解釋符號含義。答案:L^CLIP=min(rtA,clip(rt,1ε,1+ε)A)當rt=1.15<1.1,實際取clip=1.1,故L=min(1.15×2,1.1×2)=2.2?L/?rt=0(因clip生效,梯度不回流到rt)若rt=1.05,則未觸clip,?L/?rt=A=2符號負號表示:若A>0,應增加rt,即提升該動作概率;若A<0,應降低。六、編程與實戰(zhàn)題(共30分)31.(15分)請用PyTorch實現(xiàn)一個帶RoPE的多頭自注意力模塊,要求:(1)支持任意長度外推;(2)使用einsum實現(xiàn)批量矩陣乘;(3)返回注意力權(quán)重矩陣供可視化。答案:```pythonimporttorchimporttorch.nnasnnimportmathclassRoPEMultiHeadAttention(nn.Module):def__init__(self,d_model,nhead,base=10000):super().__init__()assertd_model%nhead==0self.d_k=d_model//nheadself.nhead=nheadself.wq=nn.Linear(d_model,d_model)self.wk=nn.Linear(d_model,d_model)self.wv=nn.Linear(d_model,d_model)self.wo=nn.Linear(d_model,d_model)self.base=basedefrotary_embed(self,x,seq_len):device=x.devicehalf=self.d_k//2theta=1.0/(self.base(torch.arange(0,half,device=device).float()/half))seq=torch.arange(seq_len,device=device).float()freq=torch.outer(seq,theta)[seq,half]cos,sin=torch.cos(freq),torch.sin(freq)x1,x2=x[...,:half],x[...,half:]rx1=cosx1sinx2rx2=sinx1+cosx2returntorch.cat((rx1,rx2),dim=1)defforward(self,x):b,seq,d=x.size()q=self.wq(x).view(b,seq,self.nhead,self.d_k).transpose(1,2)k=self.wk(x).view(b,seq,self.nhead,self.d_k).transpose(1,2)v=self.wv(x).view(b,seq,self.nhead,self.d_k).transpose(1,2)q=self.rotary_embed(q,seq)k=self.rotary_embed(k,seq)scores=torch.einsum('bhqd,bhkd>bhqk',q,k)/math.sqrt(self.d_k)attn=torch.softmax(scores,dim=1)out=torch.einsum('bhqk,bhkd>bhqd',attn,v)out=out.transpose(1,2).contiguous().view(b,seq,d)returnself.wo(out),attn```解析:rotary_embed函數(shù)利用二維旋轉(zhuǎn)矩陣對每對維度施加位置相關旋轉(zhuǎn),實現(xiàn)RoPE;einsum保持維度語義清晰;返回attn供可視化。32.(15分)給定一個包含100萬條中文queryanswer對的數(shù)據(jù)集,請設計一個“難負樣本”挖掘pipeline,要求:(1)訓練初期與后期采用不同策略;(2)負樣本需保證“語義相近但答案錯誤”;(3)給出偽代碼并說明如何自動評估負樣本難度。答案:偽代碼:```階段1:初始訓練forepochin0..3:dataloader=random_negative_sampling(dataset,ratio=1)train(model,dataloader)build_index(model,dataset)編碼所有answer階段2:難負挖掘forepochin4..10:hard_examples=[]forq,a_posindataset:A=retrieve_topk(q,k=100)近似最近鄰negatives=[]forainA:ifa!=a_posandanswer_wrong(a,gold=a_pos):score=dot(q_enc,a_enc)negatives.append((a,score))negatives.sort(key=lambdax:x[1],reverse=True)hard_examples.append((q,a_pos,negatives[:5]))dataloader=build_dataloader(hard_examples)train(model,dataloader)自動評估難度defdifficulty(q,a_neg):s=model.score(q,a_neg

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論