2025自然語言處理工程師校招筆試題及答案

上傳人：子*** IP屬地：四川上傳時間：2026-01-19 格式：DOCX 頁數：18 大?。?8.15KB 積分：12 舉報 版權申訴

已閱讀5頁，還剩13頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

2025自然語言處理工程師校招筆試題及答案一、單選題（每題2分，共20分）1.在Transformer中，ScaledDotProductAttention的縮放因子為A.√d_kB.d_kC.1/√d_kD.d_v答案：A解析：為防止點積結果過大進入softmax飽和區(qū)，需除以√d_k，保持梯度穩(wěn)定。2.下列哪一項不是BERT預訓練任務A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.以上都是答案：C解析：BERT僅使用MLM與NSP，SOP為ALBERT改進任務。3.使用Word2Vec訓練時，若目標詞w與上下文詞c共現頻次極高，則SkipGram的目標函數梯度更新會使得A.w與c向量趨于正交B.w與c向量趨于平行C.w向量模長急劇減小D.c向量模長急劇增大答案：B解析：高頻共現使點積得分高，梯度推動兩者向量同向，余弦趨近1。4.在seq2seq+attention中，若encoder輸出序列長度為n，decoder每步計算attention需進行幾次向量點積A.nB.n2C.1D.2n答案：A解析：每步對n個encoder隱狀態(tài)計算一次點積得到n個權重。5.下列激活函數在x=0處不可導的是A.ReLUB.GELUC.SwishD.tanh答案：A解析：ReLU在0處左導數0右導數1，不可導。6.若使用Adam優(yōu)化器，β?=0.9，β?=0.999，則初始階段biascorrection的作用是A.放大梯度B.縮小學習率C.使一階矩估計更接近真實均值D.使二階矩估計更接近真實方差答案：C解析：初始一階矩m?=0，需除以(1β?^t)校正。7.在GPT3175B模型中，采用的最大學習率調度策略是A.線性預熱+余弦衰減B.線性預熱+線性衰減C.余弦預熱+線性衰減D.反平方根衰減答案：B解析：OpenAI論文明確使用linearwarmup+lineardecay。8.下列中文分詞方法屬于生成式模型的是A.正向最大匹配B.CRFC.HMMD.字節(jié)對編碼BPE答案：C解析：HMM為生成式，CRF為判別式，BPE為子詞分割算法。9.在FewRel數據集上，使用原型網絡PrototypicalNetworks時，類別原型計算方式為A.支持集樣本向量的算術平均B.支持集樣本向量的幾何平均C.支持集樣本向量與查詢向量的拼接平均D.支持集樣本向量經注意力加權平均答案：A解析：原型網絡核心即類內向量均值作為原型。10.若將RoBERTa的NSP任務移除，僅使用MLM訓練，則下列指標最可能上升的是A.SQuADv1.1F1B.MNLImatchedaccuracyC.CoLAMatthewscorrD.STSBSpearman答案：A解析：去除NSP后，長文檔上下文建模更充分，抽取式問答受益最大。二、多選題（每題3分，共15分）11.下列操作可有效緩解Transformer過長的輸入平方復雜度A.Linformer投影B.Performer線性注意力C.使用Alibi位置編碼D.SparseTransformer局部窗口答案：ABD解析：Alibi僅改變位置偏置，不降低復雜度。12.關于梯度消失，以下說法正確的是A.使用LayerNorm可緩解B.使用殘差連接可緩解C.使用L2正則化可緩解D.使用PreNorm結構可緩解答案：ABD解析：L2正則化限制權重范數，對梯度消失無直接幫助。13.在中文文本糾錯任務中，以下哪些特征對檢錯階段有效A.混淆集詞典匹配B.語言模型困惑度突增C.音近編輯距離D.詞性標注序列異常答案：ABCD解析：四項均為經典檢錯信號。14.對比學習損失InfoNCE的負樣本可來自A.同batch其他樣本B.同文檔其他句子C.隨機采樣詞典D.同句子經dropout擾動答案：ABC解析：dropout擾動通常視為正樣本增廣。15.在構建領域BERT時，以下哪些策略可加速二次預訓練收斂A.逐層解凍B.使用領域詞表重初始化embeddingC.增大warmup步數D.使用更高學習率答案：AB解析：更大warmup或學習率易導致災難性遺忘。三、填空題（每空2分，共20分）16.若Transformer隱藏維度為768，head數為12，則每個head的維度為______。答案：64解析：768/12=64。17.在BLEU計算中，若4gram精度分別為1,0.8,0.6,0.4，則幾何平均為______，乘以簡短懲罰BP=0.9后BLEU4為______。答案：0.66；0.594解析：幾何平均=(1×0.8×0.6×0.4)^(1/4)=0.66；0.66×0.9=0.594。18.若使用ALBERT參數共享，encoder層數12，隱藏768，詞表30000，則embedding參數總量為______萬。答案：2304解析：30000×768=23,040,000=2304萬，因共享層不再增加。19.將ReLU替換為GELU后，前向計算量增加約______倍（填一位小數）。答案：1.3解析：GELU含erf或tanh近似，實測FLOPs≈1.3×ReLU。20.在中文BERT中，若最大長度512，使用全詞Mask，則“自然語言處理”一詞被mask的token數為______。答案：3解析：自然/語言/處理三個子詞均被mask。21.若使用混合精度訓練，lossscaling因子為1024，當梯度出現Inf時，下一次迭代應將該因子______（填操作）。答案：減半解析：動態(tài)lossscaling策略。22.在DeepspeedZero3階段，優(yōu)化器狀態(tài)被劃分到______個數據并行進程。答案：全部解析：Zero3對參數、梯度、優(yōu)化器狀態(tài)均分片。23.若RoPE位置編碼的基頻θ=10000，維度i=128，則旋轉角度為______弧度（保留π）。答案：π/50解析：θ^(2i/d)=10000^(256/768)=10^(4/3)，角度=arctan(10^(4/3))≈π/50。24.在ELECTRA生成器判別器框架中，若生成器mask率15%，輸入長度128，則平均被替換的token數為______。答案：19解析：128×0.15≈19.2，向下取整19。25.若使用F1score評估序列標注，實體“BIO”序列真實為BII，預測為BIO，則precision為______，recall為______。答案：0.5；0.5解析：僅前兩個BI正確，實體級TP=1，FP=1，FN=1。四、簡答題（每題8分，共24分）26.描述Transformer中MultiHeadAttention實現矩陣并行的一種工程方案，并給出通信量計算。答案：方案：將Q、K、V按head維度切分到不同GPU，每卡計算單頭Attention后拼接輸出。通信量：前向階段需將完整QKV從0號卡廣播到所有卡，數據量3×batch×seq×hidden；反向階段梯度匯總，通信量相同。若采用MegatronLM張量并行，則AllReduce通信量為2×hidden×batch×seq×(11/N)，N為并行卡數。解析：該方案將計算圖橫向切分，減少單卡顯存，但增加通信，需權衡batch與卡數。27.對比Rdrop與Dropout的異同，并說明Rdrop為何能提升模型魯棒性。答案：相同：均在訓練階段引入隨機性。差異：Rdrop對同一輸入做兩次前向，使用不同Dropoutmask，輸出概率分布間增加KL散度正則；而傳統(tǒng)Dropout僅單次前向。魯棒性：Rdrop強制模型對隨機擾動輸出一致，等價最小化預測方差，降低過擬合，提升泛化。解析：Rdrop無需額外數據，僅需兩次前向，計算開銷小，在文本分類任務上平均提升1.2%準確率。28.解釋為何在中文拼寫糾錯中，基于音近與形近混淆集的候選召回往往優(yōu)于純編輯距離，并給出量化評估方法。答案：原因：中文同音字占比高，編輯距離1的形近字遠少于音近字；用戶輸入錯誤70%為音似錯誤。量化：構建混淆集C，計算TopK候選覆蓋率為|C∩T|/|T|，T為測試集真實錯誤對應正確字。實驗表明，Top10音近混淆集覆蓋率可達82%，而編輯距離僅56%。解析：引入混淆集可縮小搜索空間，降低誤召回，提升后續(xù)排序效率。五、編程題（共21分）29.實現一個帶相對位置偏置的MultiHeadAttention，要求：(1)支持任意長度seq，無需paddingmask；(2)相對位置偏置為可訓練向量，維度為2×max_rel_pos+1；(3)使用PyTorch，禁止調用nn.MultiheadAttention。請寫出完整代碼并給出單元測試用例。答案：```pythonimporttorchimporttorch.nnasnnimportmathclassRelPosMultiHeadAttention(nn.Module):def__init__(self,d_model,n_head,max_rel_pos=128):super().__init__()assertd_model%n_head==0self.d_k=d_model//n_headself.n_head=n_headself.max_rel_pos=max_rel_posself.qkv=nn.Linear(d_model,3d_model)self.out_proj=nn.Linear(d_model,d_model)self.rel_pos_bias=nn.Parameter(torch.zeros(2max_rel_pos+1,n_head))shape:(2max+1,h)nn.init.xavier_uniform_(self.rel_pos_bias)defforward(self,x):B,L,_=x.shapeqkv=self.qkv(x).chunk(3,dim=1)(B,L,d)q,k,v=map(lambdat:t.view(B,L,self.n_head,self.d_k).transpose(1,2),qkv)(B,h,L,d_k)scores=torch.matmul(q,k.transpose(2,1))/math.sqrt(self.d_k)(B,h,L,L)addrelativepositionbiaspos=torch.arange(L,device=x.device).unsqueeze(0)torch.arange(L,device=x.device).unsqueeze(1)pos=pos.clamp(self.max_rel_pos,self.max_rel_pos)+self.max_rel_pos(L,L)bias=self.rel_pos_bias[pos](L,L,h)bias=bias.permute(2,0,1).unsqueeze(0)(1,h,L,L)scores=scores+biasattn=torch.softmax(scores,dim=1)out=torch.matmul(attn,v)(B,h,L,d_k)out=out.transpose(1,2).contiguous().view(B,L,1)returnself.out_proj(out)單元測試if__name__=="__main__":torch.manual_seed(42)mha=RelPosMultiHeadAttention(d_model=256,n_head=8,max_rel_pos=64)x=torch.randn(2,100,256)y=mha(x)asserty.shape==x.shapeprint("Outputshape:",y.shape)應輸出torch.Size([2,100,256])```解析：手動實現QKV拆分、縮放點積、相對位置偏置查找，驗證形狀正確即通過。六、綜合設計題（共24分）30.某電商場景需構建“屬性級情感抽取”模型，輸入為商品評論，輸出為(屬性，情感，觀點詞)三元組

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2025自然語言處理工程師校招筆試題及答案

文檔簡介

溫馨提示

最新文檔

評論

相關文檔