版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2025年自然語言處理工程師考核模擬試卷及答案一、單項選擇題(每題2分,共20分)1.在Transformer架構中,用于捕捉序列位置信息的核心組件是A.卷積核B.位置編碼C.殘差連接D.層歸一化答案:B解析:Transformer本身不含遞歸或卷積結構,位置編碼(PositionalEncoding)通過正弦函數(shù)或可學習向量注入序列順序信息,使模型感知token位置。2.當使用BERT進行中文命名實體識別時,若標簽體系采用BIO,則“北京市”應標注為A.BLOCILOCILOCB.BLOCILOCIORGC.BLOCILOCILOCILOCD.BLOCILOC答案:A解析:中文無空格,BERT以字為粒度,“北京市”三字連續(xù)且同屬地點實體,故BLOC后接兩ILOC。3.在訓練GPT3175B模型時,采用混合精度訓練的主要目的是A.提升梯度穩(wěn)定性B.降低顯存占用并加速計算C.減少參數(shù)冗余D.增強模型泛化答案:B解析:FP16激活值與梯度使顯存接近減半,TensorCore加速矩陣乘;同時需動態(tài)損失縮放保證梯度下溢控制。4.下列哪項技術最能緩解文本生成中的“重復塌陷”問題A.Topk采樣B.BeamSearchC.重復懲罰(RepetitionPenalty)D.溫度縮放答案:C解析:重復懲罰在解碼時對已生成token的對數(shù)概率進行折扣,直接抑制循環(huán)輸出,Topk與溫度僅調節(jié)隨機性。5.在跨語種遷移實驗中,將mBERT微調于低資源烏爾都語情感分類,最優(yōu)層凍結策略通常是A.凍結全部層B.僅凍結Embedding層C.凍結前6層TransformerD.不凍結答案:C解析:凍結底層可保留跨語言語法/詞匯知識,頂層保留任務相關可塑性;實驗表明凍結前50%層在極低資源下最穩(wěn)健。6.使用FAISS構建億級句向量索引時,最適合的量化方式是A.IVF1024,FlatB.IVF4096,PQ64C.HNSW32D.LSH答案:B解析:PQ64將向量壓縮至64字節(jié),配合倒排IVF4096,在召回95%@1情況下內(nèi)存降低約16倍,速度優(yōu)于純Flat。7.在RLHF階段,PPO算法中優(yōu)勢估計采用GAE(λ)時,λ=0等效于A.蒙特卡洛回報B.TD(0)C.TD(λ)D.無偏估計答案:B解析:GAE公式中λ=0僅保留單步TD誤差,即TD(0);λ=1退化為MC。8.中文文本糾錯任務中,將“因該”糾正為“應該”屬于A.音近錯誤B.形近錯誤C.語法錯誤D.知識錯誤答案:A解析:“因”“應”拼音相近(yin/ying),屬音近別字;形近指字形相似,語法錯誤指搭配不當。9.在LoRA參數(shù)高效微調中,若原矩陣W∈?^{d×k},秩r=8,則新增參數(shù)量為A.d×kB.(d+k)×rC.d×r+k×rD.r×r答案:C解析:LoRA引入B∈?^{d×r}與A∈?^{r×k},總參數(shù)量dr+rk,遠小于dk。10.當使用知識蒸餾訓練小模型時,若教師模型輸出為軟標簽,溫度T→∞,則軟標簽分布趨近A.均勻分布B.硬標簽C.教師原始分布D.學生先驗答案:A解析:溫度升高,softmax曲線趨平緩;T→∞時所有類別概率趨1/V,呈均勻。二、多項選擇題(每題3分,共15分)11.以下哪些方法可直接用于零樣本文本分類A.將標簽描述作為提示輸入T5模型B.使用SentenceTransformer計算句向量余弦相似度C.基于BERT微調有監(jiān)督分類器D.采用NLI蘊含模型做entailment答案:A、B、D解析:C需訓練數(shù)據(jù),非零樣本;A屬promptbasedzeroshot;B通過標簽名向量相似度預測;D將分類轉entailment任務。12.在訓練大模型時,以下哪些技術可降低顯存峰值A.GradientCheckpointingB.ZeRO3C.ActivationRecomputationD.FP32權重主副本答案:A、B、C解析:D反而增加顯存;Checkpointing以時間換空間;ZeRO3分片參數(shù)、梯度、優(yōu)化器狀態(tài);Recomputation重計算激活。13.關于對比學習損失InfoNCE,下列說法正確的是A.溫度系數(shù)越小,對困難負例越敏感B.損失函數(shù)包含正樣本對數(shù)似然與負樣本和C.與交叉熵無數(shù)學聯(lián)系D.batch內(nèi)負樣本越多,梯度方差越小答案:A、B、D解析:C錯誤,InfoNCE可寫成softmax形式,與交叉熵同族;溫度小則分布尖銳,困難負例權重高;負樣本多降低方差。14.以下哪些指標可用于評估生成文本多樣性A.SelfBLEUB.Distinct1C.MAUVED.Entropyn答案:A、B、D解析:SelfBLEU高表示多樣低;Distinct1統(tǒng)計不重復unigram比例;Entropyn基于ngram分布熵;MAUVE衡量人機分布接近度,非直接多樣。15.在中文分詞中,下列基于標簽的算法有A.BiLSTMCRFB.WordPieceC.BERT+SoftmaxD.StructuredPerceptron答案:A、C、D解析:WordPiece為子詞分割算法,非序列標注;其余均用BIO/BMES標簽體系。三、填空題(每空2分,共20分)16.當使用ALBERT時,為減少參數(shù)量,采用__________共享所有層參數(shù),并用__________分解Embedding矩陣。答案:跨層參數(shù)共享;因子化Embedding(V→E→H分解)17.在Transformerselfattention中,若QK^T后未除以√d_k,會導致梯度__________,該現(xiàn)象稱為__________。答案:消失或爆炸;梯度消失/爆炸(或softmax飽和)18.若使用ROUGEL評估摘要,其基于__________序列,核心度量是__________。答案:最長公共子序列(LCS);Fmeasure19.在PromptTuning中,若連續(xù)提示長度為20,則可訓練參數(shù)量等于__________×__________。答案:20;隱藏層維度(如768或1024)20.將文本轉向量時,若采用BM25,其詞頻分量使用__________頻率,并引入__________長度歸一化。答案:飽和/修正(K+1)tf;文檔長度四、判斷改錯題(每題2分,共10分)21.使用LayerNorm的模型在推理階段必須保存每個樣本的均值方差統(tǒng)計。答案:錯誤。LayerNorm在推理時與BatchNorm不同,直接使用當前樣本的均值方差,無需運行平均統(tǒng)計。22.ELECTRA的生成器與判別器參數(shù)始終固定相同。答案:錯誤。生成器與判別器參數(shù)獨立,僅共享Embedding層;訓練時生成器先訓練,再聯(lián)合判別器訓練。23.在F1score計算中,宏平均對類別不平衡更敏感。答案:錯誤。宏平均對各類別平等加權,對不平衡不敏感;微平均受多數(shù)類主導。24.使用ReLU激活的深層Transformer不會出現(xiàn)梯度消失。答案:錯誤。ReLU仍可能因路徑長度導致梯度消失,殘差與層歸一化才緩解。25.中文GPT模型采用SentencePiece時,詞表大小一定為32000。答案:錯誤。SentencePiece詞表大小為超參,可自定義,常見32000但非必然。五、簡答題(每題6分,共18分)26.描述如何在不增加額外標注的情況下,利用遠程監(jiān)督構建實體關系抽取數(shù)據(jù)集,并指出兩種降噪策略。答案:步驟:1)將已有知識庫(如Wikidata)三元組<主體,關系,客體>與純文本對齊;2)若句子同時出現(xiàn)主體與客體實體,則自動標注該句表達對應關系;3)生成大量弱標簽數(shù)據(jù)。降噪策略:a.多實例學習(MIL):將同一實體對的所有句子視為包,僅當至少一句含關系時才標正例,用注意力選可信句;b.置信度過濾:用預訓練語言模型計算句與關系描述的相似度,低于閾值丟棄;c.對抗訓練:加入噪聲生成器,使模型對錯誤標簽魯棒。27.解釋為何在超大batch訓練時,線性縮放學習率(LinearScalingRule)有效,并給出適用條件。答案:線性縮放指batch×k則lr×k。有效性源于隨機梯度方差下降:大batch梯度估計更準,等效樣本數(shù)增加,為保持更新步長一致需同比例放大lr。適用條件:1)初始lr在臨界范圍內(nèi),未導致梯度爆炸;2)采用權重衰減或L2,防止大lr下權重發(fā)散;3)訓練初期(warmup)不立即放大,避免冷啟動不穩(wěn)定;4)網(wǎng)絡結構無歸一化層依賴batch統(tǒng)計(如BatchNorm),否則需調整。28.對比傳統(tǒng)Seq2Seq與PrefixLM(如UniLM)在摘要任務中的差異,并說明PrefixLM為何更適合極端長度差異場景。答案:Seq2Seq用獨立編碼器一次性編碼全文,解碼器自回歸生成,編碼長度固定,長文本需截斷或分段,信息丟失。PrefixLM為雙向編碼加單向解碼的統(tǒng)一Transformer,輸入前綴可雙向關注,生成部分單向。極端長度差異(如2萬→50字)下,PrefixLM:1)無需截斷,全文做雙向上下文建模;2)解碼器可動態(tài)關注長距離依賴;3)避免分段導致的跨段信息斷裂;4)參數(shù)共享減少冗余,訓練更穩(wěn)定。六、計算與推導題(共17分)29.(7分)給定單頭attention,d_k=64,輸入序列長度n=4,Q,K,V∈?^{4×64}。若QK^T后未縮放,求softmax后最大元素對應的梯度回傳至Q的梯度矩陣維度與表達式。答案:維度:?L/?Q∈?^{4×64}。令S=QK^T,P=softmax(S),假設L對P的梯度已知為G∈?^{4×4}。則?L/?S=P⊙(G(P⊙G)1^T)?L/?Q=(?L/?S)K∈?^{4×64}。未縮放導致S數(shù)值大,P接近onehot,梯度稀疏。30.(10分)假設使用對比學習訓練句向量,batch=8,每句對應1正例7負例,溫度τ=0.05,特征已L2歸一化。寫出InfoNCE損失對正樣本相似度s+的梯度,并分析溫度對梯度大小的影響。答案:損失L=log(exp(s+/τ)/Σexp(si/τ))令分母Z=exp(s+/τ)+Σ_{j=1}^7exp(s_j/τ)則?L/?s+=(1/τ)(1exp(s+/τ)/Z)溫度τ越小,(1/τ)放大,且exp(s+/τ)/Z趨近1,梯度絕對值越大,模型對正例拉近力度增強,負例推遠更激進;τ過大則梯度趨0,訓練緩慢。七、編程與實戰(zhàn)題(共30分)31.(10分)使用PyTorch實現(xiàn)一個帶RoPE位置編碼的簡化多頭自注意力模塊,要求:1)支持任意偶數(shù)d_model;2)RoPE采用復數(shù)指數(shù)形式;3)返回attention權重矩陣供可視化。答案:```pythonimporttorchimporttorch.nnasnnimportmathclassRoPEMultiHeadAttention(nn.Module):def__init__(self,d_model,nhead):super().__init__()assertd_model%nhead==0self.nhead=nheadself.d_k=d_model//nheadself.scale=1.0/math.sqrt(self.d_k)self.qkv=nn.Linear(d_model,3d_model)self.out=nn.Linear(d_model,d_model)defrotary_embed(self,x,seq_len):dim=self.d_kinv_freq=1.0/(10000(torch.arange(0,dim,2).float()/dim))t=torch.arange(seq_len,device=x.device).type_as(inv_freq)sinusoid=torch.outer(t,inv_freq)[seq,dim/2]sin,cos=sinusoid.sin(),sinusoid.cos()x1,x2=x[...,0::2],x[...,1::2]x_rot=torch.stack([x1cosx2sin,x1sin+x2cos],dim=1).flatten(2)returnx_rotdefforward(self,x):B,L,_=x.shapeqkv=self.qkv(x).view(B,L,3,self.nhead,self.d_k).permute(2,0,3,1,4)q,k,v=qkv[0],qkv[1],qkv[2][B,nhead,L,d_k]q,k=self.rotary_embed(q,L),self.rotary_embed(k,L)scores=torch.einsum('bhld,bhmd>bhlm',q,k)self.scaleattn=scores.softmax(dim=1)out=torch.einsum('bhlm,bhmd>bhld',attn,v)out=out.transpose(1,2).contiguous().view(B,L,1)returnself.out(out),attn```32.(10分)給定一個包含100萬條中文query的文本文件,每行一條,要求用單機4卡GPU在30分鐘內(nèi)完成SentenceBERT微調,使語義檢索Top10召回率提升至少5%。請給出數(shù)據(jù)流、負采樣與訓練策略。答案:數(shù)據(jù)流:1)用jieba粗分詞,TFIDF建倒排,為每條query檢索100條粗負例;2)用初始SBERT編碼,計算余弦,選hardest5負例;3)動態(tài)難負例:每epoch后重新編碼全庫,更新hardest;4)緩存編碼結果至SSD,多進程異步讀取。訓練策略:a.混合精度+DeepSpeedZeRO2,batch_size=256×4=1024;b.對比學習損失InfoNCE,溫度τ=0.1,lr=2e5,warmup500步,余弦退火;c.梯度累積=4,等效4096大batch;d.數(shù)據(jù)并行+DDP,NVLink互聯(lián);e.評估:每500步在10萬測試庫計算MRR@10,早停patience=3。實驗結果:原MRR=0.612,微調后0.668,提升5.6%,耗時27分鐘。33.(10分)閱讀以下代碼片段,指出三處潛在bug并給出修正。```pythonforepochinrange(epochs):forbatchinloader:input_ids=batch['input_ids'].cuda()mask=batch['attention_mask'].cuda()withtorch.cuda.amp.autocast():output=model(input_ids,mask)loss=criterion(output,batch['labels'])scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()scheduler.step()optimizer.zero_grad()```答案:1)scheduler.step()在scaler.update()之前,可能導致lr調度與真實梯度尺度不匹配;應放scaler.update()之后。2)optimizer.zero_grad()在step之后,應放backward之前,否則累積梯度。3)未調用model.train(),若之前處于eval,Dropout/BatchNorm行為錯誤。修正:```pythonmodel.train()forepochinrange(epochs):forbatchinloader:optimizer.zero_grad()input_ids=batch['input_ids'].cuda()mask=batch['attention_mask'].cuda()withtorch.cuda.amp.autocast():output=model(input_ids,mask)loss=criterion(output,batch['labels'])scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()scheduler.step()```八、綜合設計題(共20分)34.某電商公司需構建“超個性化”文案生成系統(tǒng),輸入為用戶畫像(性別、年齡、消費層級、歷史評價關鍵詞)+商品屬性(品類、品牌、賣點、價格段),輸出為20字左右營銷短句,要求:1)風格可控(活潑/專業(yè)/溫情);2)避免“最便
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年智能制造技能模考試題及答案
- 2025中小學詩詞大會題庫100題題庫(含答案)
- 醫(yī)療器械考試試題(含答案)
- 2025工業(yè)互聯(lián)網(wǎng)技術考試及答案
- 2025年高中教師年度工作總結
- 2025年生產(chǎn)安全事故警示教育專題及答案
- 2025年機修鉗工(三級)考試試卷含答案
- 品牌管理2026年價值傳遞
- 2026 年專用型離婚協(xié)議書官方模板
- 2026 年無財產(chǎn)離婚協(xié)議書官方模板
- 工業(yè)互聯(lián)網(wǎng)標準體系(版本3.0)
- 培養(yǎng)小學生的實驗操作能力
- 河南省洛陽市2023-2024學年九年級第一學期期末質量檢測數(shù)學試卷(人教版 含答案)
- Unit-3-Reading-and-thinking課文詳解課件-高中英語人教版必修第二冊
- 氣動回路圖與氣動元件課件
- 《念奴嬌 赤壁懷古》《永遇樂 京口北固亭懷古》《聲聲慢》默寫練習 統(tǒng)編版高中語文必修上冊
- 婦產(chǎn)科病史采集臨床思維
- 眾辰變頻器z2400t-15gy-1說明書
- DB63T 393-2002草地鼠蟲害、毒草調查技術規(guī)程
- 船體振動的衡準及減振方法
- 復議訴訟證據(jù)清單通用版
評論
0/150
提交評論