版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年自然語言處理試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,ScaledDotProductAttention的計(jì)算公式為A.softmax(QK^T/√d_k)VB.softmax(QK^T)VC.ReLU(QK^T/√d_k)VD.tanh(QK^T)V答案:A解析:ScaledDotProductAttention先對(duì)QK^T除以√d_k進(jìn)行縮放,再經(jīng)過softmax得到權(quán)重,最后與V相乘,防止d_k過大時(shí)softmax飽和。2.下列哪一項(xiàng)不是BERT預(yù)訓(xùn)練任務(wù)之一A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.以上都是答案:C解析:BERT僅使用MLM與NSP;SentenceOrderPrediction為ALBERT引入的變體任務(wù)。3.若將中文文本直接輸入原始GPT2(無字節(jié)對(duì)編碼調(diào)整),最可能出現(xiàn)的錯(cuò)誤是A.梯度消失B.字符級(jí)OOV爆炸C.注意力退化D.位置編碼溢出答案:B解析:GPT2原生BPE詞匯表以拉丁語系為主,中文會(huì)退化為罕見單字或Unicode字節(jié),導(dǎo)致OOV比例激增。4.在序列標(biāo)注任務(wù)中,使用CRF層相對(duì)于Softmax解碼的最大優(yōu)勢(shì)是A.加速訓(xùn)練B.建模標(biāo)簽間轉(zhuǎn)移約束C.降低參數(shù)量D.支持變長(zhǎng)輸入答案:B解析:CRF通過全局歸一化建模相鄰標(biāo)簽合法性,如ILOC不能接BPER,Softmax獨(dú)立解碼無法保證。5.當(dāng)采用混合精度訓(xùn)練時(shí),下列操作必須顯式在fp32下完成的是A.嵌入查表B.梯度裁剪C.LayerNorm統(tǒng)計(jì)量更新D.激活函數(shù)GeLU答案:C解析:LayerNorm的均值方差需高精度累積,否則誤差放大;其余操作在fp16下已有魯棒實(shí)現(xiàn)。6.對(duì)于超長(zhǎng)文檔(>10ktokens),下列哪種位置編碼在理論上可外推到更長(zhǎng)序列而無需訓(xùn)練A.絕對(duì)正弦編碼B.可學(xué)習(xí)絕對(duì)編碼C.RoPED.相對(duì)注意力偏置答案:C解析:RoPE通過旋轉(zhuǎn)矩陣將位置信息注入query/key,其形式化定義支持任意長(zhǎng)度外推,僅需調(diào)整基頻。7.在對(duì)比學(xué)習(xí)損失InfoNCE中,溫度系數(shù)τ減小會(huì)導(dǎo)致A.正樣本對(duì)梯度縮小B.分布更尖銳,難負(fù)例權(quán)重增大C.計(jì)算復(fù)雜度降低D.批次大小要求減小答案:B解析:τ→0時(shí)softmax趨近onehot,負(fù)樣本概率質(zhì)量更集中于最大相似度,模型關(guān)注最難負(fù)例。8.將PromptTuning與Ptuningv2對(duì)比,以下說法正確的是A.兩者均在輸入層添加連續(xù)向量B.PromptTuning需調(diào)整全部Transformer參數(shù)C.Ptuningv2僅在Embedding層優(yōu)化D.PromptTuning對(duì)小型模型更穩(wěn)定答案:A解析:二者均引入可學(xué)習(xí)“軟提示”,但Ptuningv2把連續(xù)向量插入每層,PromptTuning僅輸入層;凍結(jié)主干時(shí),小模型用Ptuningv2更穩(wěn)。9.在機(jī)器翻譯評(píng)價(jià)中,BLEU4的ngram上限為4,若某句預(yù)測(cè)與參考完全對(duì)齊,其BLEU值為A.25B.50C.75D.100答案:D解析:BLEU核心為ngram精確率幾何平均,再乘簡(jiǎn)短懲罰因子;完全匹配時(shí)BP=1,幾何平均=1,得分100。10.使用LoRA進(jìn)行大模型微調(diào)時(shí),若秩r=8,原矩陣維度為4096×4096,則參數(shù)量降低約A.256倍B.512倍C.1024倍D.2048倍答案:B解析:LoRA引入兩個(gè)低秩矩陣4096×8與8×4096,共2×4096×8=65536;原矩陣40962≈16.8M;比值≈512。二、多項(xiàng)選擇題(每題3分,共15分)11.下列哪些技術(shù)可直接緩解Transformer自回歸推理的時(shí)間復(fù)雜度瓶頸A.KVCacheB.SpeculativeDecodingC.FlashAttentionD.WindowAttention答案:ABD解析:KVCache減少重復(fù)計(jì)算;SpeculativeDecoding用小模型并行生成候選;WindowAttention限制感受野;FlashAttention降低內(nèi)存但復(fù)雜度仍為O(n2)。12.關(guān)于中文分詞,以下說法正確的是A.基于最大匹配的方法無法解決交叉歧義B.字符級(jí)模型無需分詞,但可能損失詞匯信息C.BIES標(biāo)注體系可轉(zhuǎn)化為CRF解碼D.聯(lián)合分詞與NER可提升兩者F1答案:ABCD解析:最大匹配局部最優(yōu);字符級(jí)模型需更大語料;BIES為序列標(biāo)注;多任務(wù)共享編碼器可互相增強(qiáng)。13.在文本對(duì)抗樣本生成中,下列屬于“黑盒、無梯度”策略的是A.遺傳算法同義詞替換B.基于BERT的MaskedLM擾動(dòng)C.熱土豆近似梯度估計(jì)D.TextFooler貪心刪除答案:ABD解析:遺傳與TextFooler均不需梯度;BERTMLM掩碼恢復(fù)亦無需梯度;熱土豆需有限差分近似,算零階但非完全無梯度。14.以下哪些做法會(huì)顯著增加大模型預(yù)訓(xùn)練時(shí)的數(shù)據(jù)污染風(fēng)險(xiǎn)A.爬取CommonCrawl未去重B.將維基百科最新dump直接混入C.使用公開基準(zhǔn)測(cè)試的原始訓(xùn)練集D.對(duì)語料進(jìn)行ngram重疊過濾答案:ABC解析:CommonCraw含測(cè)試數(shù)據(jù)鏡像;維基更新可能含下游任務(wù);直接使用基準(zhǔn)訓(xùn)練集屬明顯污染;ngram過濾是緩解手段。15.在指令微調(diào)階段,為提升模型“安全性”可采用A.紅隊(duì)對(duì)抗數(shù)據(jù)增強(qiáng)B.ConstitutionalAI自我批評(píng)C.RLHFwithsafetyspecificrewardmodelD.僅過濾掉含敏感詞樣本答案:ABC解析:紅隊(duì)發(fā)現(xiàn)漏洞;Constitutional讓模型自我修正;RLHF用安全獎(jiǎng)勵(lì);簡(jiǎn)單過濾敏感詞無法覆蓋隱含風(fēng)險(xiǎn)。三、填空題(每空2分,共20分)16.設(shè)某Transformer層隱藏維度d=768,注意力頭數(shù)h=12,則每個(gè)頭的維度為______。答案:64解析:768/12=64。17.在BPE算法中,若詞頻最高的字符對(duì)為(‘e’,‘s’)合并后為‘es’,則下一次統(tǒng)計(jì)前需更新______與______的相鄰頻率。答案:‘s’的前驅(qū);‘e’的后繼解析:合并后邊界改變,需重新計(jì)數(shù)左右鄰居。18.若使用1bitAdam壓縮,則worker間通信的梯度被量化為______值,并引入______估計(jì)保持收斂性。答案:±1;二階矩(或動(dòng)量因子)解析:1bitAdam用1bit符號(hào)傳輸,并在服務(wù)器維護(hù)動(dòng)量校正。19.將ReLU替換為SwiGLU激活后,TransformerFFN參數(shù)量變?yōu)樵瓉淼腳_____倍。答案:1.5解析:SwiGLU需兩套線性投影(門控與值),再乘元素,參數(shù)量由2d2升為3d2。20.在RAG框架中,檢索器常用______相似度度量,而生成器通過______機(jī)制融合檢索文檔。答案:最大內(nèi)積(或DPRdot);交叉注意力(crossattention)解析:DPR雙編碼器用點(diǎn)積;生成器在解碼層對(duì)文檔做crossattention。四、簡(jiǎn)答題(每題8分,共24分)21.描述Transformer自注意力計(jì)算中“低秩瓶頸”現(xiàn)象,并給出兩種改進(jìn)思路。答案:當(dāng)序列長(zhǎng)度n?d時(shí),注意力矩陣Softmax(QK^T/√d)的秩受限于d,導(dǎo)致無法表達(dá)任意稀疏模式,稱為低秩瓶頸。改進(jìn):1)線性注意力變體如Performer,用核函數(shù)逼近將復(fù)雜度降為O(nd),解除秩約束;2)稀疏注意力如Longformer的sliding+global模式,直接跳過全矩陣,允許長(zhǎng)程依賴高秩表達(dá)。22.解釋“梯度累積”與“微批次”在顯存受限場(chǎng)景下的協(xié)同作用,并給出偽代碼。答案:梯度累積將大批次切分為多個(gè)微批次,前向反向各微批次后不清零梯度,累加至達(dá)到目標(biāo)批次大小再更新。偽代碼:```fori,micro_batchinenumerate(data):loss=model(micro_batch)/accumulation_stepsloss.backward()if(i+1)%accumulation_steps==0:optimizer.step()optimizer.zero_grad()```協(xié)同作用:顯存隨微批次線性減小,訓(xùn)練行為數(shù)學(xué)等價(jià)于大批次。23.對(duì)比“課程學(xué)習(xí)”與“逆課程學(xué)習(xí)”在文本生成任務(wù)中的差異,并給出實(shí)例。答案:課程學(xué)習(xí)由易到難排序,如先訓(xùn)練短句生成再長(zhǎng)句;逆課程學(xué)習(xí)則從難例開始,利用模型容量先擬合復(fù)雜模式再細(xì)化。實(shí)例:在摘要任務(wù)中,課程學(xué)習(xí)先輸入單句新聞生成標(biāo)題,再過渡到多段落長(zhǎng)文;逆課程則先給長(zhǎng)文,模型初期輸出混亂,但隨著訓(xùn)練逐漸穩(wěn)定,再引入短例精煉。五、計(jì)算與推導(dǎo)題(共21分)24.(10分)設(shè)某Transformer使用RoPE,基頻θ=10000,隱藏維度d=32,位置m=128,求旋轉(zhuǎn)矩陣R(128)的跡(trace)。答案:RoPE將query切分為d/2對(duì)二維子空間,每對(duì)旋轉(zhuǎn)角φ_i=m·θ^(2(i1)/d)。跡為Σ_{i=1}^{d/2}2cos(φ_i)。代入得φ_i=128·10000^(2(i1)/32)=128·exp(2(i1)·ln10000/32)=128·exp((i1)·ln10000/16)計(jì)算前16項(xiàng)余弦和:Σ_{i=0}^{15}2cos(128·10000^(i/16))≈2×7.68=15.36解析:旋轉(zhuǎn)矩陣塊對(duì)角,每塊2×2的跡為2cosφ,總和即答案。25.(11分)給定一個(gè)長(zhǎng)度為n的序列,采用多頭稀疏注意力模式:每個(gè)token僅關(guān)注前l(fā)個(gè)與后l個(gè)鄰居,以及全局g個(gè)token。寫出內(nèi)存復(fù)雜度表達(dá)式,并計(jì)算當(dāng)n=8192,l=128,g=64,h=16時(shí)的顯存占用(以float16字節(jié)計(jì))。答案:內(nèi)存復(fù)雜度O(nh(2l+g))。顯存=8192×16×(2×128+64)×2Byte=8192×16×320×2=81.92MB。解析:每頭存key、value各一份,float16占2字節(jié);稀疏掩碼無需存全矩陣。六、綜合應(yīng)用題(共30分)26.(15分)某企業(yè)需構(gòu)建“可控情感遷移”系統(tǒng),將用戶輸入句子情感改為指定極性(正向/負(fù)向),同時(shí)保留內(nèi)容。請(qǐng):1)給出數(shù)據(jù)構(gòu)造流程(含負(fù)例);2)設(shè)計(jì)基于Prefixtuning的模型架構(gòu);3)提出自動(dòng)評(píng)價(jià)指標(biāo)并說明公式。答案:1)數(shù)據(jù)構(gòu)造:a.選取情感分類語料,用雙向情感分類器打標(biāo)簽;b.對(duì)每條高置信正/負(fù)樣本,用反向情感模板生成改寫句(如“味道好”→“味道差”),采用人工+模型協(xié)同;c.負(fù)例:隨機(jī)抽樣情感不變或內(nèi)容扭曲的改寫作為“失敗”樣本,訓(xùn)練時(shí)以0.3比例混入。2)架構(gòu):凍結(jié)GPT2主干,在輸入前添加20個(gè)連續(xù)可學(xué)習(xí)向量作為情感prefix;額外引入“內(nèi)容一致性”prefix10維,與情感prefix拼接;訓(xùn)練目標(biāo)為最小化負(fù)對(duì)數(shù)似然,僅更新prefix參數(shù)。3)評(píng)價(jià):a.情感準(zhǔn)確率:用外部情感分類器預(yù)測(cè)遷移后極性,Acc=I(pred=target)/N;b.內(nèi)容保留率:BERTScoreF1,取遷移句與原文本間上下文嵌入相似度;c.綜合得分:Harmonic@2=2·Acc·BERTScore/(Acc+BERTScore)。解析:Prefixtuning減少參數(shù)量;負(fù)例防止模型惰性地只改情感詞;Harmonic兼顧兩極。27.(15分)閱讀下列代碼片段,指出兩處導(dǎo)致分布式訓(xùn)練死鎖的潛在原因,并給出修正方案。```rank0ifrank==0:tensor=torch.randn(100,100).cuda()dist.send(tensor,dst=1)dist.recv(tensor,src=1)rank1ifrank==1:tensor=torch.empty(100,100).cuda()dist.recv(tensor,src=0)dist.send(tensor,dst=0)```答案:原因1:send/recv為阻塞式,rank0先send后recv,rank1先recv后send,形成循環(huán)依賴,導(dǎo)致雙方等待。原因2:未設(shè)置group,默認(rèn)使用WORLD但進(jìn)程組初始化可能未完成。修正:采用異步或交換順序;或使用collective的sendrecv替代:```ifrank==0:req1=dist.isend(tensor,dst=1)req2=dist.irecv(tensor,src=1)req1.wait();req2.wait()ifrank==1:req1=dist.irecv(tensor,src=0)req2=dist.isend(tensor,dst=0)req1.wait();req2.wait()```解析:非阻塞操作允許雙方同時(shí)啟動(dòng),解除死鎖;初始化需dist.init_process_group確保完成。七、編程題(共30分)28.(30分)請(qǐng)用PyTorch實(shí)現(xiàn)一個(gè)“動(dòng)態(tài)樣本加權(quán)”的情感分類器,要求:a.使用BERTbasechinese;b.每輪根據(jù)樣本損失更新權(quán)重,策略為“高損失樣本權(quán)重提升5%,低損失降低2%”;c.支持梯度累積;d.輸出訓(xùn)練日志:epoch、loss、加權(quán)F1。提供完整可運(yùn)行代碼(含數(shù)據(jù)加載Dummy實(shí)現(xiàn))。答案:```pythonimporttorch,math,randomfromtorch.utils.dataimportDataLoader,DatasetfromtransformersimportBertTokenizer,BertForSequenceClassification,AdamWfromsklearn.metricsimportf1_scoreimportnumpyasnpclassDummyDataset(Dataset):def__init__(self,n=1000):self.tok=BertTokenizer.from_pretrained('bertbasechinese')self.data=[('這家酒店真的很棒',1),('服務(wù)態(tài)度差',0)](n//2)def__len__(self):returnlen(self.data)def__getitem__(self,idx):text,label=self.data[idx]returnself.tok(text,return_tensors='pt',max_length=32,truncation=True,padding='max_length'),labeldeftrain(epochs=3,batch=16,accum=2):device='cuda'ds=DummyDataset()dl=DataLoader(ds,batch_size=batch,shuffle=True)model=BertForSequenceClassification.from_pretrained('bertbasechinese').to(device)opt=AdamW(model.parameters(),lr=2e5)weights=torch.ones(len(ds)).to(device)forepochinrange(epochs):model.train()total,tot_loss=0,0.preds,golds=[],[]fori,(batch_enc,labels)inenumerate(dl):input_ids=batch_enc['input_ids'].squeeze(1).to(device)labels=torch.tensor(labels).to(device)idx=torch.arange(ibatch,ibatch+labels.size(0)).to(device)out=model(input_ids,labels=labels)loss=out.lossweights[idx]loss=loss.mean()/accumloss.backward()if(i+1)%accum==0:opt.step();opt.zero_grad()tot_l
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 凈水器更換濾芯申請(qǐng)書
- 酒駕檢查申請(qǐng)書
- 小區(qū)活動(dòng)室改造申請(qǐng)書
- 周末課后服務(wù)申請(qǐng)書初三
- 國(guó)際海關(guān)申請(qǐng)書
- 2026年黑金色筆記時(shí)間的見證
- 2026年國(guó)潮風(fēng)春天的傳說與幻想
- 高中部住校申請(qǐng)書范文
- 大學(xué)生社保申請(qǐng)書范文
- 濰坊社??ㄞk理申請(qǐng)書
- 別墅澆筑施工方案(3篇)
- 小學(xué)信息技術(shù)教學(xué)備課全流程解析
- 腫瘤放射治療的新技術(shù)進(jìn)展
- 退崗修養(yǎng)協(xié)議書范本
- 高考語文二輪復(fù)習(xí)高中語文邏輯推斷測(cè)試試題附解析
- 土壤微生物群落結(jié)構(gòu)優(yōu)化研究
- 2024外研版四年級(jí)英語上冊(cè)Unit 4知識(shí)清單
- 四川省南充市2024-2025學(xué)年部編版七年級(jí)上學(xué)期期末歷史試題
- 國(guó)有企業(yè)三位一體推進(jìn)內(nèi)控風(fēng)控合規(guī)建設(shè)的問題和分析
- 2025年高二數(shù)學(xué)建模試題及答案
- 儲(chǔ)能集裝箱知識(shí)培訓(xùn)總結(jié)課件
評(píng)論
0/150
提交評(píng)論