2025自然語(yǔ)言處理工程師秋招試題及答案_第1頁(yè)
2025自然語(yǔ)言處理工程師秋招試題及答案_第2頁(yè)
2025自然語(yǔ)言處理工程師秋招試題及答案_第3頁(yè)
2025自然語(yǔ)言處理工程師秋招試題及答案_第4頁(yè)
2025自然語(yǔ)言處理工程師秋招試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025自然語(yǔ)言處理工程師秋招試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,以下哪一項(xiàng)操作最直接地引入了位置信息?A.多頭自注意力B.層歸一化C.正弦位置編碼D.前饋全連接層答案:C解析:Transformer本身對(duì)序列順序無(wú)感知,正弦位置編碼通過(guò)顯式加入位置向量使模型感知token順序;其余選項(xiàng)均不直接編碼位置。2.使用BERTbase進(jìn)行中文文本分類時(shí),若將最大序列長(zhǎng)度從128擴(kuò)展到512,顯存占用大約增加多少倍?(假設(shè)batchsize、head數(shù)等不變)A.1.0B.1.4C.2.0D.4.0答案:C解析:注意力機(jī)制顯存復(fù)雜度O(n2),長(zhǎng)度擴(kuò)大4倍,顯存理論增加16倍,但激活值占比并非全部;實(shí)際profiling顯示約2倍,因嵌入層與參數(shù)顯存不變。3.在訓(xùn)練GPTstyle自回歸模型時(shí),若將學(xué)習(xí)率warmup步數(shù)從4k降到1k,其余超參不變,最可能出現(xiàn)的訓(xùn)練現(xiàn)象是:A.訓(xùn)練loss收斂更快,驗(yàn)證ppl更低B.訓(xùn)練loss震蕩,驗(yàn)證ppl升高C.訓(xùn)練loss下降變慢,驗(yàn)證ppl不變D.梯度爆炸導(dǎo)致NaN答案:B解析:warmup過(guò)短使早期更新步長(zhǎng)過(guò)大,破壞預(yù)訓(xùn)練權(quán)重,導(dǎo)致震蕩;驗(yàn)證指標(biāo)變差。4.對(duì)于中文拼寫(xiě)糾錯(cuò)任務(wù),以下哪種解碼方式最適合直接輸出糾錯(cuò)后完整句子?A.CTCgreedydecodeB.序列標(biāo)注+BIOtaggingC.指針網(wǎng)絡(luò)復(fù)制+生成混合D.純編輯距離后處理答案:C解析:中文糾錯(cuò)需同時(shí)處理“多字、少字、替換”,指針生成混合可拷貝正確字或生成新字,靈活度最高。5.在LoRA參數(shù)高效微調(diào)中,若原矩陣W∈?^{d×k},秩r=8,則新增可訓(xùn)練參數(shù)量占比約為:A.8/(d+k)B.16/(d+k)C.8r/(dk)D.2r(d+k)/(dk)答案:D解析:LoRA引入兩個(gè)低秩矩陣B,A,總參數(shù)量2rk;原參數(shù)量dk;占比=2r(d+k)/(dk)。6.使用F1score評(píng)估命名實(shí)體識(shí)別時(shí),若預(yù)測(cè)結(jié)果將“北京天安門(mén)”整體識(shí)別為L(zhǎng)OC,而標(biāo)注為“北京/LOC天安門(mén)/LOC”兩個(gè)實(shí)體,則:A.精確率分母+1,召回率分母+2B.精確率分母+1,召回率分母+1C.精確率分母+2,召回率分母+1D.精確率分母+2,召回率分母+2答案:A解析:預(yù)測(cè)1個(gè)實(shí)體,精確率分母+1;標(biāo)注2個(gè)實(shí)體,召回率分母+2;無(wú)真正例,故分子不變。7.在對(duì)比學(xué)習(xí)SimCSE中,dropout作為噪聲生成正樣本對(duì),若將dropout率從0.1調(diào)至0.5,則InfoNCEloss溫度系數(shù)τ=0.05時(shí),梯度方差會(huì):A.增大B.減小C.不變D.先增后減答案:A解析:dropout增大使正樣本對(duì)距離期望變大,梯度估計(jì)方差上升,需減小τ補(bǔ)償,但題設(shè)τ固定,故方差增大。8.將BERT蒸餾到BiLSTM輕量模型時(shí),若使用隱態(tài)MSE作為中間層損失,則對(duì)[CLS]向量最好的處理策略是:A.直接對(duì)齊B.舍棄不參與C.乘以0.1權(quán)重再對(duì)齊D.先PCA降維再對(duì)齊答案:B解析:BiLSTM無(wú)[CLS]概念,強(qiáng)行對(duì)齊引入噪聲;通常僅對(duì)齊各token隱態(tài)或平均池化后向量。9.在RLHF階段使用PPO訓(xùn)練對(duì)話模型時(shí),若KL懲罰系數(shù)β=0,最可能出現(xiàn)的風(fēng)險(xiǎn)是:A.模型崩潰輸出空串B.訓(xùn)練不穩(wěn)定,策略快速偏離參考模型C.獎(jiǎng)勵(lì)模型過(guò)擬合D.顯存溢出答案:B解析:無(wú)KL約束,策略可迅速利用獎(jiǎng)勵(lì)模型缺陷,輸出高獎(jiǎng)勵(lì)但無(wú)意義文本,導(dǎo)致分布外坍縮。10.將30B參數(shù)模型在A10080G單卡上做8bit量化推理,理論上峰值顯存約為:A.30GBB.36GBC.45GBD.60GB答案:B解析:8bit權(quán)重30B×1Byte=30GB;激活與KVcache約6GB;合計(jì)≈36GB。二、多項(xiàng)選擇題(每題3分,共15分;多選少選均不得分)11.以下哪些技術(shù)可直接緩解文本生成中的“重復(fù)解碼”問(wèn)題?A.重復(fù)懲罰(repetitionpenalty)B.對(duì)比度搜索(contrastivesearch)C.溫度采樣(temperaturesampling)D.后處理ngramblocking答案:A,B,D解析:溫度采樣僅調(diào)節(jié)隨機(jī)性,不直接懲罰重復(fù);其余三項(xiàng)均顯式抑制重復(fù)token。12.關(guān)于RoPE位置編碼,下列說(shuō)法正確的是:A.顯式添加絕對(duì)位置向量B.通過(guò)旋轉(zhuǎn)矩陣注入相對(duì)位置C.可外推到比訓(xùn)練更長(zhǎng)的序列D.在attention計(jì)算前注入答案:B,C解析:RoPE利用復(fù)數(shù)旋轉(zhuǎn)矩陣編碼相對(duì)位置,具備外推能力;非絕對(duì)位置向量,也不提前加在embedding。13.在中文文本匹配任務(wù)中,以下哪些數(shù)據(jù)增強(qiáng)方法可能引入偽標(biāo)簽錯(cuò)誤?A.同音字替換B.EDA隨機(jī)詞替換C.回譯(zh→en→zh)D.同義句生成(SGPT)答案:A,B,C解析:同音/回譯可能改變句意;SGPT基于大模型生成,通常人工校驗(yàn),但理論上仍可能出錯(cuò),故全選。14.使用DeepSpeedZeRO3訓(xùn)練大模型時(shí),以下哪些組件狀態(tài)會(huì)被切分到所有GPU?A.優(yōu)化器狀態(tài)B.梯度C.參數(shù)D.激活值答案:A,B,C解析:ZeRO3對(duì)參數(shù)、梯度、優(yōu)化器狀態(tài)均做分片;激活值仍按activationcheckpointing策略保存,不切片。15.在構(gòu)建領(lǐng)域大模型繼續(xù)預(yù)訓(xùn)練語(yǔ)料時(shí),以下哪些指標(biāo)可用于自動(dòng)評(píng)估語(yǔ)料質(zhì)量?A.困惑度(perplexity)B.重復(fù)ngram比例C.語(yǔ)言識(shí)別置信度D.文檔長(zhǎng)度方差答案:A,B,C解析:PPL可反映與參考模型的契合度;重復(fù)、語(yǔ)言混雜均降低質(zhì)量;長(zhǎng)度方差僅反映分布,非直接質(zhì)量指標(biāo)。三、填空題(每空2分,共20分)16.在Transformer注意力計(jì)算中,若Q,K,V維度均為64,序列長(zhǎng)度n=256,則一次注意力頭的理論乘法次數(shù)為_(kāi)_______。答案:2×2562×64=8,388,608解析:QK^T為256×256×64,再乘V為256×256×64,合計(jì)2n2d。17.將SentenceBERT用于語(yǔ)義檢索時(shí),常用________距離度量保證向量可比,其公式為_(kāi)_______。答案:余弦;cos(u,v)=u·v/(‖u‖‖v‖)18.若使用ALBERT參數(shù)共享方案,將12層Transformer共享為1層循環(huán),則模型文件大小約縮小為原來(lái)的________。答案:1/12解析:僅存儲(chǔ)一層參數(shù),其余層共享;embedding與pooler不變,占比小,可忽略。19.在中文分詞任務(wù)中,采用BMES標(biāo)注法,句子“我愛(ài)自然語(yǔ)言處理”應(yīng)標(biāo)注為_(kāi)_______。答案:BEBBEBEBE20.若將GPT2的詞匯表從50257擴(kuò)展到60000,embedding層新增參數(shù)量為_(kāi)_______。答案:(60000?50257)×768=7,488,384解析:embedding維度768;新增9743個(gè)token。21.使用FSDP(FullyShardedDataParallel)時(shí),設(shè)置`reshard_after_forward=True`的作用是________。答案:在反向傳播前將完整參數(shù)重新分片,節(jié)省峰值顯存。22.在指令微調(diào)中,若采用“用戶助手腳本”模板,特殊token<|im_start|>應(yīng)加入模型的________部分,以保證推理時(shí)正確識(shí)別角色。答案:詞匯表與tokenizer.json23.將float32模型權(quán)重轉(zhuǎn)換為bfloat16后,模型大小減半,但動(dòng)態(tài)范圍與________相同。答案:float32解析:bfloat16指數(shù)位8位,與fp32一致,動(dòng)態(tài)范圍相同;精度降低。24.在知識(shí)蒸餾中,若教師模型輸出概率為q,學(xué)生為p,溫度τ=4,則軟標(biāo)簽損失為_(kāi)_______。答案:τ2·KL(p_τ‖q_τ)25.使用DeepspeedMiCS加速訓(xùn)練時(shí),通信壓縮算法采用________,可將梯度通信量壓縮至原來(lái)的1/2。答案:PowerSGD四、判斷題(每題1分,共10分;正確打“√”,錯(cuò)誤打“×”)26.ELECTRA的生成器與判別器共享所有參數(shù)。答案:×解析:僅embedding共享;生成器與判別器參數(shù)獨(dú)立。27.在BeamSearch中,beam寬度越大,生成結(jié)果多樣性越高。答案:×解析:beam寬增大傾向于搜索高概率共性路徑,多樣性反而下降。28.使用ReLU激活的Transformer在梯度回傳時(shí)比GELU更易出現(xiàn)神經(jīng)元死亡。答案:√29.在LoRA微調(diào)時(shí),將秩r設(shè)為0等價(jià)于凍結(jié)原模型。答案:√解析:r=0時(shí)低秩矩陣退化為0,無(wú)更新。30.對(duì)比學(xué)習(xí)損失InfoNCE在batchsize增大時(shí),梯度方差一定減小。答案:×解析:負(fù)樣本增多可降低方差,但溫度τ固定時(shí),極端大batch可能因梯度沖突導(dǎo)致方差回升。31.將RMSNorm替換LayerNorm可略微降低推理延遲,因?yàn)槭∪チ司涤?jì)算。答案:√32.在中文文本中,全角標(biāo)點(diǎn)與半角標(biāo)點(diǎn)語(yǔ)義等價(jià),可直接映射到同一token。答案:×解析:模型分詞后可能不同,直接映射會(huì)引入歧義。33.使用8bit量化時(shí),outlier通道若直接裁剪為±127,會(huì)顯著降低生成質(zhì)量。答案:√34.在指令數(shù)據(jù)集中,若每條樣本均包含“答案長(zhǎng)度≤256token”的約束,可顯著緩解RLHF階段的rewardhacking。答案:×解析:長(zhǎng)度約束與hacking無(wú)直接因果,需結(jié)合KL正則。35.將Adam優(yōu)化器β2從0.999降至0.95,可略微提升大模型預(yù)訓(xùn)練后期穩(wěn)定性。答案:√解析:降低β2使二階矩更新更快,適應(yīng)后期梯度變小場(chǎng)景。五、簡(jiǎn)答題(每題8分,共24分)36.描述如何在不修改模型結(jié)構(gòu)的前提下,僅通過(guò)數(shù)據(jù)側(cè)方法提升中文拼寫(xiě)糾錯(cuò)模型的召回率,并給出實(shí)驗(yàn)驗(yàn)證方案。答案與解析:1)構(gòu)造偽糾錯(cuò)預(yù)訓(xùn)練數(shù)據(jù):利用OCR引擎對(duì)3500萬(wàn)干凈中文維基句加噪聲(同音、形近、刪字、加字),生成“臟凈”平行對(duì)。2)動(dòng)態(tài)樣本加權(quán):訓(xùn)練時(shí)若模型對(duì)某臟句預(yù)測(cè)完全正確,則降低其采樣權(quán)重,聚焦難例。3)迭代回注:用初版模型在1億網(wǎng)頁(yè)語(yǔ)料上預(yù)測(cè)高置信糾錯(cuò)句,經(jīng)規(guī)則過(guò)濾后回爐訓(xùn)練。實(shí)驗(yàn):基線F1=68.2,召回62.1;加入偽數(shù)據(jù)后召回升至71.4,F(xiàn)1=73.8;再經(jīng)回注召回74.6,F(xiàn)1=75.9,驗(yàn)證有效。37.解釋為何在超長(zhǎng)文本(>8ktokens)場(chǎng)景下,F(xiàn)lashAttention仍比標(biāo)準(zhǔn)Attention節(jié)省顯存,并給出復(fù)雜度對(duì)比。答案與解析:標(biāo)準(zhǔn)Attention需物化n×n注意力矩陣,顯存O(n2);FlashAttention采用分塊softmax與在線歸一化,將大矩陣拆為SRAM可放下的塊,每塊計(jì)算完即寫(xiě)回輸出,無(wú)需存儲(chǔ)中間S、P矩陣,顯存降為O(n)。復(fù)雜度仍為O(n2)FLOPs,但顯存瓶頸解除,故可處理超長(zhǎng)序列。38.對(duì)比“繼續(xù)預(yù)訓(xùn)練+指令微調(diào)”與“直接指令微調(diào)”在領(lǐng)域大模型落地時(shí)的成本與效果差異,給出量化數(shù)據(jù)。答案與解析:以法律領(lǐng)域40萬(wàn)條指令數(shù)據(jù)為例:A)直接指令微調(diào):在LLaMA7B上訓(xùn)練3epoch,耗時(shí)8h,GPU×8A100,最終法律選擇題acc=58.3%。B)先繼續(xù)預(yù)訓(xùn)練200Btoken法律語(yǔ)料,再指令微調(diào):預(yù)訓(xùn)練40h,微調(diào)同8h,acc=71.2%。成本:A≈64GPU·h,B≈384GPU·h;效果提升+12.9acc,ROI需結(jié)合業(yè)務(wù)閾值權(quán)衡。六、編程與計(jì)算題(共31分)39.(10分)手寫(xiě)PyTorch實(shí)現(xiàn)帶相對(duì)位置偏置的MultiHeadAttention,要求:輸入:Q,K,V∈?^{b×n×d},偏置B∈?^{n×n}輸出:O∈?^{b×n×d}禁止調(diào)用torch.nn.MultiheadAttention。答案:```pythonimporttorch,mathdefrel_multi_head_attn(Q,K,V,B,h):b,n,d=Q.shaped_h=d//hQ=Q.view(b,n,h,d_h).transpose(1,2)(b,h,n,d_h)K=K.view(b,n,h,d_h).transpose(1,2)V=V.view(b,n,h,d_h).transpose(1,2)scores=torch.matmul(Q,K.transpose(2,1))/math.sqrt(d_h)(b,h,n,n)scores=scores+B.unsqueeze(0)broadcastattn=torch.softmax(scores,dim=1)O=torch.matmul(attn,V)(b,h,n,d_h)O=O.transpose(1,2).contiguous().view(b,n,d)returnO```解析:手動(dòng)分頭、縮放點(diǎn)積、加偏置、softmax、加權(quán)求和,再合并頭。40.(10分)給定一個(gè)batch對(duì)數(shù)its=(logits_pos,logits_neg),其中l(wèi)ogits_pos∈?^B為positive得分,logits_neg∈?^{B×K}為K負(fù)樣本得分,請(qǐng)用一行代碼實(shí)現(xiàn)InfoNCEloss(溫度τ=0.05),并計(jì)算當(dāng)B=2,K=4時(shí)的數(shù)值示例。答案:```pythonloss=torch.log(torch.softmax(torch.cat([logits_pos[:,None],logits_neg],dim=1)/0.05,dim=1)[:,0]).mean()```示例:logits_pos=[1.2,0.8],logits_neg=[[0.9,0.5,0.3,0.1],[0.7,0.6,0.2,0.0]]計(jì)算得loss≈0.61541.(11分)假設(shè)需將7B參數(shù)模型權(quán)重按通道量化到INT4(groupsize=64),請(qǐng)計(jì)算

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論