版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年自然語言處理技術(shù)培訓(xùn)試卷及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息的核心組件是A.卷積核B.位置編碼(PositionalEncoding)C.層歸一化D.殘差連接答案:B解析:Transformer完全舍棄RNN與CNN,必須借助位置編碼將token的絕對(duì)或相對(duì)位置信息注入詞向量,否則模型無法區(qū)分“貓追狗”與“狗追貓”。2.下列哪一項(xiàng)最準(zhǔn)確地描述了BERT中MaskedLanguageModeling(MLM)的采樣策略?A.對(duì)全句所有token以90%概率進(jìn)行maskB.對(duì)15%的token進(jìn)行mask,其中80%用[MASK]、10%用隨機(jī)詞、10%保持不變C.對(duì)30%的token進(jìn)行mask,全部用[MASK]D.對(duì)5%的token進(jìn)行mask,其中50%用[MASK]、50%用隨機(jī)詞答案:B解析:BERT原始論文采用15%采樣,再細(xì)分80%10%10%的混合策略,緩解預(yù)訓(xùn)練與微調(diào)階段[MASK]分布不一致的問題。3.在文本生成任務(wù)中,使用topp(nucleus)采樣相較于topk采樣的主要優(yōu)勢是A.固定候選詞數(shù)量,計(jì)算更快B.動(dòng)態(tài)調(diào)整候選空間,避免概率質(zhì)量分散C.強(qiáng)制使用概率最高的詞D.完全消除重復(fù)生成答案:B解析:topp根據(jù)累積概率動(dòng)態(tài)截?cái)啵?dāng)概率分布陡峭時(shí)候選少,平坦時(shí)候選多,兼顧多樣性與連貫性;topk則固定k值,容易在分布陡峭時(shí)引入低概率噪聲,或在平坦時(shí)過度截?cái)唷?.當(dāng)使用LoRA(LowRankAdaptation)微調(diào)GPT3175B模型時(shí),可訓(xùn)練參數(shù)量通常占原模型的A.0.1%以下B.5%左右C.20%左右D.50%以上答案:A解析:LoRA通過插入低秩矩陣(秩常取4~16),僅訓(xùn)練這些增量矩陣。以GPT3175B為例,LoRA可訓(xùn)練參數(shù)量約為數(shù)百萬至千萬級(jí)別,占比<0.1%,顯存與通信開銷大幅下降。5.在中文文本中,若采用“字符級(jí)”與“子詞級(jí)”混合切分,最可能帶來的負(fù)面影響是A.詞表大小驟減B.同音字混淆減少C.未登錄詞比例升高D.序列長度顯著增加答案:D解析:字符級(jí)切分使單句token數(shù)翻倍,導(dǎo)致Transformer計(jì)算復(fù)雜度O(n2)上升;雖然詞表減小,但序列變長,顯存與延遲壓力更大。6.當(dāng)使用F1score評(píng)估命名實(shí)體識(shí)別(NER)時(shí),若預(yù)測結(jié)果出現(xiàn)實(shí)體邊界錯(cuò)位但類型正確,例如將“北京市海淀區(qū)”整體標(biāo)為LOC,而金標(biāo)拆成“北京市”與“海淀區(qū)”兩個(gè)LOC,則A.精確率下降,召回率不變B.精確率與召回率均下降C.精確率不變,召回率下降D.精確率與召回率均不變答案:B解析:嚴(yán)格匹配下,該預(yù)測為假陽性(FP)與假陰性(FN)各一次,導(dǎo)致P與R同時(shí)降低,F(xiàn)1隨之下降。7.在RLHF(ReinforcementLearningfromHumanFeedback)階段,PPO算法中的優(yōu)勢函數(shù)A_t通常采用A.蒙特卡洛回報(bào)減去基線B.時(shí)序差分誤差δ_tC.GAE(λ)估計(jì)D.純策略梯度不加基線答案:C解析:OpenAIInstructGPT使用GAE(λ)平衡方差與偏差,λ∈[0.95,0.98],使優(yōu)勢估計(jì)更穩(wěn)定。8.當(dāng)模型蒸餾溫度T→∞時(shí),softmax分布趨近于A.均勻分布B.狄拉克δ分布C.正態(tài)分布D.伯努利分布答案:A解析:溫度升高,logits差異被抹平,概率趨于1/V的均勻分布,提供最大暗知識(shí)。9.在中文拼寫糾錯(cuò)任務(wù)中,將“因該”糾正為“應(yīng)該”屬于A.音近錯(cuò)誤B.形近錯(cuò)誤C.語法錯(cuò)誤D.語義錯(cuò)誤答案:A解析:“因”與“應(yīng)”拼音相近(yin/ying),屬音近別字;二者字形差異大,排除形近。10.下列關(guān)于“指令微調(diào)”(InstructionTuning)的描述,錯(cuò)誤的是A.可提升模型對(duì)未見任務(wù)的零樣本泛化B.需要大量人工撰寫指令答案對(duì)C.通常與強(qiáng)化學(xué)習(xí)無關(guān)D.會(huì)顯著降低模型在預(yù)訓(xùn)練領(lǐng)域上的困惑度答案:D解析:指令微調(diào)可能輕微抬高預(yù)訓(xùn)練領(lǐng)域PPL,因?yàn)閮?yōu)化目標(biāo)從語言建模轉(zhuǎn)向指令遵循,產(chǎn)生“對(duì)齊稅”(alignmenttax)。二、多項(xiàng)選擇題(每題3分,共15分)11.以下哪些技術(shù)可直接緩解Transformer長文本O(n2)顯存瓶頸?A.FlashAttentionB.ALiBi位置編碼C.GradientCheckpointingD.SparseAttentionPatterns(如Longformerslidingwindow)答案:ACD解析:FlashAttention通過分塊+重計(jì)算將顯存從O(n2)降至O(n);GradientCheckpointing用時(shí)間換空間;SparseAttention減少實(shí)際計(jì)算量;ALiBi僅改變位置偏差,不降低顯存復(fù)雜度。12.在構(gòu)建中文醫(yī)療NER數(shù)據(jù)集時(shí),為降低標(biāo)注者歧義,可采取A.制定細(xì)粒度實(shí)體類型與邊界規(guī)范B.采用雙人標(biāo)注+第三人仲裁C.使用主動(dòng)學(xué)習(xí)優(yōu)先挑選高置信樣本D.定期舉行標(biāo)注者一致性培訓(xùn)答案:ABD解析:主動(dòng)學(xué)習(xí)挑選的是“模型不確定”樣本,與降低標(biāo)注者歧義無直接因果關(guān)系;其余三項(xiàng)均能提高一致性。13.下列關(guān)于對(duì)比學(xué)習(xí)(ContrastiveLearning)在句子表示中的說法,正確的有A.SimCSE使用Dropout作為正樣本對(duì)B.溫度參數(shù)τ越小,對(duì)比損失對(duì)難負(fù)例越敏感C.批內(nèi)負(fù)樣本越多,表示質(zhì)量一定越好D.統(tǒng)一長度歸一化可緩解表示坍縮答案:ABD解析:批內(nèi)負(fù)樣本過多可能引入假負(fù)例(falsenegative),反而損害質(zhì)量;其余三項(xiàng)均符合理論與實(shí)驗(yàn)結(jié)論。14.在FewShotNER場景下,使用原型網(wǎng)絡(luò)(PrototypicalNetwork)時(shí),若出現(xiàn)類別原型重疊,可嘗試A.引入對(duì)比損失增大類間距離B.采用更高的Shot數(shù)C.在Episode訓(xùn)練時(shí)進(jìn)行類內(nèi)特征增強(qiáng)D.將歐氏距離替換為余弦距離答案:ABCD解析:四項(xiàng)均為常用策略:對(duì)比損失拉遠(yuǎn)類間;更多Shot可穩(wěn)定原型;類內(nèi)增強(qiáng)如Gaussiannoise提升魯棒性;余弦距離在高維更敏感。15.以下哪些做法會(huì)顯著增加大模型預(yù)訓(xùn)練時(shí)的碳排放?A.使用混合精度訓(xùn)練B.將批量大小從4k提到32kC.在PUE=1.2的數(shù)據(jù)中心訓(xùn)練D.采用DeepSpeedZeRO3優(yōu)化器狀態(tài)分區(qū)答案:BC解析:批量增大需更多GPU并行,能耗上升;PUE高意味著冷卻開銷大;混合精度與ZeRO3均降低能耗。三、判斷題(每題2分,共10分)16.在Transformer中,QueryKey點(diǎn)積結(jié)果除以√d_k是為了防止softmax梯度消失。答案:√解析:防止點(diǎn)積絕對(duì)值過大進(jìn)入softmax飽和區(qū),梯度趨零。17.BERTlarge的參數(shù)量是BERTbase的3倍。答案:×解析:base110M,large340M,約為3.1倍,但官方常簡稱“3倍”可接受;嚴(yán)格數(shù)學(xué)意義上不精確,故判錯(cuò)。18.使用字節(jié)對(duì)編碼(BPE)時(shí),中文“囍”這種生僻字一定會(huì)被拆成UTF8字節(jié)序列。答案:×解析:若“囍”在預(yù)訓(xùn)練語料出現(xiàn)頻率高于合并閾值,則保留為獨(dú)立token,不一定拆字節(jié)。19.在RLHF中,獎(jiǎng)勵(lì)模型(RM)過擬合會(huì)導(dǎo)致策略模型生成“阿諛奉承”式回答。答案:√解析:RM對(duì)偏好數(shù)據(jù)過擬合會(huì)放大某些淺層模式(如過度禮貌),策略為獲得高獎(jiǎng)勵(lì)會(huì)復(fù)制該模式。20.將ReLU替換為GeLU會(huì)顯著增加Transformer推理延遲。答案:×解析:GeLU有近似公式0.5x(1+tanh(√(2/π)(x+0.044715x3))),現(xiàn)代框架已高度優(yōu)化,延遲差異<1%,可忽略。四、填空題(每空2分,共20分)21.在Transformer中,若隱藏維度d_model=1024,注意力頭數(shù)h=16,則每個(gè)頭的維度d_k=________。答案:64解析:d_k=d_model/h=1024/16=64。22.若使用ALiBi位置編碼,當(dāng)序列長度從2048擴(kuò)展到4096時(shí),最大相對(duì)距離對(duì)應(yīng)的斜率m將________(填“增大”“減小”或“不變”)。答案:不變解析:ALiBi斜率m僅與頭索引相關(guān),與序列長度無關(guān)。23.在GPT3的175B版本中,若詞表大小V=50257,嵌入層參數(shù)量為________億。答案:0.128解析:50257×12288(d_model)≈6.17×10?,約0.617億;但題目問的是“嵌入層”包含輸入+輸出權(quán)重共享,故為0.617×2≈1.23億,四舍五入0.12億保留兩位,填0.12亦可接受;標(biāo)準(zhǔn)答案取0.128。24.使用DeepSpeedZeRO3時(shí),若GPU數(shù)=64,優(yōu)化器狀態(tài)被分區(qū),則每個(gè)GPU保存的Adam動(dòng)量參數(shù)量是總動(dòng)量的________。答案:1/64解析:ZeRO3將參數(shù)、梯度、優(yōu)化器狀態(tài)全部均勻分區(qū)。25.在中文文本分類任務(wù)中,若采用MacBERT做backbone,其MLM策略將15%的token中的________%用同音字替換。答案:10解析:MacBERT為緩解[MASK]泄露,采用同音詞替換策略,占10%。26.若F1score=0.8,精確率P=0.9,則召回率R=________(保留兩位小數(shù))。答案:0.72解析:F1=2PR/(P+R)?0.8=2×0.9×R/(0.9+R)?R=0.72。27.在指令微調(diào)中,若使用LLaMA270B模型,學(xué)習(xí)率通常設(shè)置為________×10??(填整數(shù))。答案:2解析:官方實(shí)驗(yàn)采用2×10??,過大導(dǎo)致發(fā)散。28.當(dāng)使用4bit量化加載模型時(shí),相比于16bit,顯存占用理論上減少________倍。答案:4解析:16bit→4bit為4倍壓縮,實(shí)際因kerneloverhead略小。29.在句子相似度任務(wù)中,將“今天天氣真好”與“今日天氣很好”進(jìn)行余弦相似度計(jì)算,若未經(jīng)過歸一化,則最大可能值________(填“>1”“=1”或“<1”)。答案:=1解析:歸一化后上限為1;未歸一化時(shí),若兩向量共線且同向,余弦值仍為1。30.若使用Deepspeed的pipeline并行,將模型均勻切為8段,則前向傳播時(shí)共產(chǎn)生________次設(shè)備間通信。答案:14解析:8段需7次發(fā)送,反向再7次,共14次;但題目僅問“前向”,故填7;嚴(yán)格審題,填7。五、簡答題(每題8分,共24分)31.描述“知識(shí)蒸餾”中大模型(Teacher)與小模型(Student)在logits層面蒸餾的完整損失函數(shù),并解釋溫度參數(shù)T的作用。答案與解析:損失函數(shù)為L=α·T2·CE(p_T^T,p_S^T)+(1?α)·CE(y,p_S^1)其中p_T^T=softmax(z_T/T),p_S^T=softmax(z_S/T),CE為交叉熵,y為真實(shí)標(biāo)簽,α為平衡系數(shù)。溫度T>1時(shí),softmax分布更平滑,暴露Teacher暗知識(shí)——即小概率類別的相對(duì)關(guān)系;T2系數(shù)用于抵消softmax梯度尺度變化,使不同T下蒸餾損失梯度量級(jí)一致。當(dāng)T→1,退化為常規(guī)硬標(biāo)簽損失。32.解釋為什么“梯度累積”能夠等效擴(kuò)大批量大小,并給出在混合精度訓(xùn)練下實(shí)現(xiàn)梯度累積的偽代碼(PyTorch風(fēng)格)。答案與解析:梯度累積通過將大批量的梯度拆分為若干小步,在內(nèi)存受限時(shí)實(shí)現(xiàn)大batch效果。核心思想:loss.backward()不立即optimizer.step(),而是多次累加梯度后再更新。偽代碼:```pythonmodel.zero_grad()fori,batchinenumerate(dataloader):loss=model(batch)/accum_stepswithamp.scale_loss(loss,optimizer)asscaled_loss:scaled_loss.backward()if(i+1)%accum_steps==0:optimizer.step()model.zero_grad()```通過除以accum_steps,保證梯度尺度等價(jià)于大batch;amp.scale_loss處理梯度縮放,防止FP16下underflow。33.對(duì)比“前綴微調(diào)”(PrefixTuning)與“LoRA”在參數(shù)效率、推理延遲、實(shí)現(xiàn)復(fù)雜度三方面的差異。答案與解析:參數(shù)效率:PrefixTuning僅訓(xùn)練前綴向量,參數(shù)量≈prefix_length×d_model×layer×2(k,v),長度較長時(shí)仍可達(dá)原模型0.1%~1%;LoRA通過低秩矩陣,參數(shù)量≈2×r×d_model×layer,秩r常取4~16,占比<0.1%,略優(yōu)于Prefix。推理延遲:Prefix需拼接額外向量,增加序列長度n,導(dǎo)致Attention計(jì)算量O((n+prefix)2)上升;LoRA僅需對(duì)激活乘低秩矩陣,無序列膨脹,延遲幾乎零增加。實(shí)現(xiàn)復(fù)雜度:Prefix需修改模型輸入層與每層的past_key_values緩存,推理框架需支持可變前綴;LoRA僅需在qkv投影后插入可插拔模塊,實(shí)現(xiàn)更簡潔,社區(qū)支持更廣泛。六、計(jì)算與推導(dǎo)題(共31分)34.(10分)假設(shè)某Transformer模型采用旋轉(zhuǎn)位置編碼(RoPE),隱藏維度d=512,頭數(shù)h=8,序列位置m=100,n=101,求位置100與101之間的RoPE旋轉(zhuǎn)角θ的差值Δθ(以弧度表示),并給出query向量q∈???在位置100經(jīng)過RoPE后的第一維表達(dá)式。答案:RoPE將每對(duì)維度(d_{2i},d_{2i+1})旋轉(zhuǎn),角度θ_i=10000^{2i/d},i=0,1,…,31。Δθ_i=θ_i×(101?100)=θ_i第一維對(duì)應(yīng)i=0,θ_0=1弧度(近似)。q′?=q?cosθ??q?sinθ?解析:RoPE通過復(fù)數(shù)乘法將位置信息嵌入,角度與相對(duì)位置成正比;第一維僅與自身及下一維組成復(fù)數(shù)旋轉(zhuǎn)。35.(10分)某企業(yè)使用GPT3175B生成廣告文案,平均輸入400tokens,輸出200tokens。已知AzureOpenAIAPI定價(jià):輸入0.03美元/1ktokens,輸出0.06美元/1ktokens。若每日調(diào)用10萬次,求月度(30天)成本;若采用4bit量化自托管,GPU為A10080G,功耗400W,PUE=1.25,電價(jià)0.8元/kWh,推理延遲每樣本3s,求月度電費(fèi),并對(duì)比云API與自托管電費(fèi)差異。答案:云API:輸入成本=100000×400/1000×0.03×30=36000美元輸出成本=100000×200/1000×0.06×30=36000美元總計(jì)72000美元自托管:每樣本能耗=(400W×3s)×1.25=1500J=0.000417kWh日電耗=100000×0.000417=41.7kWh月電費(fèi)=41.7×30×0.8=1000.8元≈144美元(匯率7)差異:72000?144=71856美元,自托管電費(fèi)僅為云API0.2%。36.(11分)給定一個(gè)長度為n的序列,采用稀疏注意力Longformer的slidingwindow大小為w=64,globaltoken數(shù)量為g=4,請(qǐng)推導(dǎo):(1)單頭注意力計(jì)算復(fù)雜度O(?);(2)若n=8192,w=64,g=4,計(jì)算相比標(biāo)準(zhǔn)自注意力的理論加速比(僅考慮乘法次數(shù))。答案:(1)復(fù)雜度:每個(gè)普通token關(guān)注w個(gè)局部+g個(gè)全局,共(w+g)n;每個(gè)globaltoken關(guān)注全部n,額外gn;總O((w+2g)n)。(2)標(biāo)準(zhǔn)乘法次數(shù):n2dLongformer:((64+8)×8192)d=72×8192d加速比:n2/(72n)=n/72=8192/72≈11
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 選剝混繭工安全理論考核試卷含答案
- 光纜成纜工保密測試考核試卷含答案
- 礦井制冷降溫工班組評(píng)比水平考核試卷含答案
- 玻璃制品模具工崗前創(chuàng)新思維考核試卷含答案
- 激光加工設(shè)備裝調(diào)工安全管理能力考核試卷含答案
- 制冰工安全知識(shí)考核試卷含答案
- 公司有事請(qǐng)假條
- 2025年大型無菌包裝機(jī)項(xiàng)目合作計(jì)劃書
- 2025年高品質(zhì)研磨碳酸鈣漿料項(xiàng)目合作計(jì)劃書
- 2026年長時(shí)儲(chǔ)能技術(shù)項(xiàng)目公司成立分析報(bào)告
- 魯科版高中化學(xué)選擇性必修第一冊第2章章末復(fù)習(xí)建構(gòu)課課件
- DL∕T 5210.6-2019 電力建設(shè)施工質(zhì)量驗(yàn)收規(guī)程 第6部分:調(diào)整試驗(yàn)
- 2024年安徽省高考地理試卷(真題+答案)
- 新生兒機(jī)械通氣指南
- 裝修民事糾紛調(diào)解協(xié)議書
- 2023年P(guān)CB工程師年度總結(jié)及來年計(jì)劃
- 森林防火工作先進(jìn)個(gè)人事跡材料
- MH5006-2015民用機(jī)場飛行區(qū)水泥混凝土道面面層施工技術(shù)規(guī)范
- 施工交通疏導(dǎo)方案
- 1例低血糖昏迷的護(hù)理查房
- 智慧校園網(wǎng)投資建設(shè)運(yùn)營方案
評(píng)論
0/150
提交評(píng)論