版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2025年人工智能自然語言處理技術培訓試卷及答案一、單項選擇題(每題2分,共20分)1.在Transformer架構中,用于捕捉輸入序列中任意兩個位置之間依賴關系的子層是A.多頭自注意力?B.前饋全連接?C.層歸一化?D.位置編碼答案:A解析:多頭自注意力通過并行計算多個注意力頭,使每個位置都能直接關注到序列中所有位置,從而捕獲長距離依賴。2.下列哪一項不是BERT預訓練任務之一A.MaskedLanguageModel?B.NextSentencePrediction?C.SentenceOrderPrediction?D.TokenTypeEmbedding答案:C解析:BERT僅使用MLM與NSP兩大任務,SentenceOrderPrediction為ALBERT改進任務,TokenTypeEmbedding是輸入編碼而非訓練任務。3.當使用混合精度訓練FP16時,為防止梯度下溢,通常采用的技術是A.動態(tài)損失縮放?B.權重衰減?C.梯度裁剪?D.學習率預熱答案:A解析:FP16表示范圍小,動態(tài)損失縮放將損失乘以可縮放的因子,反向傳播后再縮放梯度,避免下溢。4.在文本生成任務中,重復懲罰(repetitionpenalty)參數(shù)大于1時,主要影響的是A.增加高頻詞概率?B.降低已生成詞概率?C.提高句法多樣性?D.減少句長答案:B解析:重復懲罰通過降低已出現(xiàn)在上下文中的tokenlogits,抑制模型復制前文內容。5.使用LoRA進行參數(shù)高效微調時,被凍結的參數(shù)是A.原始預訓練權重?B.低秩矩陣A?C.低秩矩陣B?D.縮放系數(shù)α答案:A解析:LoRA凍結原權重W,僅訓練低秩分解矩陣A、B,推理時合并回原模型,不引入額外延遲。6.在中文文本中,「token」與「字」粒度對比,下列說法正確的是A.字粒度詞典更小,OOV更低?B.字粒度序列更長,語義更完整?C.詞粒度序列更短,信息密度高?D.詞粒度無需分詞,計算更快答案:C解析:詞粒度序列長度短,信息密度高,但需分詞且OOV風險大;字粒度詞典小,卻序列長。7.當模型在驗證集上損失下降但F1連續(xù)三輪下降時,最佳應對策略是A.增大學習率?B.早停?C.減小batchsize?D.增加dropout答案:B解析:損失與指標背離表明過擬合,應立即早停并回滾最優(yōu)檢查點。8.在RLHF階段,PPO算法中的優(yōu)勢估計通常采用A.MonteCarlo回報?B.TD(0)?C.GeneralizedAdvantageEstimation?D.ImportanceSampling答案:C解析:GAE平衡方差與偏差,通過λ加權多步TD誤差,提供更穩(wěn)定優(yōu)勢信號。9.下列哪種方法最適合在無監(jiān)督條件下構建句子向量,且對中文語序變化魯棒A.平均詞向量?B.TFIDF加權平均?C.SimCSE?D.NgramBM25答案:C解析:SimCSE通過dropout作為正樣本增強,訓練句子編碼器,在語義一致但語序變化時仍保持魯棒。10.當使用DeepSpeedZeRO3訓練百億模型時,優(yōu)化器狀態(tài)被分割到A.數(shù)據(jù)并行組?B.模型并行組?C.流水線并行組?D.張量并行組答案:A解析:ZeRO3將參數(shù)、梯度、優(yōu)化器狀態(tài)全部按數(shù)據(jù)并行維度切片,實現(xiàn)內存線性擴展。二、多項選擇題(每題3分,共15分)11.關于GPT與BERT,下列說法正確的有A.GPT采用單向Transformer解碼器?B.BERT采用雙向Transformer編碼器?C.GPT預訓練目標為語言模型?D.BERT在生成任務上表現(xiàn)天然優(yōu)于GPT答案:A、B、C解析:BERT雙向編碼使其擅長理解類任務,但生成需額外技巧,天然生成能力弱于GPT。12.以下哪些技術可直接用于緩解標簽泄漏(labelleakage)問題A.分層K折交叉驗證?B.時間切分驗證?C.對抗驗證?D.特征縮放答案:A、B、C解析:時間切分防止未來信息泄漏,分層K折保持分布一致,對抗驗證檢測訓練測試分布差異;特征縮放與泄漏無關。13.在中文醫(yī)療NER任務中,提升低資源性能的有效策略包括A.領域自適應繼續(xù)預訓練?B.引入醫(yī)學詞典特征?C.使用跨語言對齊語料?D.提高dropout至0.8答案:A、B、C解析:高dropout會嚴重破壞特征,醫(yī)學詞典與繼續(xù)預訓練可直接注入領域知識,跨語言對齊可遷移英語資源。14.關于對比學習損失NTXent,下列描述正確的有A.同一batch內互為負樣本?B.溫度系數(shù)τ越小,分布越尖銳?C.采用cosine相似度時,需對向量做L2歸一化?D.損失函數(shù)包含對稱形式答案:A、B、C、D解析:NTXent對稱地計算i→j與j→i,τ控制平滑度,歸一化使cosine范圍固定為[1,1]。15.在模型蒸餾中,下列做法有助于提升學生模型表現(xiàn)A.引入中間層特征蒸餾?B.使用更高溫度softtarget?C.對學生進行數(shù)據(jù)增強?D.固定教師dropout為0答案:A、B、C解析:教師dropout應保持原設置以輸出穩(wěn)定分布,固定為0反而降低泛化性。三、填空題(每空2分,共20分)16.Transformer中,自注意力機制的點積結果需除以________以防止梯度消失。答案:√d_k解析:d_k為query/key維度,縮放后softmax輸入方差穩(wěn)定為1,避免極端概率。17.在RoPE位置編碼中,位置信息通過________變換注入query與key向量。答案:復數(shù)旋轉矩陣解析:RoPE將向量視為復數(shù),乘以與位置相關的旋轉矩陣,實現(xiàn)相對位置編碼。18.當使用BPE算法時,合并頻率最高的________對,直到達到預設詞典大小。答案:字節(jié)或子詞符號解析:BPE從字符級開始,統(tǒng)計符號對頻率,迭代合并生成子詞。19.為了計算BLEU4,需統(tǒng)計候選譯文與參考譯文中4gram的________,再取幾何平均。答案:精確率解析:BLEU核心為ngram精確率,加權幾何平均后乘以簡潔懲罰因子。20.在指令微調階段,人類反饋排序數(shù)據(jù)通過________損失訓練獎勵模型。答案:pairwiseranking/BradleyTerry解析:RM將排序轉化為二分類,最小化排序對交叉熵,等價于BradleyTerry模型。21.使用FlashAttention時,將注意力計算從O(N2)內存降至________。答案:O(N)解析:通過分塊softmax重計算,無需存儲完整注意力矩陣,實現(xiàn)線性內存。22.在稀疏專家模型MoE中,門控網(wǎng)絡通常使用________函數(shù)確保專家稀疏激活。答案:TopKsoftmax解析:僅保留最大K個權重,其余置∞,保證計算量恒定。23.當進行對抗訓練時,在embedding層添加的擾動約束范數(shù)常取________范數(shù)。答案:L∞解析:L∞擾動限制單維最大變化,易實現(xiàn)且攻擊力強,常用ε=1~5。24.為了評估模型校準性,可繪制________曲線并計算其面積。答案:Reliability解析:Reliability曲線比較置信度與準確率,期望校準誤差ECE為其分箱平均差異。25.在RLHF的PPO階段,裁剪概率比常限制在區(qū)間________內。答案:[1ε,1+ε](ε通常0.1~0.2)解析:裁剪防止策略更新過大,保證訓練穩(wěn)定性。四、判斷題(每題1分,共10分)26.ELECTRA采用生成器判別器結構,其判別器對所有輸入token進行替換檢測。答案:√解析:ELECTRA將生成器采樣替換的token標記為負樣本,判別器進行二分類,提升訓練效率。27.ALBERT通過共享所有層參數(shù)顯著減少內存占用,但推理速度也隨之下降。答案:×解析:共享參數(shù)減少顯存,但推理計算量不變,速度基本保持一致。28.在使用DeepspeedMoE時,專家并行度越高,單GPU顯存占用一定越小。答案:×解析:門控與alltoall通信引入額外顯存,過高并行度可能使通信緩沖區(qū)反而增加顯存。29.對于中文文本,字粒度+BPE組合能同時降低OOV與詞典大小。答案:√解析:先按字切分再跑BPE,可在字基礎上合并高頻多字詞,兼顧詞典體積與OOV。30.InstructionTuning的核心是將下游任務統(tǒng)一為自然語言指令格式,從而提升零樣本泛化。答案:√解析:通過指令模板將分類、生成等任務統(tǒng)一為文本到文本,激發(fā)大模型泛化能力。31.使用Rdrop正則化時,同一輸入兩次前向的dropoutmask必須相同。答案:×解析:Rdrop要求不同dropoutmask產(chǎn)生不同輸出,通過KL散度拉近兩次分布,增強一致性。32.在知識蒸餾中,若學生容量遠小于教師,增加溫度τ可提高軟化標簽信息量。答案:√解析:高溫度軟化分布,相對差異放大,有助于學生捕捉教師暗知識。33.對比學習中的batchsize越小,負樣本越少,訓練難度反而降低。答案:×解析:負樣本減少會使對比信號變弱,模型易崩潰,需更小溫度或引入動量隊列。34.使用GradientCheckpointing時,前向激活被丟棄,反向通過重計算激活,內存降低但時間增加約20%。答案:√解析:以時間換空間,重計算激活使內存線性下降,時間開銷約20~30%。35.在文本風格遷移中,若采用無監(jiān)督去噪自編碼,刪除風格詞即可保證內容保留度。答案:×解析:簡單刪除可能破壞句法,需聯(lián)合重構損失與對抗判別器,才能解耦內容與風格。五、簡答題(每題8分,共24分)36.描述Transformer中多頭自注意力的計算流程,并說明為何“多頭”能提升表達能力。答案:步驟:1)輸入X經(jīng)線性映射得Q、K、V矩陣;2)將QKV切分為h頭,每頭維度d_k=d_model/h;3)每頭獨立計算縮放點積注意力Attention(Q_i,K_i,V_i)=softmax(Q_iK_i^T/√d_k)V_i;4)拼接多頭輸出,再線性投影得最終表示。多頭作用:a)不同頭學習不同子空間語義關系,如句法、共指、長期依賴;b)多頭并行提供多視角,增強模型容量與魯棒性;c)單頭維度降低,減少計算復雜度和過擬合風險。解析:通過子空間劃分,多頭機制在相同參數(shù)量下實現(xiàn)更豐富的表示,類似卷積多通道。37.給出三種緩解序列生成曝光偏差(exposurebias)的方法,并比較其優(yōu)缺點。答案:1)ScheduledSampling:訓練時以一定概率將模型預測token作為下一步輸入,逐步從teacherforcing過渡到自生成。優(yōu)點:簡單有效;缺點:概率調度需調參,與最大似然目標不一致,可能訓練不穩(wěn)定。2)ProfessorForcing:引入對抗判別器區(qū)分模型生成與真實序列分布,鼓勵隱藏狀態(tài)分布一致。優(yōu)點:理論上解決分布差異;缺點:訓練復雜,GAN模式崩潰風險。3)SoftmaxtemperatureCurriculum:訓練初期高溫平滑標簽,逐步降溫,使模型先學習粗粒度依賴再細化。優(yōu)點:無需改變輸入;缺點:對生成質量提升有限,需配合其他技巧。解析:曝光偏差源于訓練與推理分布差異,核心思路為縮小gap,可混合使用多策略。38.解釋「參數(shù)高效微調」概念,并以LoRA為例說明其如何在下游任務實現(xiàn)大模型適配。答案:參數(shù)高效微調(PEFT)指僅更新極少附加參數(shù)即可使大模型適應下游任務,避免全量微調存儲與通信成本。LoRA實現(xiàn):1)對預訓練權重W∈R^(d×k),引入低秩分解W'=W+BA,其中B∈R^(d×r),A∈R^(r×k),r<<min(d,k);2)訓練時凍結W,僅優(yōu)化A、B,梯度經(jīng)W前向傳播后通過鏈式法則更新A、B;3)推理時W'合并為單一矩陣,不引入額外延遲;4)可插拔:不同下游任務保存不同(A,B)對,共享原模型。優(yōu)勢:顯存占用降低2~3倍,檢查點大小從GB級降至MB級,支持快速切換任務。解析:LoRA利用權重變化低秩假設,以極小參數(shù)覆蓋下游空間,已在RoBERTa、LLaMA等模型驗證有效性。六、計算與推導題(共31分)39.(10分)給定輸入序列長度n=2048,隱維度d=1024,頭數(shù)h=16,batch=8,計算一次多頭自注意力的理論浮點運算量(FLOPs),并給出推導。答案:步驟:1)QKV線性映射:3×(8×2048×1024×1024)=3×8×2048×10242=3×8×2048×1,048,576≈5.03×101?FLOPs;2)注意力矩陣乘法:QK^T,維度(8×16×2048×64)×(8×16×64×2048)→8×16×2048×2048,單次乘法2048×2048,共8×16×2048×2048=5.37×1011FLOPs;3)加權求和:softmax輸出×V,維度8×16×2048×2048×8×16×2048×64→8×16×2048×64,計算量同QK^T,5.37×1011FLOPs;4)輸出投影:8×2048×1024×1024=1.68×101?FLOPs;總計≈5.03×101?+5.37×1011+5.37×1011+1.68×101?≈1.15×1012FLOPs。解析:注意QK^T與SV兩次矩陣乘規(guī)模相同,均為O(n2d)每頭,合計O(bhn2d/h)=O(bn2d)。40.(10分)假設使用對比學習NTXent損失,batch=256,溫度τ=0.05,某樣本i與其正樣本余弦相似度為0.9,與batch內其他負樣本相似度均為0.1,求該樣本的損失值(給出化簡后數(shù)值,ln2≈0.693)。答案:NTXent(i)=log(exp(sim(i,i+)/τ)/Σ_jexp(sim(i,j)/τ))分子:exp(0.9/0.05)=exp(18)分母:exp(18)+255×exp(0.1/0.05)=exp(18)+255exp(2)損失=log[exp(18)/(exp(18)+255exp(2))]=log(1+255exp(218))=log(1+255e^{16})e^{16}≈1.125×10??,255×1.125×10??≈2.87×10??log(1+x)≈x(x→0),故損失≈2.87×10??解析:當正樣本相似度遠高于負樣本時,損失趨近于0,符合對比學習目標。41.(11分)給定一個4層Transformer編碼器,每層隱藏維度768,F(xiàn)FN中間維度3072,vocab=30522,位置編碼最大長度512,參數(shù)總量約多少?給出逐層分解公式并計算。答案:1)自注意力:QKV投影:3×768×768=1,769,472輸出投影:768×768=589,824小計:2,359,2962)FFN:權重1:768×3072=2,359,296權重2:3072×768=2,359,296偏置:3072+768=3,840小計:4,722,4323)LayerNorm:2組,每組768權重+768偏置→2×1536=3,072單層總計:2,359,296+4,722,432+3,072=7,084,8004層:4×7,084,800=28,339,2004)嵌入層:詞嵌入:30522×768=23,440,896位置嵌入:512×768=393,216TokenType嵌入(假設支持2段):2×768=1,536嵌入層合計≈23,835,6485)輸出頭(若tied則不計,獨立需加):30522×768=23,440,896總參數(shù):28,339,200+23,835,648+23,440,896≈75,615,744≈75.6M解析:嵌入與輸出頭占大頭,層數(shù)加深對總參數(shù)量線性增長,F(xiàn)FN中間維度4倍隱藏為標配。七、綜合應用題(共30分)42.某企業(yè)需構建中文客服對話摘要系統(tǒng),要求摘要長度不超過60字,覆蓋用戶核心訴求與客服解決方案。給定資源:單卡A10040GB,開源模型BLOOM7B,訓練數(shù)據(jù)5萬條對話摘要對。請回答:a)選擇何種微調范式并給出理由(6分);b)設計數(shù)據(jù)預處理與增強流程(6分);c)給出評估指標與具體實現(xiàn)代碼片段(8分);d)若摘要超出長度,如何后處理保證硬性約束(4分);e)如何在不增加推理延遲前提下實現(xiàn)實時流式摘要(6分)。答案:a)采用LoRA+8bit量化+GradientCheckpointing。原因:7B模型全參數(shù)量28GB,F(xiàn)P16微調需56GB顯存超卡上限;LoRA僅訓練0.2%參數(shù),顯存降至12GB;8bit優(yōu)化器與量化進一步壓縮至8GB,留足batch=4空間。b)預處理:1)對話拼接:用戶句前加「用戶:」,客服句前加「客服:」,段尾用[SEP];2)摘要規(guī)范化:去口語化、阿拉伯數(shù)字轉中文、統(tǒng)一量詞;3)數(shù)據(jù)增強:同義詞替換:利用中文同義詞林替換5%詞匯;隨機截斷:模擬流式輸入,隨機丟棄尾部20%對話;模板重組:將多輪對話按時間逆序重排,增強魯棒性。c)評估指標:ROUGE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026江蘇南京大學招聘XZ2025-602化學學院助理備考題庫及參考答案詳解一套
- 企業(yè)團隊建設與員工激勵策略工具
- 誠信為本全力保障承諾書4篇范文
- 七年級語文書法教學融入日常課堂的實踐與效果評估
- 公積金貸款抵押的協(xié)議
- 往事回顧活動策劃方案(3篇)
- 護坡翻修施工方案(3篇)
- 文化墻體施工方案(3篇)
- 施工方案室外模板(3篇)
- 春天延時活動策劃方案(3篇)
- 2025至2030中國船舵行業(yè)項目調研及市場前景預測評估報告
- 甲狀腺乳腺外科診療規(guī)范
- 退換貨方案及措施
- 麻醉科常用耗材分類與管理要點
- 材料力學性能檢驗工安全教育培訓手冊
- 小說影視化改編的深度解析
- JJF 2214-2025 機動車檢測用氣象單元校準規(guī)范
- 嚴格招標需求管理制度
- 外科洗手操作標準與流程
- 2024年注會考試《財務管理》真題及答案
- 種植樹木協(xié)議合同協(xié)議
評論
0/150
提交評論