版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2025年AI自然語言處理技術培訓專項練習試題及答案一、單項選擇題(每題僅有一個正確答案,錯選、多選均不得分)1.在Transformer架構中,用于將輸入序列中任意兩個位置直接關聯(lián)起來的核心機制是A.卷積窗口滑動B.自注意力權重矩陣C.門控循環(huán)單元D.池化下采樣答案:B解析:自注意力通過Q、K、V向量計算任意位置間的權重,實現(xiàn)全局依賴建模,卷積與池化僅捕捉局部特征,GRU為RNN變體,不具備一步全局連接能力。2.當使用RoPE(RotaryPositionEmbedding)時,位置編碼的旋轉角度θ與維度索引i的關系為A.θ=10000^(2i/d)B.θ=1/(10000^(2i/d))C.θ=1/(10000^(i/d))D.θ=10000^(i/2d)答案:B解析:RoPE的旋轉角θ_i=1/(10000^(2i/d)),可保持高頻與低頻分量在不同維度的穩(wěn)定性,符合蘇劍林2021年論文原始設定。3.在混合精度訓練(FP16+FP32)中,為防止梯度下溢而引入的常數(shù)因子稱為A.Warmup系數(shù)B.LossScaling因子C.ClipNorm閾值D.EMA衰減率答案:B解析:LossScaling將損失乘以較大常數(shù)(如2^15),反向傳播后再縮放,避免FP16下梯度歸零,Warmup用于學習率調度,ClipNorm用于梯度裁剪,EMA用于參數(shù)平滑。4.以下哪種采樣策略在文本生成時能保證輸出序列與前綴的語義連貫性且可證明最優(yōu)A.Topk隨機采樣B.Nucleus(Topp)采樣C.BeamSearchD.對比式解碼(ContrastiveSearch)答案:D解析:對比式解碼通過最大化模型概率與退化懲罰項的差值,在理論上兼顧相關性與多樣性,BeamSearch易重復,Topk/p無法保證全局最優(yōu)。5.在LLaMA270B的預訓練語料中,占比最高的數(shù)據(jù)來源是A.CommonCrawlB.GitHub代碼C.arXiv論文D.Wikipedia答案:A解析:Meta公開的技術文檔顯示,CommonCrawl經(jīng)去重過濾后約占LLaMA2語料的60%,其余為C4、GitHub、arXiv、Wiki等。6.當使用LoRA進行參數(shù)高效微調時,若原矩陣W∈R^(d×k),秩為r,則新增參數(shù)量為A.r×(d+k)B.d×k×rC.(d+k)×r^2D.r×d×k/(d+k)答案:A解析:LoRA引入可訓練矩陣A∈R^(r×k)、B∈R^(d×r),總參數(shù)量為r×(d+k),遠小于原矩陣的d×k。7.在RLHF階段,InstructGPT用于獎勵模型訓練的損失函數(shù)形式為A.MSEB.CrossEntropyC.RankingLoss(Pairwise)D.FocalLoss答案:C解析:獎勵模型輸出標量分數(shù),使用PairwiseRankingLoss:max(0,1?r_w+r_l),其中r_w、r_l分別為好/差回答的分數(shù),MSE用于回歸,CrossEntropy用于分類。8.當輸入長度超過訓練時的最大位置時,保持RoPE外推性能的最佳實踐是A.直接截斷B.線性插值位置索引C.刪除位置編碼D.隨機初始化新位置答案:B解析:線性插值(PositionInterpolation)將原始位置m映射到m×L'/L,使旋轉角落在訓練范圍內(nèi),顯著降低perplexity,截斷會丟失信息,刪除或隨機初始化均導致分布外問題。9.在BERT的MLM任務中,若遮蓋比例從15%提升到30%,模型在下游分類任務上的效果通常A.顯著提升B.輕微提升C.輕微下降D.顯著下降答案:D解析:過高遮蓋比例破壞上下文完整性,導致預訓練與微調分布不一致,實驗表明30%遮蓋率會使F1下降2~4個百分點。10.使用FlashAttention2時,內(nèi)存復雜度從O(n2)降至A.O(nlogn)B.O(n)C.O(n^(3/2))D.不變答案:B解析:FlashAttention通過分塊softmax重計算,將注意力矩陣顯存占用從O(n2)降至O(n),仍保持精確注意力輸出。11.在中文文本糾錯任務中,將“以經(jīng)”糾正為“已經(jīng)”屬于A.音近錯誤B.形近錯誤C.語法錯誤D.知識錯誤答案:A解析:“以經(jīng)”與“已經(jīng)”拼音相同(yǐjīng),屬于音近替換型錯誤,形近指字形相似如“未/末”。12.當使用DeepspeedZeRO3時,優(yōu)化器狀態(tài)、梯度、參數(shù)均被分割到不同GPU,其通信量相比ZeRO2A.增加約50%B.減少約30%C.不變D.增加一倍答案:A解析:ZeRO3在反向時需額外收集參數(shù)分片,產(chǎn)生allgather通信,整體通信量上升約50%,但顯存節(jié)省更大。13.在指令微調階段,為緩解“對齊稅”(alignmenttax),最常用的正則化手段是A.Dropout增大B.混合預訓練數(shù)據(jù)C.權重衰減D.梯度裁剪答案:B解析:混合少量預訓練數(shù)據(jù)可維持模型通用能力,降低對齊稅,單純增大Dropout或權重衰減會損害指令遵循能力。14.當使用ChatGLM6B進行INT8量化后,模型體積從12GB降至約A.8GBB.6GBC.4.5GBD.3GB答案:C解析:INT8將FP16參數(shù)量減半,6B×2Byte→6B×1Byte≈6GB,但需保留零點和縮放,實際約4.5GB。15.在文本摘要任務中,衡量事實一致性的指標“FactCC”基于A.字符串匹配B.蘊含分類模型C.BLEUD.實體重疊率答案:B解析:FactCC訓練BERT型模型判斷摘要是否被原文蘊含,屬于語義級一致性評估,BLEU為ngram重疊,實體重疊僅覆蓋部分事實。16.當使用MoE(MixtureofExperts)時,若Top2門控被激活,則每次前向實際計算的參數(shù)量占總參數(shù)A.100%B.約50%C.約2/k(k為專家數(shù))D.與專家數(shù)無關答案:C解析:Top2門控僅激活2個專家,計算量占比≈2/k,總參數(shù)量不變,但計算稀疏。17.在DiffusionLM中,將離散token映射到連續(xù)潛空間常用的嵌入方式是A.Word2VecB.VQVAEC.GloVeD.Onehot答案:B解析:VQVAE通過可學習碼本將離散詞映射為連續(xù)向量,支持擴散過程加噪,Onehot維度高且不可導。18.當使用FSDP(FullyShardedDataParallel)訓練時,與DPP(DistributedDataParallel)相比,顯存占用A.更高B.相同C.更低D.取決于batchsize答案:C解析:FSDP將參數(shù)、梯度、優(yōu)化器狀態(tài)分片到所有GPU,顯存隨GPU數(shù)量線性下降,DPP每卡保存完整副本。19.在RLHF的PPO階段,若KL懲罰系數(shù)β設為0,可能出現(xiàn)A.模型快速收斂B.獎勵模型失效C.模式崩潰D.生成文本與參考模型偏離過大答案:D解析:KL懲罰項約束策略π_θ與參考模型π_ref距離,β=0導致π_θ過度優(yōu)化獎勵模型,輸出極端高獎勵但不可讀文本。20.當使用LongLoRA進行長文本微調時,其核心改進是A.稀疏注意力B.移位短注意力+LoRAC.旋轉位置編碼D.滑動窗口答案:B解析:LongLoRA在訓練階段將全局注意力替換為移位短注意力(ShiftedSparseAttention),僅局部窗口計算,推理可恢復全局,同時結合LoRA降參。二、多項選擇題(每題至少有兩個正確答案,多選、漏選、錯選均不得分)21.以下哪些技術可直接用于降低Transformer解碼延遲A.KVCacheB.SpeculativeDecodingC.FlashAttentionD.BeamSearch答案:A、B解析:KVCache避免重復計算Key/Value,SpeculativeDecoding用小模型并行生成草稿再驗證,F(xiàn)lashAttention降低訓練顯存,BeamSearch增加延遲。22.關于RMSNorm相比LayerNorm的優(yōu)勢,描述正確的有A.去除均值計算,減少一次歸約B.在FP16下更不易溢出C.參數(shù)量減少一半D.在LLaMA實驗上取得輕微BLEU提升答案:A、B、D解析:RMSNorm僅按均方根縮放,無偏置,減少通信,F(xiàn)P16下數(shù)值更穩(wěn),參數(shù)量不變,LLaMA報告0.2BLEU提升。23.以下哪些指標可用于評估生成文本的多樣性A.SelfBLEUB.Distinct1/2C.MAUVED.RepetitionRate答案:A、B、D解析:SelfBLEU越低越多樣,Distinct1/2衡量ngram獨特性,RepetitionRate統(tǒng)計重復片段,MAUVE衡量人與模型分布一致性,非直接多樣性。24.在構建中文醫(yī)療大模型時,以下數(shù)據(jù)清洗策略合理的包括A.去除醫(yī)患隱私姓名B.統(tǒng)一藥品名稱為通用名C.刪除所有數(shù)字D.使用醫(yī)學NER過濾無關網(wǎng)頁答案:A、B、D解析:數(shù)字如劑量、指標不可刪除,其余均為標準清洗步驟。25.當使用QLoRA進行4bit微調時,涉及的技術有A.DoubleQuantizationB.NF4數(shù)據(jù)類型C.pagedoptimizersD.GradientCheckpointing答案:A、B、C解析:QLoRA采用NF4量化、雙重量化進一步壓縮緩存,分頁優(yōu)化器降低顯存峰值,GradientCheckpointing減少激活,非QLoRA特有。三、填空題(答案需精確,大小寫敏感)26.在Transformer中,若隱藏維度d_model=4096,注意力頭數(shù)h=32,則每個頭的維度d_k=________。答案:128解析:d_k=d_model/h=4096/32=128。27.使用BPE算法時,若詞表大小設為32000,則中文語料中最先合并的兩個子詞通常出現(xiàn)在頻率最高的________對。答案:字符解析:BPE從字符級開始,統(tǒng)計共現(xiàn),最高頻字符對優(yōu)先合并。28.在GPT3的論文中,175B參數(shù)模型訓練使用的batchsizetoken數(shù)為________。答案:3.2×10^6解析:OpenAI報告訓練batch=3.2Mtoken,對應2048×1536序列。29.當使用GroupQueryAttention時,若原有多頭數(shù)為32,分組數(shù)為4,則鍵值頭數(shù)縮減為________。答案:8解析:32/4=8,查詢頭保持32,鍵值共享。30.在SentencePiece中,若字符集包含6500個符號,期望詞表大小為8000,則剩余________個符號由子詞填充。答案:1500解析:8000?6500=1500,通過BPE/SentencePiece學習子詞。四、判斷題(正確打“√”,錯誤打“×”)31.使用ReAct提示策略時,模型在生成“Thought”后必須調用外部API。答案:×解析:ReAct允許Thought后選擇是否行動,也可直接給出答案。32.在LoRA微調時,將秩r設為大于原矩陣維度不會帶來額外收益且可能過擬合。答案:√解析:r超過min(d,k)后矩陣已滿秩,無壓縮效果,反而增加參數(shù)量。33.對于相同參數(shù)規(guī)模,MoE模型推理延遲一定低于Dense模型。答案:×解析:MoE需動態(tài)路由并加載專家參數(shù),若專家分布在不同顯存,延遲可能更高。34.使用INT4量化時,模型精度損失一定大于INT8。答案:√解析:位寬越低,量化誤差越大,INT4平均perplexity上升更顯著。35.在Diffusion模型中,加噪過程的前向核q(x_t|x_0)為高斯分布。答案:√解析:DDPM定義q(x_t|x_0)=N(√α?_tx_0,(1?α?_t)I),確為高斯。五、簡答題(給出關鍵要點,條理清晰)36.描述FlashAttention如何通過分塊softmax實現(xiàn)內(nèi)存高效,并給出塊大小選擇依據(jù)。答案:FlashAttention將輸入序列按行塊大小B_c、列塊大小B_r切分,在SRAM中完成局部softmax計算,避免實例化n×n注意力矩陣。具體步驟:1)初始化行和rowmax、rowsum為0;2)外循環(huán)加載K、V塊,內(nèi)循環(huán)加載Q塊;3)計算局部S=QK^T,更新rowmax、rowsum,采用數(shù)值穩(wěn)定softmax:m_new=max(m_old,S),輸出乘exp(m_old?m_new);4)累積輸出O,用rowsum歸一化。塊大小選擇依據(jù):SRAM容量,通常取B_c=B_r≈128,使塊矩陣QK^T大小為128×128×4Byte≈64KB,適配A100的192KB共享內(nèi)存,同時保持GPU計算單元高占用。37.解釋RLHF中獎勵模型過優(yōu)化(overoptimization)現(xiàn)象,并給出兩種緩解方法。答案:現(xiàn)象:當策略π_θ過度優(yōu)化獎勵模型r_φ時,生成文本雖獲得高獎勵分數(shù),但人類評估質量下降,出現(xiàn)重復、矛盾或不可讀內(nèi)容。緩解方法:1)引入KL懲罰:在PPO目標中加入βKL[π_θ||π_ref],限制策略偏離參考模型;2)迭代式RLHF:定期用最新策略樣本重新標注,更新獎勵模型,防止策略利用r_φ的分布外缺陷;3)獎勵模型集成:取多個r_φ的均值或最小值,降低單模型偏差;4)早停策略:監(jiān)控KL散度或人類勝率,當指標惡化時終止訓練。38.對比PrefixLM與CausalLM在下游摘要任務上的優(yōu)劣。答案:PrefixLM在編碼階段可見全部輸入,解碼階段自回歸,優(yōu)勢:1)編碼雙向上下文,對輸入理解更充分,摘要事實一致性高;2)可復用編碼器表示,解碼速度略快。劣勢:1)架構復雜,需修改注意力掩碼;2)預訓練數(shù)據(jù)構造復雜,需隨機分割PrefixSuffix。CausalLM全程自回歸,優(yōu)勢:1)架構統(tǒng)一,訓練推理一致;2)可通過提示工程直接生成摘要。劣勢:1)輸入側僅單向依賴,可能遺漏關鍵信息;2)長文本需滑動窗口,增加延遲。實驗表明,在相同數(shù)據(jù)規(guī)模下,PrefixLM在CNN/DM上ROUGE1高1.2分,但參數(shù)量增加10%。39.說明在中文大模型中引入“字詞混合Tokenizer”的動機與實現(xiàn)方式。答案:動機:純字符Tokenizer導致序列過長,計算量二次增長;純子詞對多音字、未登錄詞不友好?;旌蟃okenizer兼顧粒度與效率。實現(xiàn):1)預訓練階段:先構建基礎詞表,包含7000常用字+30000高頻詞,采用SentencePieceunigram模型,對剩余文本繼續(xù)訓練子詞;2)編碼策略:最長匹配優(yōu)先,若命中詞典詞則整詞編碼,否則退回到字符;3)解碼策略:維護字詞邊界表,防止子詞跨字截斷;4)特殊處理:對數(shù)字、英文保持字符級,避免混合詞表爆炸。實驗顯示,相同模型大小下,混合Tokenizer在CLUE分類任務平均提升0.8分,推理速度提升15%。40.闡述如何使用對比學習提升檢索增強生成(RAG)中的段落召回率,并給出損失函數(shù)。答案:方法:將查詢q與候選段落p編碼為相同維度向量,采用雙向對比學習,使相關(q,p+)的內(nèi)積遠大于不相關(q,p?)。損失函數(shù):InfoNCEL=?log(exp(sim(q,p+)/τ)/(Σ_{i=1}^kexp(sim(q,p_i)/τ)))其中τ為溫度系數(shù),k為負樣本數(shù),sim為點積或余弦。訓練技巧:1)難負樣本挖掘:選擇topk高分但無答案段落作為負例;2)跨批次負樣本:利用分布式訓練擴大負樣本規(guī)模;3)段落截斷:限制長度256,減少噪聲;4)聯(lián)合微調:同時更新查詢與段落編碼器,保持表示一致。在MSMARCO上,對比學習召回@10從58.7%提升至68.3%。六、計算與推導題(需給出關鍵步驟與數(shù)值結果)41.假設使用標準Transformer,序列長度n=2048,隱藏維度d=4096,注意力頭數(shù)h=32,batchsizeb=8,計算一次自注意力層的理論顯存占用(FP16),并說明FlashAttention如何降低該值。答案:1)存儲Q、K、V:3×b×n×d×2Byte=3×8×2048×4096×2≈0.4GB;2)存儲注意力矩陣S:b×h×n×n×2Byte=8×32×2048×2048×2≈2GB;3)存儲輸出O:b×n×d×2Byte≈0.13GB;4)總計≈2.53GB。FlashAttention不顯存S,僅保存分塊輸出,峰值顯存降至O(b×n×d)=0.13GB,降低約95%。42.給定一個BPE詞表合并操作序列:[(e,t),(et,a),(eta,l)],初始詞為{"eta":7,"l":3},請寫出合并后的子詞及詞頻。答案:1)合并e、t→et,新詞{"et":7,"a":7,"l":3};2)合并et、a→eta,新詞{"eta":7,"l":3};3)合并eta、l→etal,最終詞表:{"etal":7}。詞頻:etal出現(xiàn)7次。43.在LoRA微調中,設原矩陣W∈R^(1024×4096),秩r=16,學習率lr=3e4,訓練步數(shù)T=1000,采用余弦退火至0,請計算第500步的LoRA矩陣更新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025 小學四年級科學下冊校園動物習性研究課件
- 2026年醫(yī)學基礎知識全解與模擬試題
- 2026年能源科學及可持續(xù)發(fā)展研究測試題
- 2026年市場營銷專員面試題目創(chuàng)新型企業(yè)的薪酬激勵方案
- 2026年中醫(yī)基礎理論與藥性測試題庫中醫(yī)學愛好者的練習材料
- 2026年建筑設計師資格綜合知識法規(guī)試題庫
- 2026年網(wǎng)絡安全工程師Web安全滲透測試案例題
- 2026年機房遭遇水災IT設備防水措施與恢復方案題目
- 2026年環(huán)境保護法規(guī)與污染事故處理試題
- BIM數(shù)字化信息傳遞方案
- 市安全生產(chǎn)例會制度
- 生產(chǎn)安全管理三項制度
- 湖南省長沙市雨花區(qū)2025-2026學年上學期九年級物理檢測綜合練習試卷(含答案)
- 打火機工廠制度規(guī)范
- 肺含鐵血黃素沉著癥診療指南(2025年版)
- 湖口縣2026年第一批單位公開選調事業(yè)編制工作人員【32人】參考題庫附答案
- 統(tǒng)計分析培訓課件
- 2025至2030中國乳鐵蛋白行業(yè)調研及市場前景預測評估報告
- 2026年人教版七年級英語上冊期末真題試卷含答案
- 高速公路bt合同范本
- 2026年《必背60題》酒店前廳接待經(jīng)理高頻面試題包含詳細解答
評論
0/150
提交評論