2025年AI自然語(yǔ)言處理技術(shù)深度培訓(xùn)試題及答案_第1頁(yè)
2025年AI自然語(yǔ)言處理技術(shù)深度培訓(xùn)試題及答案_第2頁(yè)
2025年AI自然語(yǔ)言處理技術(shù)深度培訓(xùn)試題及答案_第3頁(yè)
2025年AI自然語(yǔ)言處理技術(shù)深度培訓(xùn)試題及答案_第4頁(yè)
2025年AI自然語(yǔ)言處理技術(shù)深度培訓(xùn)試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年AI自然語(yǔ)言處理技術(shù)深度培訓(xùn)試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息的核心組件是A.詞嵌入矩陣B.注意力權(quán)重C.正弦位置編碼D.LayerNorm參數(shù)答案:C解析:正弦位置編碼通過(guò)不同頻率的正弦、余弦函數(shù)為每個(gè)位置生成唯一向量,使模型感知token順序,且不受序列長(zhǎng)度限制。2.當(dāng)使用混合精度訓(xùn)練FP16時(shí),下列哪項(xiàng)操作最可能引發(fā)梯度下溢(underflow)?A.權(quán)重初始化過(guò)大B.Loss縮放(lossscaling)系數(shù)過(guò)高C.梯度裁剪閾值過(guò)小D.梯度值量級(jí)遠(yuǎn)小于FP16最小可表示正數(shù)答案:D解析:FP16最小正數(shù)為6.1×10??,若梯度絕對(duì)值小于該值即被flush為零,導(dǎo)致參數(shù)停止更新;lossscaling正是為緩解此問(wèn)題。3.在對(duì)比學(xué)習(xí)框架SimCSE中,“dropout作為噪聲”的核心作用是A.增加batch大小B.構(gòu)造正樣本對(duì)C.降低內(nèi)存占用D.替換掩碼語(yǔ)言模型任務(wù)答案:B解析:同一文本兩次前向經(jīng)過(guò)不同dropoutmask,得到略有差異的表示,作為正樣本對(duì),無(wú)需額外語(yǔ)料即可訓(xùn)練。4.關(guān)于RLHF(ReinforcementLearningfromHumanFeedback)的獎(jiǎng)勵(lì)模型訓(xùn)練,下列說(shuō)法正確的是A.使用交叉熵?fù)p失比較同一提示下兩條生成結(jié)果的絕對(duì)分?jǐn)?shù)B.使用BradleyTerry模型將成對(duì)比較轉(zhuǎn)化為最大似然估計(jì)C.獎(jiǎng)勵(lì)模型輸出softmax概率D.必須采用策略梯度更新語(yǔ)言模型答案:B解析:BradleyTerry模型將人類偏好建模為σ(r??r?),用成對(duì)排序損失訓(xùn)練獎(jiǎng)勵(lì)模型,輸出標(biāo)量獎(jiǎng)勵(lì)值而非概率。5.在8bit量化推理中,為避免異常值(outlier)通道引起誤差,最佳實(shí)踐是A.直接對(duì)權(quán)重做pertensor對(duì)稱量化B.將異常值通道置零C.采用混合精度保留異常值通道為FP16D.使用INT4權(quán)重答案:C解析:LLM.int8()發(fā)現(xiàn)異常值僅占0.1%通道卻貢獻(xiàn)大部分誤差,將其保留為FP16可幾乎無(wú)損恢復(fù)精度。6.下列哪種位置編碼可天然外推到>2×訓(xùn)練長(zhǎng)度而無(wú)需額外訓(xùn)練?A.可學(xué)習(xí)絕對(duì)位置嵌入B.RoPE(旋轉(zhuǎn)位置編碼)C.相對(duì)位置偏置(T5bias)D.ALiBi線性偏置答案:D解析:ALiBi在注意力分?jǐn)?shù)上直接添加與距離成線性比例的負(fù)偏置,無(wú)需新增參數(shù),長(zhǎng)度外推時(shí)斜率固定,性能衰減最小。7.在擴(kuò)散模型用于文本生成時(shí),ClassifierFreeGuidance的引導(dǎo)強(qiáng)度α=3,表示A.條件對(duì)數(shù)概率與無(wú)條件對(duì)數(shù)概率之差放大3倍B.條件與無(wú)條件分布直接相加C.噪聲估計(jì)網(wǎng)絡(luò)深度為3D.采樣步數(shù)縮減為1/3答案:A解析:ClassifierFreeGuidance采樣公式:ε_(tái)θ(x_t|c)←ε_(tái)θ(x_t|c)+α·[ε_(tái)θ(x_t|c)?ε_(tái)θ(x_t|?)],放大條件信號(hào)。8.當(dāng)使用DeepSpeedZeRO3訓(xùn)練千億模型時(shí),優(yōu)化器狀態(tài)被分割到A.僅rank0B.所有數(shù)據(jù)并行rankC.流水線并行stage0D.張量并行組內(nèi)答案:B解析:ZeRO3將參數(shù)、梯度、優(yōu)化器狀態(tài)全部按層切分并分布到所有數(shù)據(jù)并行rank,實(shí)現(xiàn)內(nèi)存線性擴(kuò)展。9.在檢索增強(qiáng)生成(RAG)中,使用最大內(nèi)積搜索(MIPS)時(shí),通常需要A.將查詢與文檔向量做L2歸一化B.向量維度降至32維以下C.采用乘積量化(PQ)+粗量化D.禁用近似搜索答案:C解析:MIPS等價(jià)于在歸一化后做最近鄰搜索;乘積量化將高維向量分段壓縮,可在1000萬(wàn)級(jí)語(yǔ)料上毫秒級(jí)召回。10.對(duì)于多模態(tài)大模型,將視覺(jué)token與文本token拼接時(shí),為避免視覺(jué)信息淹沒(méi)文本,常采用A.視覺(jué)token乘以0.1系數(shù)B.在注意力softmax前對(duì)視覺(jué)key加?∞maskC.使用模態(tài)特定位置編碼D.隨機(jī)丟棄50%視覺(jué)token答案:C解析:模態(tài)特定位置編碼(如T5style2D編碼)使模型區(qū)分“第i張圖像第j塊”與“第k個(gè)詞”,防止位置沖突。二、多項(xiàng)選擇題(每題3分,共15分)11.以下哪些技術(shù)可同時(shí)降低GPU內(nèi)存占用并加速訓(xùn)練?A.GradientCheckpointingB.FlashAttentionC.FP16混合精度D.模型并行答案:ABC解析:GradientCheckpointing以時(shí)間換空間;FlashAttention通過(guò)分塊減少內(nèi)存讀寫(xiě);FP16減半顯存并提升TensorCore利用率;模型并行僅拆分模型,不必然加速。12.關(guān)于稀疏注意力(SparseAttention),下列說(shuō)法正確的是A.Longformer滑動(dòng)窗口+全局注意力可覆蓋線性復(fù)雜度B.BigBird隨機(jī)注意力需固定種子保證可重復(fù)C.稀疏模式必須在訓(xùn)練前靜態(tài)確定D.稀疏注意力可結(jié)合FlashAttention實(shí)現(xiàn)IO優(yōu)化答案:ABD解析:BigBird隨機(jī)注意力種子固定保證相同掩碼;部分工作(如PTAC)支持動(dòng)態(tài)稀疏,但主流實(shí)現(xiàn)仍靜態(tài);FlashAttention可適配任意稀疏掩碼。13.在指令微調(diào)(InstructionTuning)階段,以下做法有助于抑制“幻覺(jué)”生成A.在prompt末尾追加“請(qǐng)基于提供的上下文回答,若無(wú)法回答則輸出‘無(wú)法確定’”B.使用思維鏈(CoT)模板強(qiáng)制模型逐步推理C.提高采樣溫度至1.5D.對(duì)無(wú)支持答案樣本進(jìn)行負(fù)樣本訓(xùn)練答案:ABD解析:高溫增加隨機(jī)性反而加劇幻覺(jué);負(fù)樣本訓(xùn)練讓模型學(xué)會(huì)拒絕超范圍問(wèn)題。14.關(guān)于模型壓縮中的知識(shí)蒸餾,下列描述正確的是A.MiniLM通過(guò)深度自注意力蒸餾實(shí)現(xiàn)學(xué)生模型更深B.DistilBERT使用教師softmax輸出作為軟目標(biāo)C.TinyBERT嵌入層蒸餾需對(duì)齊隱藏維度D.在線蒸餾(onlinedistillation)無(wú)需預(yù)訓(xùn)練教師答案:BCD解析:MiniLM蒸餾的是自注意力分布而非深度;TinyBERT采用投影矩陣對(duì)齊維度;在線蒸餾中學(xué)生與教師同步更新。15.在構(gòu)建中文醫(yī)療大模型時(shí),以下數(shù)據(jù)合規(guī)措施符合《生成式AI管理辦法》A.去除18種個(gè)人敏感標(biāo)識(shí)符并采用差分隱私B.在官網(wǎng)公示訓(xùn)練數(shù)據(jù)規(guī)模與來(lái)源摘要C.使用患者完整病歷并僅做脫敏D.由第三方律所出具數(shù)據(jù)合規(guī)評(píng)估報(bào)告答案:ABD解析:完整病歷即使脫敏仍可能重識(shí)別,需嚴(yán)格匿名化或合成數(shù)據(jù);公示與第三方評(píng)估為監(jiān)管明確要求。三、填空題(每空2分,共20分)16.在Transformer中,自注意力機(jī)制的時(shí)間復(fù)雜度為_(kāi)_______,空間復(fù)雜度為_(kāi)_______。答案:O(n2d),O(n2)解析:n為序列長(zhǎng)度,d為隱藏維度;計(jì)算注意力矩陣需n2次乘加并存儲(chǔ)n2權(quán)重。17.RoPE的外推性能可通過(guò)引入________修正因子,將基頻從10000改為_(kāi)_______量級(jí),實(shí)現(xiàn)2M長(zhǎng)度外推。答案:線性插值,500000解析:線性插值降低旋轉(zhuǎn)角速度,使模型“看到”的位置編碼周期變長(zhǎng),緩解長(zhǎng)程衰減。18.使用AdamW時(shí),若weightdecay設(shè)為0.1,則參數(shù)更新公式為θ←θ?lr·(m/√v+________)。答案:0.1·θ解析:AdamW將weightdecay從梯度中解耦,直接對(duì)參數(shù)做L2正則。19.在對(duì)比學(xué)習(xí)中,InfoNCE損失的溫度參數(shù)τ越小,則負(fù)樣本的梯度權(quán)重越________。答案:大解析:τ→0時(shí)softmax逼近onehot,負(fù)樣本梯度接近1/τ,放大區(qū)分度。20.當(dāng)使用GroupQueryAttention(GQA)時(shí),若num_heads=32,num_kv_heads=8,則每組query共享________個(gè)key/valuehead。答案:4解析:32/8=4,即每4個(gè)queryhead共享1組kvhead,減少KVcache顯存。21.在量化感知訓(xùn)練(QAT)中,模擬INT8乘加時(shí)需引入________算子,其前向執(zhí)行整數(shù)運(yùn)算,反向傳播使用________估計(jì)梯度。答案:StraightThroughEstimator(STE)解析:STE將量化梯度近似為1,使梯度可傳回浮點(diǎn)權(quán)重。22.擴(kuò)散模型DDPM的反向過(guò)程方差schedule通常采用________schedule,其表達(dá)式為β_t=β_min+t/T·(β_max?β_min)。答案:線性解析:線性schedule簡(jiǎn)單有效,后續(xù)工作提出余弦schedule改善小步長(zhǎng)噪聲。23.在RLHF的PPO階段,若clip_ratio=0.2,則策略更新被限制在________范圍內(nèi)。答案:[1?0.2,1+0.2]即[0.8,1.2]解析:PPO通過(guò)裁剪概率比防止策略突變,保證穩(wěn)定。24.使用FlashAttention時(shí),分塊大小B受________內(nèi)存容量限制,通常取________KB量級(jí)。答案:共享內(nèi)存(SRAM),64–128解析:GPU共享內(nèi)存僅數(shù)十KB,F(xiàn)lashAttention將QK^T切塊放入SRAM避免HBM讀寫(xiě)。25.在構(gòu)建檢索器時(shí),使用ANN索引HNSW的efConstruction參數(shù)越大,則召回率越________,構(gòu)建時(shí)間越________。答案:高,長(zhǎng)解析:efConstruction控制構(gòu)建階段候選隊(duì)列大小,越大圖質(zhì)量越高,耗時(shí)線性增加。四、判斷改錯(cuò)題(每題2分,共10分)26.使用LoRA微調(diào)時(shí),秩r越大則可訓(xùn)練參數(shù)量越少。答案:錯(cuò)改為:秩r越大則可訓(xùn)練參數(shù)量越多。解析:LoRA參數(shù)量=2×r×d,與r成正比。27.ALiBi位置編碼需要額外可學(xué)習(xí)參數(shù)。答案:錯(cuò)改為:ALiBi不需要額外可學(xué)習(xí)參數(shù),斜率固定。解析:ALiBi直接在注意力分?jǐn)?shù)加線性偏置,斜率僅與headindex相關(guān),無(wú)需訓(xùn)練。28.在擴(kuò)散模型采樣中,DDIM采樣步數(shù)越少則生成速度越慢。答案:錯(cuò)改為:DDIM采樣步數(shù)越少則生成速度越快。解析:DDIM為確定性采樣,步數(shù)減半則迭代次數(shù)減半,速度提升。29.使用ZeROOffload時(shí),優(yōu)化器狀態(tài)可卸載到CPU內(nèi)存,計(jì)算時(shí)自動(dòng)回拷。答案:對(duì)解析:ZeROOffload利用CPU內(nèi)存容納優(yōu)化器狀態(tài),通過(guò)異步拷貝隱藏延遲。30.檢索增強(qiáng)生成中,文檔排序器(reranker)通常采用雙編碼器架構(gòu)以降低延遲。答案:錯(cuò)改為:文檔排序器通常采用交叉編碼器(crossencoder)架構(gòu)以提升精度,但延遲更高。解析:交叉編碼器將查詢與文檔拼接送入Transformer,精度高但需在線推理,無(wú)法預(yù)先緩存。五、簡(jiǎn)答題(每題8分,共24分)31.描述FlashAttention的內(nèi)存訪問(wèn)優(yōu)化原理,并給出其與傳統(tǒng)自注意力的復(fù)雜度對(duì)比。答案:FlashAttention將輸入Q、K、V按行分塊,利用GPU共享內(nèi)存(SRAM)計(jì)算局部注意力矩陣P與輸出O,避免一次性實(shí)例化n×n矩陣。具體步驟:1.將Q、K、V按塊大小B切塊;2.在SRAM內(nèi)計(jì)算S=Q_iK_j^T,立即應(yīng)用softmax得到P_ij;3.用P_ij更新輸出塊O_i與行歸一化因子?_i;4.通過(guò)統(tǒng)計(jì)量?_i實(shí)現(xiàn)數(shù)值穩(wěn)定的在線softmax。時(shí)間復(fù)雜度仍為O(n2d),但內(nèi)存復(fù)雜度從O(n2)降至O(n+B2),B常取64–128。與傳統(tǒng)注意力相比,HBM訪問(wèn)次數(shù)由Θ(n2)降至Θ(n2d2/B),在A100上實(shí)測(cè)帶來(lái)2–4×加速并支持更長(zhǎng)序列。32.解釋“梯度累積”與“微批次”在超大batch訓(xùn)練中的協(xié)同作用,并給出DeepSpeed中的配置示例。答案:梯度累積通過(guò)將大batch拆分為若干microbatch,依次前向反向并累積梯度,再統(tǒng)一更新參數(shù),實(shí)現(xiàn)在顯存受限時(shí)使用邏輯大batch。DeepSpeed中配置:{"gradient_accumulation_steps":64,"train_micro_batch_size_per_gpu":4,"gradient_clipping":1.0}表示每張卡每次處理4樣本,累積64步后更新,等效batchsize=4×64×GPU數(shù)。結(jié)合ZeRO3可訓(xùn)練千億模型,同時(shí)保持線性擴(kuò)展。33.說(shuō)明檢索增強(qiáng)生成(RAG)中“檢索器–生成器協(xié)同微調(diào)”步驟,并給出負(fù)采樣策略。答案:步驟:1.凍結(jié)生成器,用對(duì)比學(xué)習(xí)微調(diào)檢索器:對(duì)同一查詢q,將人類標(biāo)注的正文檔d+與隨機(jī)負(fù)樣本d?構(gòu)成正負(fù)對(duì),優(yōu)化InfoNCE;2.聯(lián)合微調(diào):解凍生成器,使用檢索結(jié)果作為上下文,最小化生成損失;3.迭代強(qiáng)化:用當(dāng)前生成器對(duì)難負(fù)例(生成答案雖高概率但不符合事實(shí))進(jìn)行采樣,構(gòu)造更難負(fù)樣本,再微調(diào)檢索器。負(fù)采樣策略:?隨機(jī)負(fù)采樣:從語(yǔ)料庫(kù)隨機(jī)抽??;?BM25負(fù)采樣:用BM25得分接近但非正例的文檔;?生成器難負(fù)采樣:用生成器beamsearch輸出高概率但錯(cuò)誤的文檔;?對(duì)抗負(fù)采樣:訓(xùn)練輕量排序器,對(duì)檢索器topk重新打分,選擇得分高但非正例的文檔。實(shí)驗(yàn)表明,協(xié)同微調(diào)可提升Ragel數(shù)據(jù)集ExactMatch4.3–6.1分。六、計(jì)算與推導(dǎo)題(共31分)34.(10分)給定Transformer自注意力分?jǐn)?shù)矩陣S=QK^T/√d,其中Q,K∈?^{n×d},n=2048,d=128。假設(shè)采用FlashAttention分塊大小B=128,計(jì)算:(1)傳統(tǒng)注意力需多少字節(jié)存儲(chǔ)S?(2)FlashAttention峰值SRAM占用?(3)若A100共享內(nèi)存164KB,是否滿足?答案:(1)S元素?cái)?shù)2048×2048=4M,F(xiàn)P16占2字節(jié),共8MB。(2)FlashAttention只需存儲(chǔ)兩塊B×B矩陣(P與O塊),峰值2×128×128×2B=64KB。(3)64KB<164KB,滿足。35.(10分)設(shè)使用LoRA微調(diào)LLaMA65B,隱藏維度d=8192,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論