版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2025年AI自然語言處理技術(shù)培訓(xùn)專項試題及答案一、單選題(每題2分,共20分)1.在Transformer架構(gòu)中,ScaledDotProductAttention的計算公式中縮放因子√dk的作用是:A.加快矩陣乘法速度B.防止softmax輸入過大導(dǎo)致梯度消失C.降低顯存占用D.增加非線性表達(dá)能力答案:B解析:當(dāng)dk較大時點積方差增大,softmax輸入可能落入飽和區(qū),梯度趨近0??s放因子√dk可將方差穩(wěn)定到1,緩解梯度消失。2.下列哪一項技術(shù)最早將“預(yù)訓(xùn)練+微調(diào)”范式引入中文NLP?A.ERNIE1.0(百度)B.BERTwwmextC.GPT1D.ELMo答案:A解析:ERNIE1.02019年3月發(fā)布,首次在中文任務(wù)上系統(tǒng)驗證“預(yù)訓(xùn)練+微調(diào)”并開源,早于BERTwwmext。3.在LoRA低秩適配中,若原矩陣W∈R^{d×k},秩為r,則新增可訓(xùn)練參數(shù)量為:A.r(d+k)B.dkC.rdkD.(d+k)2答案:A解析:LoRA將ΔW分解為BA,B∈R^{d×r},A∈R^{r×k},總參數(shù)量dr+rk=r(d+k)。4.使用BeamSearch解碼時,若beamwidth=3,每一步保留的候選序列數(shù)為:A.1B.3C.3×詞表大小D.3×3答案:B解析:BeamSearch每步保留得分最高的beamwidth條序列,與詞表大小無關(guān)。5.在指令微調(diào)階段,為緩解“對齊稅”(alignmenttax),最常用的再正則化方法是:A.Dropout增大B.KL散度懲罰C.L2權(quán)重衰減D.梯度裁剪答案:B解析:KL懲罰限制微調(diào)后分布與原始模型偏離,降低對齊稅。6.下列哪種位置編碼可天然外推到大于訓(xùn)練長度的序列?A.絕對正弦位置編碼B.相對位置編碼(T5版)C.RoPE(旋轉(zhuǎn)位置編碼)D.可學(xué)習(xí)絕對位置嵌入答案:C解析:RoPE通過旋轉(zhuǎn)矩陣編碼相對位置,具備線性外推性質(zhì)。7.在混合精度訓(xùn)練(FP16+FP32)中,LossScaling的主要目的是:A.降低顯存B.避免下溢C.加速通信D.提高批大小答案:B解析:FP16動態(tài)范圍小,梯度易下溢。LossScaling將損失乘以較大常數(shù),反向梯度同步放大,防止下溢。8.當(dāng)使用DeepSpeedZero3優(yōu)化器時,模型參數(shù)在GPU間的分布粒度是:A.層級別B.參數(shù)張量級別C.模塊級別D.進(jìn)程級別答案:B解析:Zero3將每個參數(shù)張量分片到不同進(jìn)程,實現(xiàn)極致顯存節(jié)省。9.在RLHF中,PPO算法用于更新策略時,優(yōu)勢估計通常采用:A.1stepTDB.GAE(λ)C.MonteCarlo回報D.Vtrace答案:B解析:GAE(λ)平衡方差與偏差,是PPO標(biāo)準(zhǔn)配置。10.以下哪項技術(shù)最適用于“無監(jiān)督中文句子對齊”?A.LASERB.mBART50C.XLMRD.SimCSE答案:A解析:LASER多語言句子編碼器在零資源場景下通過余弦相似度即可對齊句子,無需平行語料。二、多選題(每題3分,共15分,多選少選均不得分)11.關(guān)于Transformer解碼器自回歸屬性,下列說法正確的是:A.訓(xùn)練階段可并行計算所有位置B.推理階段必須串行C.使用CausalMaskD.編碼器也需CausalMask答案:A、B、C解析:編碼器無需CausalMask,雙向可見;解碼器訓(xùn)練時用CausalMask,可一次前向并行計算所有位置。12.以下哪些方法可直接用于“中文文本對抗樣本檢測”?A.隨機(jī)遮擋詞(RandomizedSmoothing)B.梯度顯著性可視化C.困惑度突變檢測D.同音字替換+置信度下降答案:A、C、D解析:B用于解釋而非檢測;A、C、D可直接發(fā)現(xiàn)異常輸入。13.在MoE(MixtureofExperts)模型中,下列技術(shù)可降低“專家崩塌”風(fēng)險:A.LoadBalancingLossB.ExpertDropC.SwitchTransformer中Top1路由D.增加專家數(shù)量答案:A、B解析:LoadBalancingLoss顯式鼓勵均勻路由;ExpertDrop隨機(jī)丟棄專家,防止過度依賴;Top1反而易崩塌。14.關(guān)于PromptTuning與PTuningv2的區(qū)別,正確的是:A.PromptTuning僅在輸入前添加連續(xù)向量B.PTuningv2在每一層插入可訓(xùn)練向量C.PromptTuning對小型模型有效D.PTuningv2參數(shù)量大于PromptTuning答案:A、B、D解析:PromptTuning對小型模型效果差;PTuningv2深度插入,提高表達(dá)能力,參數(shù)量更大。15.以下哪些指標(biāo)可直接用于“中文摘要”自動評估?A.ROUGE2B.BERTScoreC.BLEUD.MoverScore答案:A、B、D解析:BLEU偏向翻譯,忽略召回,對摘要不友好;ROUGE2、BERTScore、MoverScore均可。三、填空題(每空2分,共20分)16.在Transformer中,若隱藏維度dmodel=768,注意力頭數(shù)h=12,則每個頭的維度dk=________。答案:64解析:dk=dmodel/h=768/12=64。17.使用BPE算法時,若語料出現(xiàn)頻次最高的字符對是“科”與“學(xué)”,合并后得到的新子詞為________。答案:科學(xué)解析:表示繼續(xù)標(biāo)記,合并后保留前綴。18.在中文命名實體識別中,使用BIO標(biāo)注,句子“李雪就職于百度”中“百度”對應(yīng)的標(biāo)簽序列是________。答案:BORGIORG解析:百度是機(jī)構(gòu)名,兩個字符分別賦予BORG、IORG。19.若使用GradientCheckpointing,則時間復(fù)雜度變?yōu)樵瓉淼腳_______倍。答案:約2倍解析:激活重計算導(dǎo)致一次額外前向,時間≈2倍,顯存降至O(√N(yùn))。20.在DPO(DirectPreferenceOptimization)中,損失函數(shù)形式為?logσ(βlogπθ(yw|x)?βlogπθ(yl|x)),其中yw與yl分別表示________與________。答案:winning答案、losing答案解析:DPO無需獎勵模型,直接用偏好對比較。21.當(dāng)使用8bit量化加載LLaMA7B時,顯存占用大約________GB(保留一位小數(shù))。答案:6.8解析:7B參數(shù)≈14GBFP16,8bit壓縮至≈7GB,加上激活與緩存約6.8GB。22.在SentencePiece中,若設(shè)置character_coverage=0.995,表示模型試圖覆蓋語料中________%的字符。答案:99.5解析:coverage即字符覆蓋比例。23.若使用FSDP(FullyShardedDataParallel)訓(xùn)練,模型參數(shù)分片后通信量主要發(fā)生在________階段。答案:AllGather前向與ReduceScatter反向解析:FSDP前向AllGather參數(shù),反向ReduceScatter梯度。24.在中文文本糾錯任務(wù)中,若采用“復(fù)制編輯”網(wǎng)絡(luò),編輯操作集合一般包括________、________、________三種。答案:KEEP、DELETE、INSERT解析:復(fù)制編輯框架將源句作為草稿,預(yù)測每個位置操作。25.當(dāng)使用RoPE外推長度至2048→8192時,常采用________技巧緩解遠(yuǎn)程衰減。答案:線性插值(LinearScaling)解析:將位置下標(biāo)除以縮放因子4,使訓(xùn)練長度內(nèi)位置分布與推理一致。四、判斷題(每題1分,共10分,正確寫“T”,錯誤寫“F”)26.使用ReZero初始化后,Transformer殘差分支初始輸出為0,有助于緩解深層梯度消失。答案:T解析:ReZero引入可訓(xùn)練參數(shù)α初始化為0,網(wǎng)絡(luò)初始恒等映射。27.在GPT3論文中,最大的模型參數(shù)量為175B,其訓(xùn)練數(shù)據(jù)全部來自CommonCrawl。答案:F解析:訓(xùn)練語料混合CommonCrawl、WebText、Books、Wikipedia等。28.使用ALiBi位置編碼時,注意力分?jǐn)?shù)線性衰減,因此無需額外位置嵌入。答案:T解析:ALiBi直接給注意力分?jǐn)?shù)加負(fù)斜率偏置,無需嵌入向量。29.在中文分詞任務(wù)中,使用CRF層可以提升標(biāo)記間一致性,但會增加O(N2)計算復(fù)雜度。答案:F解析:CRF前向反向算法為O(N·T2),T為標(biāo)簽數(shù),與序列長度N線性相關(guān),非N2。30.使用INT8量化時,向量乘積Y=XW,若采用zeropoint量化,反量化公式為Y=Scales·(Xq?ZeroPointX)·(Wq?ZeroPointW)。答案:F解析:反量化需先分別還原X、W到FP32再相乘,或采用整數(shù)累加后統(tǒng)一反量化,公式表述不準(zhǔn)確。31.在指令微調(diào)中,加入“思維鏈”(ChainofThought)樣例可提升模型在GSM8K數(shù)學(xué)任務(wù)上的準(zhǔn)確率。答案:T解析:CoT微調(diào)已被多篇論文驗證可顯著提高數(shù)學(xué)推理。32.使用RAG(RetrievalAugmentedGeneration)時,檢索器與生成器必須采用相同詞表。答案:F解析:二者可異構(gòu),如檢索器用BERT,生成器用BART,通過通用ID或嵌入對齊即可。33.在DiffusionModel用于文本生成時,前向過程對離散token進(jìn)行高斯加噪。答案:F解析:離散token需先嵌入到連續(xù)空間或采用離散擴(kuò)散,不能直接高斯加噪。34.使用ZeROOffload時,優(yōu)化器狀態(tài)可卸載到CPU內(nèi)存,計算開銷增加約10–30%。答案:T解析:CPU更新參數(shù)引入延遲,但節(jié)省顯存顯著。35.在中文ASR糾錯后處理中,利用BERT掩碼語言模型可檢測同音字錯誤。答案:T解析:掩碼原詞,若BERT預(yù)測與原詞不一致且置信度高,則疑似錯誤。五、簡答題(每題8分,共24分)36.描述“知識蒸餾”在超大模型壓縮中的關(guān)鍵步驟,并給出一種針對Transformer的注意力遷移損失函數(shù)形式。答案:步驟:1.準(zhǔn)備教師(大模型)與學(xué)生(小模型)。2.對同一批輸入,分別獲得教師/學(xué)生輸出概率、中間表示。3.設(shè)計蒸餾損失,通常包含:–Soft目標(biāo)交叉熵(溫度T>1)–Hard標(biāo)簽交叉熵–中間層遷移損失(如注意力矩陣、隱藏狀態(tài)MSE)4.聯(lián)合優(yōu)化:L=αLsoft+βLhard+γLinter5.微調(diào)學(xué)生模型至收斂。注意力遷移損失示例:Latt=∑l=1H‖Alteacher?Alstudent‖2其中Al為第l層注意力矩陣(平均多頭),歸一化后計算Frobenius范數(shù)。解析:注意力矩陣蘊(yùn)含語法語義依賴,直接遷移可提升學(xué)生表達(dá)能力,實驗表明可帶來1–2個BLEU增益。37.解釋“梯度消失”與“表示崩潰”在深層BERT微調(diào)中的區(qū)別,并給出兩種針對性解決方案。答案:梯度消失:反向傳播時梯度指數(shù)級減小,底層參數(shù)幾乎不更新,導(dǎo)致微調(diào)無效。表示崩潰:各層輸出趨同,退化為近常數(shù)向量,模型表達(dá)能力下降。解決方案:1.梯度消失:–使用LayerwiseLearningRateDecay(LLRD),底層學(xué)習(xí)率更大。–引入Adapter或BitFit,僅訓(xùn)練少量參數(shù),避免深層梯度路徑過長。2.表示崩潰:–增加LayerNorm可訓(xùn)練增益γ、偏置β正則化,防止輸出尺度收縮。–采用GradualUnfreezing,逐層解凍,保持表示多樣性。解析:二者現(xiàn)象不同,需分別診斷;LLRD+GradualUnfreezing組合在文本分類任務(wù)上可提升F1約1.5%。38.說明“對比學(xué)習(xí)”在句子表示中的難例挖掘策略,并給出損失函數(shù)。答案:策略:1.批內(nèi)負(fù)例:同批其余句作為負(fù)例。2.難例挖掘:選擇與高相似正例距離最近的負(fù)例,或利用預(yù)訓(xùn)練模型先檢索TopK近似句,取其中標(biāo)簽為負(fù)者。3.動量更新:維護(hù)動量編碼器,保證難例表示一致性。損失函數(shù)(InfoNCE):L=?logexp(sim(hi,hi+)/τ)∑j=1Kexp(sim(hi,hj)/τ)其中hi為錨點,hi+為正例,hj含1正K?1負(fù),τ為溫度系數(shù)。解析:溫度τ調(diào)小可放大難例懲罰,實驗顯示τ=0.05時在STSB達(dá)到85.2Spearman。六、計算與推導(dǎo)題(共31分)39.(10分)給定單頭注意力分?jǐn)?shù)矩陣S∈R^{n×n},其中n=4,S=?0123???1012???2101???3210?采用ALiBi偏置,斜率m=0.25,偏置矩陣Bij=?m|i?j|。(1)計算加偏置后的分?jǐn)?shù)矩陣?。(2)對第0行做softmax,保留三位小數(shù)。答案:(1)B=?0?0.25?0.5?0.75??????0.250?0.25?0.5??????0.5?0.250?0.25??????0.75?0.5?0.250??=S+B=?00.751.52.25?????0.7500.751.5?????1.50.7500.75?????2.251.50.750?(2)第0行向量v=[0,0.75,1.5,2.25]exp(v)=[1.000,2.117,4.482,9.487]Z=1+2.117+4.482+9.487=17.086softmax=[0.058,0.124,0.262,0.556]解析:ALiBi線性偏置隨距離增加而減小,softmax后遠(yuǎn)距離權(quán)重降低,體現(xiàn)位置先驗。40.(10分)假設(shè)使用LoRA微調(diào)LLaMA7B,原矩陣W∈R^{4096×11008},秩r=16,批大小B=1,序列長度L=2048,計算:(1)可訓(xùn)練參數(shù)量。(2)相比全參數(shù)微調(diào),顯存節(jié)省比例(僅考慮權(quán)重,忽略緩存)。答案:(1)LoRA參數(shù)量=r(d+k)=16×(4096+11008)=241,664。(2)原參數(shù)量=4096×11008=45,080,384;節(jié)省比例=1?241664/45080384≈99.46%。解析:LoRA將可訓(xùn)練參數(shù)壓縮至0.54%,顯存占用大幅下降,適合消費級GPU部署。41.(11分)給定一個二分類任務(wù),采用FocalLoss緩解樣本不平衡,正例比例p=0.05,γ=2。(1)寫出FocalLoss公式。(2)若模型對某正例預(yù)測概率為0.9,計算該樣本損失值,保留四位小數(shù)。(3)解釋γ作用。答案:(1)FL(pt)=?(1?pt)^γlog(pt),其中pt=p若y=1,pt=1?p若y=0。(2)正例pt=0.9,F(xiàn)L=?(1?0.9)^2log(0.9)=?0.01×(?0.1054)=0.0011。(3)γ增大則易例權(quán)重下降更快,模型聚焦難例,緩解不平衡。解析:γ=2時,置信0.9的樣本權(quán)重被抑制100倍,迫使模型關(guān)注難例,提升尾部召回。七、綜合應(yīng)用題(共30分)42.某企業(yè)需構(gòu)建“中文客服對話情緒識別”系統(tǒng),數(shù)據(jù)含7類情緒,其中“憤怒”樣本僅占2%。訓(xùn)練集50萬句,測試集1萬句。現(xiàn)有基線模型RoBERTawwmextlarge。任務(wù):
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 非織造布卷繞分切工沖突解決測試考核試卷含答案
- 平版制版員誠信品質(zhì)考核試卷含答案
- 電光源電路部件制造工安全實操水平考核試卷含答案
- 2025年環(huán)衛(wèi)清潔裝備項目發(fā)展計劃
- 2026年重生式消費項目評估報告
- 供水業(yè)務(wù)知識題庫及答案
- 施工安全消防措施
- 導(dǎo)管滑脫應(yīng)急預(yù)案演練腳本
- 2025年單位駕駛員年度工作總結(jié)
- 2025年機(jī)械類考核試題及答案
- 2026年重慶市江津區(qū)社區(qū)專職人員招聘(642人)筆試備考試題及答案解析
- 2026年思明區(qū)公開招聘社區(qū)工作者考試備考題庫及完整答案詳解1套
- 【四年級】【數(shù)學(xué)】【秋季上】期末家長會:數(shù)海引航愛伴成長【課件】
- 小學(xué)音樂教師年度述職報告范本
- 2025年新版八年級上冊歷史期末考試模擬試卷試卷 3套(含答案)
- 2026福建廈門市校園招聘中小學(xué)幼兒園中職學(xué)校教師346人筆試參考題庫及答案解析
- 2025年合肥經(jīng)開投資促進(jìn)有限公司公開招聘11人筆試參考題庫及答案解析
- 儲能電站電力銷售協(xié)議2025
- 北京市社保信息化發(fā)展評估研究報告
- GB/T 8336-2011氣瓶專用螺紋量規(guī)
- GB/T 1048-2019管道元件公稱壓力的定義和選用
評論
0/150
提交評論