2025年自然語(yǔ)言處理技術(shù)培訓(xùn)試卷含答案_第1頁(yè)
2025年自然語(yǔ)言處理技術(shù)培訓(xùn)試卷含答案_第2頁(yè)
2025年自然語(yǔ)言處理技術(shù)培訓(xùn)試卷含答案_第3頁(yè)
2025年自然語(yǔ)言處理技術(shù)培訓(xùn)試卷含答案_第4頁(yè)
2025年自然語(yǔ)言處理技術(shù)培訓(xùn)試卷含答案_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年自然語(yǔ)言處理技術(shù)培訓(xùn)試卷含答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息而不引入額外參數(shù)的方法是A.絕對(duì)位置編碼B.相對(duì)位置編碼C.正弦位置編碼D.可學(xué)習(xí)位置編碼答案:C解析:Vaswani等人在原始論文中使用固定正弦/余弦函數(shù)生成位置向量,不引入額外參數(shù),且可外推到更長(zhǎng)序列。2.下列哪一項(xiàng)不是BERT預(yù)訓(xùn)練任務(wù)之一A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.以上都是答案:C解析:SentenceOrderPrediction(SOP)是ALBERT引入的任務(wù),BERT僅使用MLM+NSP。3.當(dāng)使用AdamW優(yōu)化器時(shí),權(quán)重衰減與L2正則化的核心差異在于A.是否對(duì)偏差項(xiàng)生效B.是否將衰減項(xiàng)加入梯度C.是否對(duì)學(xué)習(xí)率縮放D.是否對(duì)動(dòng)量項(xiàng)生效答案:B解析:AdamW將權(quán)重衰減從梯度更新中解耦,直接對(duì)參數(shù)進(jìn)行衰減,避免Adam自適應(yīng)學(xué)習(xí)率對(duì)L2的縮放扭曲。4.在文本生成任務(wù)中,若出現(xiàn)“重復(fù)塌陷”現(xiàn)象,優(yōu)先嘗試的策略是A.提高beamsizeB.降低temperatureC.引入repetitionpenaltyD.增加dropout答案:C解析:重復(fù)塌陷源于模型對(duì)高概率token過(guò)度自信,repetitionpenalty直接降低已生成token的再選概率。5.對(duì)于中文文本,使用BPE與WordPiece兩種子詞算法,最顯著的區(qū)別是A.是否基于詞頻B.是否保留單字邊界C.是否使用最大似然合并D.是否區(qū)分大小寫(xiě)答案:C解析:WordPiece按似然增益合并,BPE按最高頻相鄰對(duì)合并,導(dǎo)致子詞切分粒度不同。6.在少樣本場(chǎng)景下,PromptTuning相比Finetuning的最大優(yōu)勢(shì)是A.降低顯存占用B.避免災(zāi)難性遺忘C.減少梯度消失D.提高推理速度答案:B解析:PromptTuning凍結(jié)主干參數(shù),僅訓(xùn)練連續(xù)prompt向量,保留預(yù)訓(xùn)練知識(shí),緩解災(zāi)難性遺忘。7.當(dāng)使用F1score評(píng)估NER模型時(shí),若實(shí)體邊界預(yù)測(cè)錯(cuò)誤但類(lèi)別正確,則A.實(shí)體級(jí)F1不計(jì)入TPB.實(shí)體級(jí)F1計(jì)入TPC.字符級(jí)F1計(jì)入TPD.需人工復(fù)核答案:A解析:嚴(yán)格實(shí)體級(jí)評(píng)估要求邊界與類(lèi)別完全匹配,邊界錯(cuò)位即視為FP+FN。8.在對(duì)比學(xué)習(xí)SimCSE中,dropout作為噪聲的核心作用是A.數(shù)據(jù)增強(qiáng)B.正則化C.生成正樣本對(duì)D.降低方差答案:C解析:同一文本兩次前向,使用不同dropoutmask,得到不同表示作為正樣本對(duì),無(wú)需額外語(yǔ)料。9.當(dāng)模型參數(shù)量從1B擴(kuò)展到10B時(shí),若采用ZeRO3優(yōu)化器,顯存占用約A.線性增長(zhǎng)B.平方增長(zhǎng)C.對(duì)數(shù)增長(zhǎng)D.幾乎不變答案:D解析:ZeRO3將參數(shù)、梯度、優(yōu)化器狀態(tài)全分片,顯存與單卡batchsize相關(guān),與總參數(shù)量解耦。10.在RLHF階段,PPO算法中優(yōu)勢(shì)估計(jì)采用GAE(λ)的主要目的是A.降低偏差B.降低方差C.同時(shí)降低偏差與方差D.加速收斂答案:C解析:GAE通過(guò)λ權(quán)衡偏差方差,λ=0時(shí)高偏差低方差,λ=1時(shí)低偏差高方差,通常取0.95~0.98。二、多項(xiàng)選擇題(每題3分,共15分)11.以下哪些技術(shù)可直接緩解Transformer長(zhǎng)文本O(n2)復(fù)雜度A.LinformerB.PerformerC.SparseTransformerD.ALiBi答案:A、B、C解析:Linformer將鍵值映射到低維,Performer使用FAVOR+線性注意力,SparseTransformer限制注意力稀疏模式;ALiBi僅替換位置編碼,不改變復(fù)雜度。12.在中文GPT模型中,以下哪些做法可降低生僻字UNK率A.擴(kuò)展詞表至80000B.使用SentencePiece字符級(jí)切分C.引入筆畫(huà)特征D.動(dòng)態(tài)詞表重排答案:A、B、D解析:字符級(jí)切分保證零UNK;擴(kuò)展詞表覆蓋更多生僻字;動(dòng)態(tài)重排在推理時(shí)合并高頻新詞。筆畫(huà)特征主要用于輸入表示,不直接影響詞表。13.關(guān)于模型蒸餾,下列說(shuō)法正確的是A.學(xué)生模型logits需加入溫度τ>1B.中間層蒸餾需對(duì)齊隱藏狀態(tài)維度C.數(shù)據(jù)增強(qiáng)可提升蒸餾效果D.蒸餾后學(xué)生模型容量一定下降答案:A、B、C解析:溫度τ軟化分布,傳遞暗知識(shí);中間層蒸餾需投影矩陣對(duì)齊維度;數(shù)據(jù)增強(qiáng)擴(kuò)充教師信號(hào);容量下降非必然,輕量學(xué)生也可通過(guò)寬度加深彌補(bǔ)。14.在對(duì)話系統(tǒng)中,為減少“安全但無(wú)聊”回復(fù),可采取A.引入多樣性機(jī)制(如MMI)B.提高topp采樣閾值C.強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)多樣性D.過(guò)濾高頻安全回復(fù)答案:A、C、D解析:MMI以互信息為目標(biāo),鼓勵(lì)特異回復(fù);RL獎(jiǎng)勵(lì)多樣性;過(guò)濾高頻模板。提高topp閾值反而可能增加重復(fù)。15.以下哪些指標(biāo)可直接反映模型公平性A.DemographicParityB.EqualizedOddsC.CalibrationErrorD.IndividualFairness答案:A、B、D解析:CalibrationError衡量置信度與準(zhǔn)確率對(duì)齊,與公平性無(wú)直接關(guān)聯(lián)。三、填空題(每空2分,共20分)16.在RoPE(旋轉(zhuǎn)位置編碼)中,對(duì)查詢向量q與鍵向量k施加的旋轉(zhuǎn)矩陣維度等于________。答案:head_dim解析:RoPE按頭維度構(gòu)造對(duì)角塊旋轉(zhuǎn)矩陣,保持維度一致。17.當(dāng)使用混合精度訓(xùn)練時(shí),F(xiàn)P16梯度出現(xiàn)下溢,解決方法是引入________格式。答案:FP32MasterWeights解析:維護(hù)FP32主權(quán)重,更新時(shí)再轉(zhuǎn)回FP16,避免小梯度清零。18.在NER評(píng)估中,若預(yù)測(cè)標(biāo)簽為BPERILOC,正確標(biāo)簽為BPERIPER,則該實(shí)體被計(jì)為_(kāi)_______。答案:FP解析:BI標(biāo)簽序列錯(cuò)誤,邊界與類(lèi)別均不匹配,整體視為FP。19.對(duì)比學(xué)習(xí)損失InfoNCE的分子部分對(duì)應(yīng)________樣本對(duì)。答案:正解析:分子為錨點(diǎn)與正樣本相似度,分母為錨點(diǎn)與所有樣本(含正)之和。20.當(dāng)使用Deepspeed訓(xùn)練100B模型,開(kāi)啟ZeROInfinity可將優(yōu)化器狀態(tài)卸載至________。答案:NVMeSSD解析:ZeROInfinity利用CPU+SSD擴(kuò)展內(nèi)存,支持單卡訓(xùn)練百億模型。21.在GPT3的incontextlearning中,示例順序?qū)π阅苡绊戯@著,可通過(guò)________搜索最優(yōu)排列。答案:EntropybasedRanking解析:計(jì)算不同排列下預(yù)測(cè)熵,選熵最小即最穩(wěn)定順序。22.若將ReLU替換為GLU,參數(shù)量約增加________倍。答案:1.5解析:GLU引入門(mén)控線性單元,權(quán)重矩陣由1個(gè)增至1.5個(gè)(W、V合并計(jì)算)。23.在文本分類(lèi)任務(wù)中,使用Rdrop正則化,損失函數(shù)增加________項(xiàng)。答案:KL散度解析:同一輸入兩次前向,強(qiáng)制輸出分布一致,KL散度作為一致性損失。24.當(dāng)使用FAISS進(jìn)行億級(jí)向量檢索,采用________量化可降至25%內(nèi)存。答案:PQ(ProductQuantization)解析:PQ將向量分段聚類(lèi)編碼,顯著壓縮內(nèi)存,保持高召回。25.在RLHF獎(jiǎng)勵(lì)模型訓(xùn)練中,若正負(fù)樣本得分差小于________,視為退化對(duì)并丟棄。答案:0.5解析:OpenAI實(shí)踐表明差值過(guò)小易引入噪聲,通常過(guò)濾邊緣對(duì)。四、判斷題(每題1分,共10分)26.ELECTRA使用生成器判別器框架,其生成器與判別器共享相同詞表。答案:√解析:生成器負(fù)責(zé)MLM,判別器判斷token是否被替換,二者詞表一致。27.在Transformer中,LayerNorm前后均加入殘差連接可進(jìn)一步提升性能。答案:×解析:PreNorm已成主流,PostNorm僅有一處殘差,雙殘差易梯度爆炸。28.使用ALiBi位置編碼后,模型無(wú)需任何位置向量輸入。答案:√解析:ALiBi將位置信息編碼為注意力偏置,直接修改attentionscore。29.在對(duì)話生成中,重復(fù)懲罰系數(shù)設(shè)為1.2意味著將已生成token概率乘以1.2。答案:×解析:懲罰應(yīng)除以1.2,降低再選概率。30.對(duì)于多語(yǔ)種模型,共享詞表會(huì)導(dǎo)致語(yǔ)料多的語(yǔ)言主導(dǎo)詞表。答案:√解析:BPE合并頻率高,大語(yǔ)料語(yǔ)言子詞占比高,低資源語(yǔ)言易切分過(guò)碎。31.使用GradientCheckpointing后,顯存占用與層數(shù)無(wú)關(guān)。答案:×解析:Checkpointing以時(shí)間換空間,顯存與單層激活相關(guān),但層數(shù)增加仍線性上升,只是系數(shù)減小。32.在PromptTuning中,連續(xù)prompt向量初始化采用隨機(jī)均勻分布優(yōu)于詞匯采樣。答案:×解析:詞匯采樣(如Top5000詞嵌入平均)更接近真實(shí)語(yǔ)義,收斂更快。33.對(duì)于長(zhǎng)文本摘要,LED使用局部+全局注意力,全局token固定為<cls>。答案:√解析:LED在編碼器端引入全局token,<cls>作為句子級(jí)表示參與所有位置計(jì)算。34.使用混合專家模型MoE時(shí),專家數(shù)量增加必然導(dǎo)致推理延遲上升。答案:×解析:Top1路由僅激活一個(gè)專家,專家數(shù)量與延遲無(wú)線性關(guān)系,但需更大顯存。35.在FewRel數(shù)據(jù)集上,原型網(wǎng)絡(luò)將類(lèi)別表示為支持集樣本均值的歐氏距離原型。答案:√解析:原型網(wǎng)絡(luò)核心即類(lèi)原型=支持樣本embedding均值,查詢樣本就近分類(lèi)。五、簡(jiǎn)答題(每題8分,共24分)36.描述RoPE(旋轉(zhuǎn)位置編碼)的數(shù)學(xué)原理,并說(shuō)明其如何兼顧相對(duì)與絕對(duì)位置信息。答案:RoPE對(duì)二維向量(x,y)引入旋轉(zhuǎn)矩陣\[\begin{pmatrix}\cosm\theta&\sinm\theta\\\sinm\theta&\cosm\theta\end{pmatrix}\]其中m為位置索引,θ與波長(zhǎng)相關(guān)。推廣到d維,將向量拆分為d/2對(duì),每對(duì)獨(dú)立旋轉(zhuǎn)。兼顧機(jī)制:1.絕對(duì):旋轉(zhuǎn)角度mθ直接依賴絕對(duì)位置m。2.相對(duì):內(nèi)積<q_m,k_n>僅與相對(duì)位置mn有關(guān),因旋轉(zhuǎn)矩陣正交,滿足<q_m,k_n>=<q_0,k_{nm}>。解析:通過(guò)復(fù)數(shù)域視角,RoPE等價(jià)于乘以e^{imθ},內(nèi)積自然僅含相對(duì)相位差,實(shí)現(xiàn)外推。37.對(duì)比學(xué)習(xí)SimCSE在無(wú)監(jiān)督與有監(jiān)督場(chǎng)景下的損失差異,并給出梯度形式。答案:無(wú)監(jiān)督:同一文本兩次dropout作為正樣本對(duì),損失\[\mathcal{L}=\log\frac{e^{\text{sim}(h_i,h_i^+)/\tau}}{\sum_{j=1}^{N}e^{\text{sim}(h_i,h_j)/\tau}}\]有監(jiān)督:利用NLI數(shù)據(jù)集,正樣本為entailment,負(fù)樣本為contradiction,損失\[\mathcal{L}=\log\frac{e^{\text{sim}(h_i,h_{\text{pos}})/\tau}}{e^{\text{sim}(h_i,h_{\text{pos}})/\tau}+e^{\text{sim}(h_i,h_{\text{neg}})/\tau}}\]梯度:\[\nabla_{h_i}\mathcal{L}=\frac{1}{\tau}\left[(1P_+)h_i^+\sum_{j}P_jh_j\right]\]其中P_j為softmax概率。解析:有監(jiān)督引入人工標(biāo)注負(fù)樣本,梯度更明確推開(kāi)矛盾樣本,提升表示分離度。38.解釋RLHF中獎(jiǎng)勵(lì)模型過(guò)擬合的“獎(jiǎng)勵(lì)黑客”現(xiàn)象,并提出兩種檢測(cè)方法。答案:獎(jiǎng)勵(lì)黑客:模型利用獎(jiǎng)勵(lì)函數(shù)漏洞,在訓(xùn)練集上獲得高獎(jiǎng)勵(lì)但生成人類(lèi)認(rèn)為低質(zhì)文本。檢測(cè)方法:1.分布外驗(yàn)證:收集新標(biāo)注偏好對(duì),若獎(jiǎng)勵(lì)模型準(zhǔn)確率下降>5%,提示過(guò)擬合。2.對(duì)抗探針:構(gòu)造語(yǔ)義等效但表面差異大的對(duì)抗樣本,若獎(jiǎng)勵(lì)差異>0.5,說(shuō)明模型依賴虛假特征。解析:黑客現(xiàn)象源于高維獎(jiǎng)勵(lì)空間存在對(duì)抗面,需持續(xù)監(jiān)控獎(jiǎng)勵(lì)模型泛化。六、計(jì)算與推導(dǎo)題(共31分)39.(10分)給定單頭注意力,查詢q∈?^d,鍵值k,v∈?^d,位置m與n的RoPE旋轉(zhuǎn)矩陣為R_θ(m)。推導(dǎo)內(nèi)積<q_m,k_n>僅與mn相關(guān)的表達(dá)式。答案:設(shè)q_m=R_θ(m)q,k_n=R_θ(n)k,則<q_m,k_n>=(R_θ(m)q)^T(R_θ(n)k)=q^TR_θ(m)^TR_θ(n)k由于R_θ為正交矩陣,R_θ(m)^T=R_θ(m),故=q^TR_θ(nm)k僅依賴相對(duì)位置nm。解析:旋轉(zhuǎn)矩陣構(gòu)成群同態(tài),R_θ(a)R_θ(b)=R_θ(a+b),因此差值決定內(nèi)積。40.(10分)假設(shè)使用混合專家MoE,Top1路由,專家數(shù)為E,輸入batchsize=B,序列長(zhǎng)度=L,隱藏維度=h。計(jì)算激活參數(shù)量與總參數(shù)量之比。答案:激活參數(shù):每個(gè)token僅選1個(gè)專家,前饋層2h2參數(shù),總激活=BL×2h2??倕?shù):E個(gè)專家,每個(gè)2h2,總參數(shù)量=E×2h2。比值=BL×2h2/(E×2h2)=BL/E。解析:Top1路由使激活與E成反比,E越大稀疏度越高。41.(11分)給定訓(xùn)練集含100萬(wàn)條文本,平均長(zhǎng)度200token,詞表大小|V|=32000。使用BPE繼續(xù)訓(xùn)練10000步,每步合并1對(duì),新子詞出現(xiàn)頻率閾值設(shè)為5。估算最終詞表大小,并給出推導(dǎo)。答案:初始詞表:32000含單字。每步新增1子詞

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論