版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年AI自然語(yǔ)言處理技術(shù)與應(yīng)用培訓(xùn)模擬試題及答案一、單項(xiàng)選擇題(每題1分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息而不引入額外可學(xué)習(xí)參數(shù)的方法是A.絕對(duì)位置編碼B.相對(duì)位置編碼C.旋轉(zhuǎn)位置編碼(RoPE)D.可學(xué)習(xí)位置嵌入答案:C解析:RoPE通過(guò)旋轉(zhuǎn)矩陣將相對(duì)位置信息直接注入注意力分?jǐn)?shù),無(wú)需新增參數(shù),且長(zhǎng)度外推性好。2.當(dāng)使用LoRA對(duì)大模型進(jìn)行參數(shù)高效微調(diào)時(shí),若原始線性層權(quán)重為W∈?^{d×k},LoRA引入的低秩矩陣維度為r,則新增參數(shù)量占總參數(shù)量的比例為A.r/(d+k)B.2r/(d+k)C.r2/(dk)D.2r(d+k)/(dk)答案:B解析:LoRA只訓(xùn)練A∈?^{r×k}與B∈?^{d×r},合計(jì)2r(d+k)參數(shù),原參數(shù)量dk,故比例為2r/(d+k)。3.在RLHF階段,PPO算法中優(yōu)勢(shì)估計(jì)A?_t采用GAE(λ)時(shí),若λ=1,則A?_t等價(jià)于A.單步TD誤差B.蒙特卡洛回報(bào)減基線C.多步TD誤差D.價(jià)值函數(shù)殘差答案:B解析:λ=1時(shí)GAE退化為完整回報(bào)與價(jià)值估計(jì)之差,即蒙特卡洛優(yōu)勢(shì)。4.以下哪種方法最適合在中文醫(yī)療NER任務(wù)中解決“嵌套實(shí)體”問(wèn)題A.BIO標(biāo)注+CRFB.指針網(wǎng)絡(luò)(PointerNetwork)C.BiaffineParserD.TPLinker答案:D解析:TPLinker將實(shí)體首尾聯(lián)合解碼,可一次性處理嵌套與不嵌套實(shí)體,無(wú)需分層解碼。5.在DiffusionModel用于文本生成時(shí),為了將離散token映射到連續(xù)空間,通常采用A.VAE編碼器B.GumbelSoftmaxC.Embedding插值D.StraightthroughEstimator答案:C解析:將token嵌入向量視為連續(xù)狀態(tài),再施加擴(kuò)散過(guò)程,避免離散采樣不可導(dǎo)問(wèn)題。6.當(dāng)使用FlashAttention2時(shí),內(nèi)存復(fù)雜度從O(n2)降至A.O(nlogn)B.O(n)C.O(n^{1.5})D.O(nk)答案:B解析:通過(guò)分塊計(jì)算與重排,F(xiàn)lashAttention2將顯存占用降至線性。7.在檢索增強(qiáng)生成(RAG)中,若采用ColBERTv2作為檢索器,其“延遲交互”指的是A.查詢與文檔在BERT底層提前交互B.查詢與文檔token向量先緩存,后計(jì)算MaxSimC.交互發(fā)生在重排序階段D.交互發(fā)生在訓(xùn)練階段答案:B解析:延遲交互即先獨(dú)立編碼,后計(jì)算細(xì)粒度相似度,兼顧效率與精度。8.當(dāng)使用4bitGPTQ量化LLaMA65B時(shí),若組大小為128,則額外存儲(chǔ)的零點(diǎn)與縮放因子約占原模型體積的A.0.2%B.1.2%C.3.5%D.6.8%答案:B解析:每128權(quán)重共享一組零點(diǎn)與縮放,65B參數(shù)≈130GB,額外≈1.6GB,占比≈1.2%。9.在指令微調(diào)階段,為了抑制模型“過(guò)度迎合”用戶錯(cuò)誤前提,最佳數(shù)據(jù)策略是A.增加拒絕采樣樣本B.引入對(duì)比式反事實(shí)指令C.提高KL懲罰系數(shù)D.降低學(xué)習(xí)率答案:B解析:對(duì)比式反事實(shí)指令讓模型學(xué)習(xí)識(shí)別并糾正錯(cuò)誤前提,減少幻覺(jué)。10.以下哪種評(píng)價(jià)指標(biāo)對(duì)機(jī)器翻譯“重復(fù)翻譯”現(xiàn)象最敏感A.BLEUB.chrF++C.COMETD.YiSi答案:A解析:BLEU基于ngram精確率,重復(fù)片段會(huì)人為抬高分?jǐn)?shù)。11.在稀疏注意力模式里,StreamingLLM之所以能處理無(wú)限長(zhǎng)輸入,核心技巧是A.滑動(dòng)窗口+重計(jì)算B.保留初始token+局部窗口C.低秩近似D.哈希分桶答案:B解析:初始token保留全局信息,局部窗口捕捉近期上下文,兼顧效率與效果。12.當(dāng)使用DPO(DirectPreferenceOptimization)時(shí),其損失函數(shù)與BradleyTerry模型關(guān)系是A.對(duì)數(shù)似然B.交叉熵C.最大間隔D.KL散度答案:A解析:DPO直接優(yōu)化偏好數(shù)據(jù)的對(duì)數(shù)似然,等價(jià)于BradleyTerry參數(shù)估計(jì)。13.在文本水印檢測(cè)中,若采用Gumbelsoftmax重參數(shù)化嵌入水印,檢測(cè)端需已知A.私鑰隨機(jī)種子B.原始文本C.模型參數(shù)D.溫度系數(shù)答案:A解析:私鑰種子用于復(fù)現(xiàn)采樣分布,計(jì)算統(tǒng)計(jì)量檢測(cè)水印。14.當(dāng)使用FSDP+CPUOffload訓(xùn)練LLM時(shí),以下哪項(xiàng)最可能成為瓶頸A.網(wǎng)絡(luò)帶寬B.PCIe帶寬C.計(jì)算核心數(shù)D.內(nèi)存容量答案:B解析:CPUOffload頻繁在PCIe搬運(yùn)激活,帶寬不足導(dǎo)致延遲。15.在中文拼寫糾錯(cuò)任務(wù)中,若采用“混淆集”擴(kuò)展數(shù)據(jù),混淆集主要來(lái)源于A.音近+形近+義近B.僅音近C.僅形近D.僅義近答案:A解析:中文錯(cuò)別字三類混淆均需覆蓋,提升召回。16.當(dāng)使用QLoRA時(shí),為了降低量化誤差,通常對(duì)哪部分權(quán)重保留16bitA.注意力輸出投影B.LayerNormC.嵌入層D.線性層輸入答案:C解析:嵌入層參數(shù)量小但對(duì)精度敏感,保留16bit可顯著提升效果。17.在多模態(tài)LLM中,將視覺(jué)token與文本token拼接后,為防止視覺(jué)token被“淹沒(méi)”,常采用A.視覺(jué)token加權(quán)B.視覺(jué)token單獨(dú)層歸一化C.視覺(jué)token降采樣D.視覺(jué)token增加位置偏移答案:A解析:可學(xué)習(xí)視覺(jué)權(quán)重,平衡模態(tài)貢獻(xiàn)。18.當(dāng)使用Mamba架構(gòu)時(shí),其狀態(tài)空間模型核心算子為A.卷積B.線性注意力C.選擇性掃描D.門控MLP答案:C解析:選擇性掃描機(jī)制實(shí)現(xiàn)線性復(fù)雜度長(zhǎng)程依賴。19.在指令微調(diào)數(shù)據(jù)配比中,若“能力稀釋”現(xiàn)象嚴(yán)重,應(yīng)優(yōu)先A.增加代碼數(shù)據(jù)B.增加對(duì)話數(shù)據(jù)C.增加預(yù)訓(xùn)練數(shù)據(jù)D.增加高質(zhì)量指令數(shù)據(jù)答案:D解析:高質(zhì)量指令數(shù)據(jù)可緩解通用能力遺忘。20.當(dāng)使用KNNLM增強(qiáng)解碼時(shí),KNN檢索庫(kù)通常存儲(chǔ)A.token到logit映射B.(上下文,下一token)鍵值對(duì)C.注意力權(quán)重D.梯度信息答案:B解析:KNNLM通過(guò)檢索歷史上下文相似片段,插值下一token分布。二、多項(xiàng)選擇題(每題2分,共20分)21.以下哪些技術(shù)可有效降低長(zhǎng)文本推理時(shí)的KVcache顯存占用A.多查詢注意力(MQA)B.窗口KVcacheC.旋轉(zhuǎn)位置編碼D.分頁(yè)Attention答案:A、B、D解析:MQA共享KV頭,窗口與分頁(yè)均裁剪緩存,RoPE不改變顯存。22.在構(gòu)建中文LLM預(yù)訓(xùn)練語(yǔ)料時(shí),以下哪些過(guò)濾策略對(duì)去除“低質(zhì)量”文本最有效A.困惑度過(guò)濾B.重復(fù)子串檢測(cè)C.語(yǔ)言模型打分D.傳統(tǒng)關(guān)鍵詞黑名單答案:A、B、C解析:三者結(jié)合可去除亂碼、重復(fù)、機(jī)器生成文本。23.以下哪些方法可用于評(píng)估大模型“知識(shí)時(shí)效性”A.時(shí)間敏感問(wèn)答B(yǎng).知識(shí)探測(cè)(KnowledgeProbing)C.反事實(shí)更新D.對(duì)抗攻擊答案:A、B、C解析:對(duì)抗攻擊評(píng)估魯棒性,非時(shí)效性。24.當(dāng)使用ConstitutionalAI時(shí),憲法原則(ConstitutionalPrinciples)通常包括A.有用性B.無(wú)害性C.誠(chéng)實(shí)性D.簡(jiǎn)潔性答案:A、B、C解析:簡(jiǎn)潔性非核心原則。25.以下哪些操作會(huì)導(dǎo)致QLoRA微調(diào)后的模型出現(xiàn)“量化誤差累積”A.過(guò)低rankB.過(guò)高learningrateC.過(guò)低groupsizeD.未做嵌入層量化答案:A、B解析:rank過(guò)低表達(dá)能力不足,lr過(guò)高放大誤差。26.在DiffusionLLM中,以下哪些技巧可加速采樣A.DDIMB.DPMSolver++C.蒸餾D.重參數(shù)化答案:A、B、C解析:重參數(shù)化為訓(xùn)練技巧,非采樣加速。27.以下哪些指標(biāo)可用于衡量檢索器“召回率”A.Recall@kB.RprecisionC.MRRD.MAP答案:A、B、D解析:MRR衡量排序,非純召回。28.當(dāng)使用Falcon模型時(shí),其“多查詢注意力”相對(duì)標(biāo)準(zhǔn)注意力改動(dòng)包括A.所有頭共享K、VB.僅共享VC.保持Q獨(dú)立D.減少參數(shù)量答案:A、C、D解析:多查詢即K、V共享,Q獨(dú)立,減少顯存。29.以下哪些方法可用于檢測(cè)大模型“幻覺(jué)”A.不確定性估計(jì)B.一致性檢查C.外部檢索驗(yàn)證D.梯度裁剪答案:A、B、C解析:梯度裁剪為訓(xùn)練技巧。30.在RLHF中,若獎(jiǎng)勵(lì)模型過(guò)度優(yōu)化,可能導(dǎo)致A.獎(jiǎng)勵(lì)黑客B.模式崩潰C.對(duì)齊稅D.梯度消失答案:A、B、C解析:梯度消失為優(yōu)化問(wèn)題,非對(duì)齊問(wèn)題。三、判斷題(每題1分,共10分)31.使用RoPE后,Transformer在推理時(shí)可直接外推至任意長(zhǎng)度而無(wú)需額外微調(diào)。答案:×解析:RoPE外推能力有限,極端長(zhǎng)度仍需位置插值或微調(diào)。32.在GPTQ量化中,組大小越小,量化誤差越低,但存儲(chǔ)開(kāi)銷越高。答案:√解析:更小組共享更少權(quán)重,誤差低,但縮放/零點(diǎn)增多。33.DPO訓(xùn)練需要顯式獎(jiǎng)勵(lì)模型。答案:×解析:DPO直接利用偏好數(shù)據(jù),無(wú)需單獨(dú)獎(jiǎng)勵(lì)模型。34.Mamba架構(gòu)的推理復(fù)雜度與序列長(zhǎng)度呈線性關(guān)系。答案:√解析:選擇性掃描算子線性復(fù)雜度。35.使用KNNLM時(shí),檢索庫(kù)越大,生成效果一定越好。答案:×解析:噪聲增多可能引入錯(cuò)誤知識(shí)。36.ConstitutionalAI的selfcritique階段使用與生成階段相同的模型。答案:√解析:自批評(píng)即模型對(duì)自身輸出進(jìn)行修正。37.在稀疏注意力中,BigBird的隨機(jī)注意力有助于捕捉長(zhǎng)程依賴。答案:√解析:隨機(jī)連接保證信息流動(dòng)。38.使用FlashAttention時(shí),dropout必須在attentionsoftmax之后進(jìn)行。答案:×解析:FlashAttention將dropout融合到softmax掩碼,順序可調(diào)整。39.在指令微調(diào)中,增加“思維鏈”數(shù)據(jù)可提升模型推理能力,但可能降低遵循指令能力。答案:√解析:思維鏈風(fēng)格與簡(jiǎn)短指令沖突,需平衡。40.使用FSDP時(shí),設(shè)置`backward_prefetch=PRE`可減少峰值顯存。答案:√解析:提前獲取參數(shù)可避開(kāi)峰值重疊。四、填空題(每空2分,共20分)41.在Transformer中,若隱藏維度d=4096,注意力頭數(shù)h=32,則每個(gè)頭的維度為_(kāi)_____。答案:128解析:4096/32=128。42.使用LoRA時(shí),若r=16,原始線性層權(quán)重為4096×4096,則新增參數(shù)量為_(kāi)_____。答案:2×16×4096=131072解析:A∈?^{16×4096},B∈?^{4096×16}。43.在RLHF中,PPO的clip參數(shù)通常設(shè)為_(kāi)_____。答案:0.2解析:經(jīng)驗(yàn)值0.2可穩(wěn)定訓(xùn)練。44.若使用BFloat16訓(xùn)練,則每個(gè)參數(shù)占用______字節(jié)。答案:2解析:BFloat16為16位浮點(diǎn)。45.當(dāng)使用GroupQueryAttention時(shí),若原32頭,分組數(shù)為4,則KV頭數(shù)為_(kāi)_____。答案:8解析:32/4=8。46.在DiffusionModel中,若噪聲調(diào)度采用cosineschedule,則最大時(shí)間步T通常設(shè)為_(kāi)_____。答案:1000解析:經(jīng)驗(yàn)值1000。47.使用QLoRA時(shí),4bit量化與16bit對(duì)比,理論顯存減少約______倍。答案:4解析:16/4=4。48.在Falcon模型中,采用的激活函數(shù)為_(kāi)_____。答案:GELU解析:Falcon使用GELU。49.當(dāng)使用Mamba時(shí),狀態(tài)擴(kuò)展因子通常設(shè)為_(kāi)_____。答案:2解析:經(jīng)驗(yàn)值2。50.在ConstitutionalAI中,selfcritique輪數(shù)通常設(shè)為_(kāi)_____。答案:1~2解析:過(guò)多輪數(shù)增加成本且收益遞減。五、簡(jiǎn)答題(每題10分,共30分)51.描述FlashAttention2如何通過(guò)分塊策略將內(nèi)存復(fù)雜度從O(n2)降至O(n),并說(shuō)明其與現(xiàn)代GPU內(nèi)存層次的關(guān)系。答案:FlashAttention2將注意力計(jì)算分解為塊級(jí)softmax,利用GPUSRAM作為工作緩存,避免實(shí)例化完整的n×n注意力矩陣。具體步驟:1)將Q、K、V按行塊加載到SRAM;2)在SRAM內(nèi)計(jì)算局部注意力分?jǐn)?shù)、最大值、累加和,更新全局統(tǒng)計(jì)量;3)通過(guò)重縮放保持?jǐn)?shù)值穩(wěn)定性,最終輸出O(n)寫回HBM?,F(xiàn)代GPU內(nèi)存層次中,SRAM(共享內(nèi)存)帶寬高但容量?。?lt;192KB/SM),HBM容量大但帶寬低。FlashAttention2通過(guò)精確分塊大小T_r、T_c,使SRAM能容納所有中間變量,避免HBM讀寫,實(shí)現(xiàn)線性復(fù)雜度。52.解釋DPO(DirectPreferenceOptimization)為何無(wú)需顯式獎(jiǎng)勵(lì)模型,并給出其損失函數(shù)推導(dǎo)關(guān)鍵步驟。答案:DPO利用BradleyTerry模型直接優(yōu)化策略,無(wú)需訓(xùn)練顯式獎(jiǎng)勵(lì)函數(shù)。關(guān)鍵步驟:1)假設(shè)偏好概率滿足p(y_w?y_l|x)=σ(r(x,y_w)r(x,y_l));2)由RLHF知最優(yōu)策略π(y|x)∝π_ref(y|x)exp(r(x,y)/β),反解得r(x,y)=βlog(π(y|x)/π_ref(y|x))+Z(x);3)將r代入BradleyTerry,得p(y_w?y_l|x)=σ(βlog(π_θ(y_w|x)/π_ref(y_w|x))βlog(π_θ(y_l|x)/π_ref(y_l|x)));4)最大化對(duì)數(shù)似然即得DPO損失:L_DPO=E[logσ(βlog(π_θ(y_w|x)/π_ref(y_w|x))βlog(π_θ(y_l|x)/π_ref(y_l|x)))]。因此DPO直接利用偏好數(shù)據(jù)優(yōu)化策略,無(wú)需顯式獎(jiǎng)勵(lì)模型。53.說(shuō)明在中文LLM預(yù)訓(xùn)練中,如何構(gòu)建“高質(zhì)量”語(yǔ)料,給出至少四種過(guò)濾策略及實(shí)現(xiàn)細(xì)節(jié)。答案:1)困惑度過(guò)濾:使用5gramKenLM計(jì)算句子ppl,剔除ppl>1000的句子,避免亂碼與低流暢文本;2)重復(fù)子串檢測(cè):采用滾動(dòng)哈希檢測(cè)>10字符重復(fù)片段,若重復(fù)占比>60%則丟棄,去除模板化網(wǎng)頁(yè);3)語(yǔ)言模型打分:用小型中文BERT打分,取[CLS]置信度<0.5的段落丟棄,過(guò)濾機(jī)器生成文本;4)領(lǐng)域分類器:訓(xùn)練FastText分類器,保留教育、科技、文學(xué)等18類高價(jià)值域,丟棄廣告、博彩;5)人工規(guī)則:過(guò)濾少于10字或多于2048字段落、含“點(diǎn)擊購(gòu)買”等商業(yè)關(guān)鍵詞、含“ ”等HTML實(shí)體;6)去重:使用MinHashLSH對(duì)文檔級(jí)去重,Jaccard>0.8視為重復(fù),保留最早時(shí)間戳版本。通過(guò)六級(jí)過(guò)濾,可將原始6TB網(wǎng)頁(yè)清洗至600GB高質(zhì)量語(yǔ)料,提升預(yù)訓(xùn)練效率與效果。六、綜合應(yīng)用題(共30分)54.某團(tuán)隊(duì)需將LLaMA65B部署至8×A10080GB服務(wù)器,要求4bit權(quán)重+16bit激活,支持2048上下文,batch=1,使用QLoRA+FlashAttention2+FSDP+CPUOffload,請(qǐng)計(jì)算:(1)權(quán)重顯存占用;(2)KVcache顯存占用;(3)激活峰值顯存;(4)是否滿足80GB限制,并給出優(yōu)化建議。答案:(1)權(quán)重:65B×0.5byte=32.5GB;(2)KVcache:層數(shù)80,頭數(shù)64,頭維128,上下文2048,分組KV后KV頭8,緩存總量=2×80×8×128×2048×2byte≈1.07GB;(3)激活峰值:FlashAttention2分塊后,每塊token=128,隱藏4096,峰值激活≈2×4096×128×2byte≈2MB/token,2048token≈4GB;(4)總顯存≈32.5+1.07+4+框架開(kāi)銷3GB≈40.6GB<80GB,滿足。優(yōu)化:可增大batch至2,使用梯度
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 燈用化學(xué)配料工崗后測(cè)試考核試卷含答案
- 創(chuàng)業(yè)指導(dǎo)師崗前品質(zhì)考核試卷含答案
- 重冶萃取工安全實(shí)操水平考核試卷含答案
- 鋼筋骨架工崗前理論知識(shí)考核試卷含答案
- 熱工試驗(yàn)工安全實(shí)操評(píng)優(yōu)考核試卷含答案
- 2024年溫州商學(xué)院馬克思主義基本原理概論期末考試題附答案
- 2024年湖北三峽職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試題附答案
- 2024年湖北師范大學(xué)輔導(dǎo)員招聘?jìng)淇碱}庫(kù)附答案
- 2025年企業(yè)品牌管理與市場(chǎng)定位手冊(cè)
- 2024年荔浦縣輔警招聘考試備考題庫(kù)附答案
- 譯林版五年級(jí)上冊(cè)英語(yǔ)單詞
- 鍋爐操作人員培訓(xùn)
- 零工市場(chǎng)(驛站)運(yùn)營(yíng)管理 投標(biāo)方案(技術(shù)方案)
- 幼兒學(xué)前班數(shù)學(xué)寒假作業(yè)25
- 保障性住房智能管理系統(tǒng)解決方案
- 高中物理會(huì)考知識(shí)點(diǎn)及高中物理會(huì)考知識(shí)點(diǎn)總結(jié)
- 福特F-150猛禽說(shuō)明書
- 上海布邦流體過(guò)濾產(chǎn)品知識(shí)課件
- 舒城縣2023-2024學(xué)年四年級(jí)數(shù)學(xué)第一學(xué)期期末達(dá)標(biāo)檢測(cè)模擬試題含答案
- 《干部履歷表》1999版電子版
-
評(píng)論
0/150
提交評(píng)論