版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年人工智能AI自然語言處理高級應(yīng)用培訓(xùn)試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息而不引入額外參數(shù)的機(jī)制是A.絕對位置編碼B.相對位置編碼C.正弦位置編碼D.可學(xué)習(xí)位置編碼答案:C解析:Vaswani等人在原始論文中提出用不同頻率的正弦與余弦函數(shù)生成固定位置向量,無需訓(xùn)練參數(shù)即可泛化到更長序列,且具備良好外推性。2.當(dāng)使用BERT進(jìn)行中文命名實(shí)體識別時(shí),若出現(xiàn)“南京市長江大橋”被切分為“南京/市長/江大橋”,導(dǎo)致實(shí)體邊界錯(cuò)誤,最合理的緩解策略是A.提高M(jìn)ask比例B.改用WholeWordMaskingC.增加下游CRF層權(quán)重D.用更大批次訓(xùn)練答案:B解析:WholeWordMasking強(qiáng)制對整個(gè)詞進(jìn)行掩碼,避免子詞切分破壞語義邊界,從而提升實(shí)體級任務(wù)表現(xiàn)。3.在GPT3的Fewshot設(shè)定中,增加incontext示例數(shù)量通常會(huì)A.線性降低推理延遲B.提升任務(wù)性能但提高推理成本C.降低模型參數(shù)更新量D.減少GPU顯存占用答案:B解析:更多示例讓模型在推理階段“看到”更豐富的任務(wù)模式,性能提升;但同時(shí)輸入長度增加,推理FLOPs與顯存線性增長。4.使用LoRA對大模型進(jìn)行參數(shù)高效微調(diào)時(shí),若秩r=8,原矩陣維度為4096×4096,則實(shí)際新增參數(shù)量為A.4096×8B.2×4096×8C.4096×8+8×4096D.4096×4096×8答案:C解析:LoRA將權(quán)重更新ΔW分解為低秩矩陣BA,其中B∈?^(d×r),A∈?^(r×d),總參數(shù)量為dr+rd=2dr。5.在RLHF階段,采用PPO算法優(yōu)化獎(jiǎng)勵(lì)模型時(shí),若KL懲罰系數(shù)β設(shè)置過大,最可能出現(xiàn)的副作用是A.策略迅速收斂到高獎(jiǎng)勵(lì)區(qū)域B.生成文本與初始模型分布嚴(yán)重偏離C.生成文本趨于重復(fù)初始模型輸出D.訓(xùn)練不穩(wěn)定,出現(xiàn)獎(jiǎng)勵(lì)黑客答案:C解析:KL懲罰項(xiàng)限制策略與參考策略的距離,β過大導(dǎo)致優(yōu)化保守,生成結(jié)果幾乎復(fù)制初始模型,多樣性驟降。6.在多模態(tài)模型BLIP2中,QFormer的作用是A.提取圖像特征并直接生成文本B.作為視覺語言信息瓶頸,固定LLM參數(shù)C.微調(diào)LLM全部參數(shù)D.僅用于圖像編碼答案:B解析:QFormer通過可學(xué)習(xí)查詢向量將視覺信息壓縮為固定數(shù)量token,再接入凍結(jié)的LLM,實(shí)現(xiàn)模態(tài)橋接且節(jié)省訓(xùn)練開銷。7.當(dāng)使用INT8量化部署175B參數(shù)模型時(shí),若采用逐通道對稱量化,權(quán)重存儲量約為A.175GBB.87.5GBC.43.75GBD.21.875GB答案:C解析:原模型700GB(FP16),INT8為1字節(jié),體積減半至350GB;逐通道縮放因子額外占用可忽略,故約43.75GB(350/8≈43.75)。8.在對比學(xué)習(xí)SimCSE中,dropout作為噪聲被用作A.正例構(gòu)造B.負(fù)例挖掘C.梯度截?cái)郉.學(xué)習(xí)率調(diào)度答案:A解析:同一樣本兩次前向經(jīng)過不同dropoutmask,得到不同表示作為正例對,無需額外標(biāo)注即可進(jìn)行對比學(xué)習(xí)。9.當(dāng)使用FAISSIVF1024索引在十億級文本向量庫做召回時(shí),若nprobe=32,其時(shí)間復(fù)雜度主要與哪項(xiàng)成正比A.庫大小×32B.向量維度×32C.1024×32D.向量維度×庫大小答案:A解析:IVF先定位32個(gè)倒排列表,再在這些列表中線性掃描,掃描量≈庫大小/1024×32,故與庫大小×32成正比。10.在DiffusionModel文本生成中,ClassifierFreeGuidance的引導(dǎo)系數(shù)w=1.5,若條件與無條件得分分別為?cond、?uncond,則最終去噪方向?yàn)锳.?condB.1.5?cond?0.5?uncondC.2.5?cond?1.5?uncondD.?cond?1.5?uncond答案:B解析:CFG公式?=?uncond+w(?cond??uncond)=(1+w)?cond?w?uncond,代入w=1.5得2.5?cond?1.5?uncond,但選項(xiàng)B為1.5?cond?0.5?uncond,此處為筆誤修正,正確答案應(yīng)為(1+w)?cond?w?uncond,即2.5?cond?1.5?uncond,對應(yīng)選項(xiàng)C。二、多項(xiàng)選擇題(每題3分,共15分)11.以下哪些技術(shù)可直接緩解LLM“幻覺”現(xiàn)象A.檢索增強(qiáng)生成(RAG)B.思維鏈提示(ChainofThought)C.強(qiáng)化學(xué)習(xí)從人類反饋(RLHF)D.增加模型層數(shù)答案:A、B、C解析:RAG引入外部知識,CoT促使模型逐步推理,RLHF對齊人類偏好,均可降低幻覺;單純加深模型反而可能加劇參數(shù)記憶錯(cuò)誤。12.關(guān)于參數(shù)高效微調(diào)方法,下列說法正確的是A.AdaLoRA可在訓(xùn)練過程中動(dòng)態(tài)調(diào)整秩B.Prefixtuning在輸入前添加可學(xué)習(xí)向量C.BitFit僅訓(xùn)練模型偏置項(xiàng)D.LoRA需要修改模型架構(gòu)答案:A、B、C解析:LoRA通過旁路矩陣插入,無需修改原模型代碼,僅注入模塊,故D錯(cuò)誤。13.在構(gòu)建中文醫(yī)療對話系統(tǒng)時(shí),以下哪些指標(biāo)更適合評估安全性A.BLEUB.實(shí)體準(zhǔn)確率C.有害建議檢出率D.一致性違規(guī)率答案:C、D解析:BLEU與實(shí)體準(zhǔn)確率側(cè)重流暢性與事實(shí),無法衡量是否輸出有害或自相矛盾的醫(yī)療建議;C、D直接度量安全。14.當(dāng)使用FlashAttention2加速訓(xùn)練時(shí),其優(yōu)化包括A.減少HBM讀寫次數(shù)B.將O(N2)內(nèi)存降至O(N)C.利用GPUTensorCoretilingD.支持任意長度序列無需分塊答案:A、B、C解析:FlashAttention仍需在序列超長時(shí)手動(dòng)分塊,D錯(cuò)誤。15.以下哪些做法會(huì)降低大模型預(yù)訓(xùn)練時(shí)的FLOPs利用率(MFU)A.使用激活重計(jì)算B.批次大小低于GPU最大容量C.序列長度填充至固定值導(dǎo)致大量paddingD.采用bf16而非fp32答案:B、C解析:A通過時(shí)間換空間,不降低MFU;D減少計(jì)算量;B、C導(dǎo)致計(jì)算單元空轉(zhuǎn),MFU下降。三、判斷題(每題1分,共10分)16.在MoE(MixtureofExperts)模型中,專家數(shù)量增加會(huì)線性增加激活參數(shù)量。答案:錯(cuò)解析:MoE通過稀疏激活,每token僅觸發(fā)topk專家,激活參數(shù)量與k成正比,與總專家數(shù)無關(guān)。17.使用RoPE位置編碼的模型在推理時(shí)可直接外推到更長序列而無需額外訓(xùn)練。答案:對解析:RoPE通過旋轉(zhuǎn)矩陣編碼相對位置,具備良好外推性質(zhì),實(shí)踐表明可擴(kuò)展至2×訓(xùn)練長度。18.在對比學(xué)習(xí)中,溫度系數(shù)τ越小,則對難負(fù)例的懲罰越弱。答案:錯(cuò)解析:τ越小,分布越尖銳,難負(fù)例被放大,懲罰更強(qiáng)。19.INT4量化對175B模型權(quán)重進(jìn)行分組量化后,若組大小為128,則每組僅需額外存儲一個(gè)縮放因子和一個(gè)零點(diǎn),共2字節(jié)。答案:對解析:對稱量化可省略零點(diǎn),但非對稱需2字節(jié);題目未限定對稱,默認(rèn)非對稱,故2字節(jié)合理。20.使用DPO(DirectPreferenceOptimization)訓(xùn)練時(shí)無需顯式獎(jiǎng)勵(lì)模型。答案:對解析:DPO將獎(jiǎng)勵(lì)函數(shù)隱式表達(dá)為策略的閉式解,直接利用偏好數(shù)據(jù)優(yōu)化,省去訓(xùn)練顯式RM步驟。四、填空題(每空2分,共20分)21.在Transformer注意力機(jī)制中,若隱藏維度d=512,頭數(shù)h=8,則每個(gè)頭的維度為______。答案:64解析:512/8=64。22.使用DeepSpeedZeRO3將175B模型參數(shù)分片到128張A100,每張GPU存儲的權(quán)重約為______GB(FP16)。答案:1.375解析:350GB/128≈1.375GB。23.若使用SentenceBERT進(jìn)行語義檢索,采用cosine相似度,閾值為0.82,則當(dāng)query與文檔向量內(nèi)積為0.41時(shí),文檔______被召回。(填“會(huì)”或“不會(huì)”)答案:不會(huì)解析:cosine=內(nèi)積/(‖q‖‖d‖),若向量已歸一化,則內(nèi)積即cosine=0.41<0.82。24.在GPT3175B模型中,若詞匯表大小V=50257,嵌入維度d=12288,則輸入嵌入層參數(shù)量為______萬。答案:6176.5解析:50257×12288=617650816,約61765萬,即6176.5萬(以0.1萬為單位)。25.使用FSDP訓(xùn)練時(shí),若設(shè)置reshard_after_forward=True,則峰值顯存約為______倍模型參數(shù)。答案:1.5解析:FSDP在反向前重新分片,峰值≈1×參數(shù)+0.5×梯度+優(yōu)化器狀態(tài)分片,整體約1.5×。五、簡答題(每題8分,共24分)26.描述如何在不泄露隱私的前提下,利用聯(lián)邦微調(diào)技術(shù)讓醫(yī)院A與醫(yī)院B協(xié)作提升醫(yī)療LLM的實(shí)體識別效果,并給出參數(shù)聚合公式與安全性分析。答案:步驟:1.雙方本地?cái)?shù)據(jù)不出域,共享初始模型M0。2.各院在本地進(jìn)行LoRA微調(diào),得到ΔA、ΔB。3.采用安全聚合協(xié)議(如SecureAggregation),將ΔA、ΔB加密上傳至協(xié)調(diào)方。4.協(xié)調(diào)方計(jì)算Δglobal=(nAΔA+nBΔB)/(nA+nB),下發(fā)更新。5.雙方解密并合并至本地模型。公式:Δglobal=ΣniΔi/Σni。安全性:僅暴露聚合梯度,單個(gè)醫(yī)院梯度被同態(tài)加密與噪聲掩蓋,無法反推患者記錄;LoRA低秩進(jìn)一步降低信息熵。27.解釋為什么“思維樹”(TreeofThoughts)在解決24點(diǎn)游戲時(shí)優(yōu)于鏈?zhǔn)紺oT,并給出偽代碼。答案:原因:24點(diǎn)需要探索多種數(shù)字組合路徑,鏈?zhǔn)紺oT為單一路徑,易陷入局部錯(cuò)誤;ToT維護(hù)多條候選,通過評價(jià)函數(shù)剪枝,實(shí)現(xiàn)廣度優(yōu)先搜索。偽代碼:functionToT_24(nums):root=Node(nums,history=[])beam=[root]forstepin1…max_depth:new_beam=[]fornodeinbeam:for(a,b)inpairs(node.nums):foropin{+,?,×,÷}:ifinvalid(op,b):continuenew_nums=apply(node.nums,a,b,op)child=Node(new_nums,history=node.history+[(a,op,b)])child.value=evaluate(new_nums)new_beam.append(child)new_beam.sort(key=lambdax:x.value,reverse=True)beam=new_beam[:beam_width]ifany(n.value==24forninbeam):returnhistoryreturn“Nosolution”28.給定一段長文本,請說明如何利用滑動(dòng)窗口+摘要級聯(lián)策略在有限4k上下文LLM中完成整本書摘要,并分析信息損失上界。答案:策略:1.將書按章節(jié)切分為若干4ktoken塊,重疊256token。2.每塊用指令“用200字總結(jié)”生成局部摘要。3.將局部摘要拼接,若仍超長,遞歸執(zhí)行步驟2,直至總長度<4k。4.最終輸入LLM生成全局摘要。信息損失上界:每次摘要壓縮比r=200/4000=0.05,遞歸k層,則保留信息量≥(1?α)^k,其中α為壓縮無關(guān)信息比例,實(shí)驗(yàn)測得α≈0.4,故k=2時(shí)保留≥0.36,即損失上界64%。通過增大重疊、引入重要度評分可降至45%。六、計(jì)算與推導(dǎo)題(共31分)29.(10分)假設(shè)使用分組查詢注意力(GQA)將32頭查詢、32頭鍵值縮減為8鍵值組,隱藏維度d=4096,計(jì)算訓(xùn)練階段單步相比標(biāo)準(zhǔn)MHA減少的顯存占用(以GB為單位,批次b=16,序列L=4096,fp16)。答案:標(biāo)準(zhǔn)MHA鍵值緩存:2×b×h×L×d/h×2字節(jié)=2×16×32×4096×128×2≈1GB。GQA鍵值緩存:2×b×g×L×d/g×2=2×16×8×4096×512×2≈0.25GB。減少:1?0.25=0.75GB。30.(10分)給定一個(gè)二分類任務(wù),正例占比0.8%,使用FocalLoss調(diào)參α=0.25,γ=2。若模型對某正例預(yù)測概率p=0.97,計(jì)算該樣本的FocalLoss值,并解釋γ如何抑制易例。答案:FL=?α(1?p)^γlogp=?0.25×(0.03)^2×log(0.97)≈?0.25×0.0009×(?0.0305)≈6.86×10??。γ增大,(1?p)^γ對高p樣本趨近0,損失被壓縮,訓(xùn)練重點(diǎn)轉(zhuǎn)向低p難例,緩解類別不平衡。31.(11分)在DiffusionModel中,若前向過程方差scheduleβt線性增加至0.02,T=1000,推導(dǎo)采樣階段去噪均值μθ(xt,t)的閉式表達(dá)式,并證明當(dāng)t→0時(shí),μθ(xt,t)趨向于真實(shí)圖像x?。答案:由重參數(shù)化:xt=√α?tx?+√(1?α?t)ε,其中α?t=∏(1?βs)。逆過程后驗(yàn):q(xt?1|xt,x?)=N(μ?,β?),μ?=(√αt(1?α?t?1)xt+√α?t?1βtx?)/(1?α?t)。網(wǎng)絡(luò)預(yù)測εθ,則μθ=(xt?(1?αt)/√(1?α?t)εθ)/√αt。代入xt表達(dá)式,得μθ=(√α?tx?+√(1?α?t)ε?(1?αt)/√(1?α?t)εθ)/√αt。當(dāng)εθ→ε,且t→0,αt→1,βt→0,α?t→1,則μθ→x?,證畢。七、綜合應(yīng)用題(共30分)32.(15分)某電商公司需構(gòu)建“智能客服+工單摘要”系統(tǒng),用戶輸入可能含混合粵語與普通話,且要求實(shí)時(shí)響應(yīng)<600ms(p99)。給定資源:8卡A10080GB,單卡INT8推理峰值算力624TOPS,網(wǎng)絡(luò)帶寬200Gbps。請?jiān)O(shè)計(jì)端到端方案,包括:1)語種識別與代碼切換處理;2)模型選型與量化;3)推理服務(wù)架構(gòu);4)性能預(yù)算驗(yàn)證。答案:1)采用FastTextsmall粵語分類器(<1MB),延遲<5ms;若檢測>30%粵語token,啟用粵語拼音增強(qiáng)分詞器,與普通話共享subword詞表。2)選型:基于Baichuan13BChat,使用INT4權(quán)重+INT8激活混合量化,KVcacheINT8,batch=16,beam=1,最大生成長度128。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產(chǎn)條例培訓(xùn)課件
- 強(qiáng)直性肌病總結(jié)2026
- 2026年河北醫(yī)科大學(xué)第四醫(yī)院招聘派遣人員6人備考題庫及完整答案詳解1套
- 佛山市南海區(qū)人民醫(yī)院2026年度合同制專業(yè)技術(shù)人員(第一批)招聘備考題庫含答案詳解
- 2025年建筑行業(yè)合同管理與糾紛處理指南
- 技術(shù)要領(lǐng):高性能服務(wù)器調(diào)優(yōu)方法與實(shí)踐
- 人工智能教育微認(rèn)證模式對教師專業(yè)發(fā)展的激勵(lì)效應(yīng)分析教學(xué)研究課題報(bào)告
- 2026年電子游戲行業(yè)創(chuàng)新報(bào)告及元宇宙技術(shù)應(yīng)用前景報(bào)告
- 四年級綜合實(shí)踐活動(dòng)教學(xué)設(shè)計(jì):《快樂六一創(chuàng)意活動(dòng)策劃》
- 初中化學(xué)溶液濃度標(biāo)定實(shí)驗(yàn)中操作者熟練度對結(jié)果影響研究課題報(bào)告教學(xué)研究課題報(bào)告
- 2026年國有企業(yè)金華市軌道交通控股集團(tuán)招聘備考題庫有答案詳解
- 2025年電子工程師年度工作總結(jié)
- 2026年吉林司法警官職業(yè)學(xué)院單招職業(yè)技能筆試備考題庫帶答案解析
- 2025年高職第三學(xué)年(工程造價(jià))工程結(jié)算與審計(jì)測試題及答案
- 2024年曲阜師范大學(xué)馬克思主義基本原理概論期末考試真題匯編
- 韓國語topik單詞-初級+中級
- 克林頓1993年就職演講+(中英文)
- 四川省房屋建筑工程和市政基礎(chǔ)設(shè)施工程竣工驗(yàn)收報(bào)告
- 商業(yè)倫理與會(huì)計(jì)職業(yè)道德(第四版)第五章企業(yè)對外經(jīng)營道德規(guī)范
- DB13 5161-2020 鍋爐大氣污染物排放標(biāo)準(zhǔn)
- 安全隱患排查工作檢查表
評論
0/150
提交評論