版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2025年秋季人工智能自然語言處理培訓含答案一、單項選擇題(每題2分,共20分)1.在Transformer架構中,用于捕捉序列位置信息的核心組件是A.卷積核B.位置編碼C.層歸一化D.殘差連接答案:B解析:Transformer完全摒棄遞歸與卷積,位置編碼(PositionalEncoding)以正弦函數或可學習向量形式注入詞向量,使模型感知token順序。2.當使用BERT進行中文命名實體識別時,最合理的標簽體系是A.IOB.BIOC.BIESOD.IOBES答案:C解析:中文無空格,字符級標注需精細區(qū)分實體邊界,BIESO五元組比BIO更緊湊,實驗表明在繁體與簡體混合語料上F1平均提升1.8%。3.下列哪項技術最直接緩解大模型“幻覺”生成A.TemperatureScalingB.RAGC.LabelSmoothingD.Dropout答案:B解析:RAG(Retrieval-AugmentedGeneration)先生成上下文相關文檔再回答,可驗證事實,降低幻覺率約42%。4.在對比學習損失InfoNCE中,溫度系數τ趨近于0時,梯度行為表現為A.消失B.爆炸C.不變D.趨近one-hot答案:B解析:τ→0使softmax分布更尖銳,負樣本梯度權重指數級放大,導致梯度爆炸,需用梯度裁剪。5.繼續(xù)預訓練(ContinuePre-training)階段若僅更新5%參數,最佳策略是A.隨機凍結B.層間交錯凍結C.稀疏掩碼D.LoRA答案:D解析:LoRA引入低秩旁路,僅訓練A、B兩個小矩陣,參數量<1%,效果與全參數微調相差<0.3%BLEU。6.在指令微調中,為避免“對齊稅”(alignmenttax)導致下游任務掉點,可加入A.KL散度正則B.對抗樣本C.知識蒸餾D.多任務混合答案:A解析:KL正則約束微調后分布不遠離原始模型,保持通用能力,平均掉點減少0.7%。7.文本風格遷移評價指標中,與人類一致性最高的是A.BLEUB.ROUGEC.BERTScoreD.StyleAccuracy+內容保留人工打分答案:D解析:自動指標無法捕捉風格細微差異,人工打分與風格分類器聯合,Spearmanρ=0.81,顯著高于BERTScore的0.63。8.使用8-bit量化推理時,出現層間激活溢出,首要干預手段是A.降低學習率B.動態(tài)縮放因子C.增加batchD.換用16-bit答案:B解析:動態(tài)縮放(DynamicScalling)在每次前向校準零點,可將溢出率從3%降至0.05%,幾乎無損ppl。9.多模態(tài)模型BLIP-2中,Q-Former的作用是A.編碼圖像B.對齊圖文C.生成文本D.過濾噪聲答案:B解析:Q-Former用32個可學習query抽取視覺特征,與文本空間對齊,參數量僅188M,實現高效跨模態(tài)。10.在RLHF中,若人類偏好數據存在15%噪聲標簽,最佳魯棒算法是A.DPOB.PPO-ClipC.R-DPOD.IPO答案:C解析:R-DPO在損失中加入置信度加權,對噪聲標簽梯度抑制,實驗顯示勝率提升4.2%。二、多項選擇題(每題3分,共15分)11.關于RoPE(旋轉位置編碼)描述正確的是A.外推長度線性增加B.基于復數旋轉矩陣C.可插拔任意注意力變體D.需額外訓練答案:ABC解析:RoPE通過復數域旋轉注入位置,無需訓練;與線性注意力、FlashAttention兼容;外推時頻率基線性插值即可。12.以下哪些方法可直接降低Transformer解碼延遲A.KV-CacheB.SpeculativeDecodingC.BeamSearchD.MedusaHeads答案:ABD解析:KV-Cache消除重復計算;Speculative用小型草稿模型并行驗證;Medusa多頭并行預測后續(xù)3-5個token,延遲降低2.3×。13.造成大模型“逆轉詛咒”(ReversalCurse)的潛在原因包括A.訓練語料方向性不對稱B.自回歸目標單向C.位置編碼缺陷D.激活函數飽和答案:AB解析:數據中正序事實遠多于逆序,單向生成難以泛化到逆序提問;與位置編碼、激活函數無顯著相關。14.在聯邦學習場景下保護NLP模型隱私的技術有A.差分隱私B.安全多方計算C.同態(tài)加密D.梯度壓縮答案:ABC解析:梯度壓縮僅降低通信,不保護隱私;其余三項均可提供理論隱私保證。15.關于參數高效微調PET方法,正確的是A.Adapter插入FFN后B.Prefix-tuning凍結全部參數C.LoRA可疊加使用D.BitFit僅偏置可訓練答案:ABCD解析:四項描述均與原文一致,LoRA多秩疊加可進一步提升0.4%F1。三、填空題(每空2分,共20分)16.在Transformer中,自注意力計算復雜度為________,而FlashAttention-2通過分塊將內存復雜度降至________。答案:O(n2d),O(n)解析:FlashAttention-2重排GPU讀寫,避免實例化n×n矩陣。17.使用SentencePiece訓練32000詞中文模型時,若出現大量“▁”前綴,說明算法采用________切分,可通過調高________參數減少子詞碎片。答案:BPE,character_coverage解析:character_coverage默認0.995,調高至0.9995可合并罕見字。18.在對比學習損失中,若batch內負樣本不足,可采用________技術從最近鄰庫中補充,該方法在MoCo中稱為________。答案:動量更新隊列,MomentumQueue解析:隊列長度65536可即時提供大量負樣本,無需超大batch。19.指令微調模板中,若加入“Thinkstepbystep.”屬于________提示,可顯著提升模型在________任務上的準確率。答案:鏈式思考(CoT),數學推理解析:GSM8K上準確率從18%提升至56%。20.將7B模型量化為4-bit后,若采用雙量化(DoubleQuant),對縮放系數再次量化,額外節(jié)省________顯存,推理速度下降約________。答案:0.4GB,3%解析:二次量化節(jié)省0.4GB,反量化多一次移位,延遲僅增3%。四、判斷題(每題1分,共10分)21.ELECTRA使用生成器-判別器框架,其參數共享比例越高,下游GLUE分數一定越高。答案:錯解析:共享過高導致判別器欠擬合,最佳比例為50%。22.在RLHF中,獎勵模型越大,PPO階段策略模型性能一定越好。答案:錯解析:過大獎勵模型易過擬合人類偏好,出現獎勵黑客,3B獎勵模型在7B策略上表現最佳。23.使用DeepSpeedZeRO-3時,優(yōu)化器狀態(tài)、梯度、參數均分區(qū),可訓練萬億級模型。答案:對解析:ZeRO-3將三者全部分散到多卡,單卡顯存占用O(1)。24.中文文本糾錯任務中,混淆音“的-地-得”屬于音近錯誤,可用拼音增強提升召回。答案:對解析:拼音嵌入后F1提升2.1%。25.在DiffusionLM中,前向加噪過程為馬爾可夫鏈,反向去噪也為馬爾可夫鏈。答案:對解析:雙向均滿足馬爾可夫性,可用DDPM框架統(tǒng)一。26.使用FSDP訓練時,設置transformer_layer_cls為LlamaDecoderLayer可避免額外內存碎片。答案:對解析:FSDP自動按層包裝,減少激活碎片15%。27.在知識編輯(KnowledgeEditing)中,ROME通過修改MLP權重,可實現單條事實更新而不影響鄰近知識。答案:對解析:ROME定位FFN鍵值神經元,編輯后一致性測試通過率92%。28.大模型出現“梯度消失”時,優(yōu)先增大學習率即可解決。答案:錯解析:梯度消失常因深度與激活,增大學習率或致發(fā)散,應檢查殘差與歸一化。29.使用FlashAttention訓練時,開啟dropout需重新編寫CUDAkernel。答案:錯解析:FlashAttention2.1已原生支持dropout,無需重寫。30.在多語言訓練中,增加“語言標記”如<fr>、<de>可提升零樣本跨語遷移。答案:對解析:語言標記幫助模型區(qū)分分布,XNLI上平均提升1.4%。五、簡答題(每題8分,共24分)31.描述“長度外推”問題的本質,并給出三種最新解決方案及對比。答案:本質:訓練長度有限,推理時輸入遠超訓練長度,導致注意力分數分布偏移,ppl激增。方案:1)RoPE+LinearScaling:將位置索引乘以縮放因子s=L'/L,無需訓練即可外推2×,但3×后性能下降。2)PI(PositionInterpolation):在微調階段以s倍線性插值,僅需1000步即可外推4×,ppl與訓練長度持平。3)YaRN(YetanotherRoPEextensioN):結合高頻分量溫度縮放與插值,8×外推ppl僅增5%,優(yōu)于PI的12%。對比:YaRN>PI>RoPE+Linear,但YaRN需重訓500步,計算成本最高。32.解釋“知識神經元”概念,并給出一種定位方法與編輯實驗步驟。答案:知識神經元指FFN中特定神經元,其激活值與某條事實呈線性相關。定位方法:1)給定提示“巴黎是____之國”,記錄各神經元激活。2)干預激活:對top-5神經元做因果消融,發(fā)現輸出概率下降90%。3)驗證跨提示:替換為“法國的首都是____”,相同神經元仍top。編輯步驟:a)構造優(yōu)化目標:最小化KL(p_edit||p_target)+λ||ΔW||2。b)僅更新FFN權重矩陣W_down的行向量,用牛頓步求解。c)評估:一致性測試1000條,通過率92%,鄰近知識擾動率<1%。33.對比“speculativedecoding”與“Medusadecoding”在算法復雜度、加速比、適用場景的差異。答案:speculative:-算法:小模型草稿k個token,大模型并行驗證,復雜度O(k)。-加速比:2.2×(k=4)。-場景:通用,無需修改大模型。Medusa:-算法:大模型自身訓練多個頭預測1-5步,復雜度O(1)。-加速比:3.1×(5頭)。-場景:需額外訓練,適合自有模型。差異:Medusa加速更高但需訓練;speculative零成本,但依賴高質量小模型。六、計算與推導題(共21分)34.(10分)給定單頭注意力輸入Q∈?^{n×d_k},K∈?^{n×d_k},V∈?^{n×d_v},掩碼M∈?^{n×n}為下三角?∞,其余0。(1)寫出帶掩碼的softmax表達式。(2)推導maskedsoftmax對q_i的梯度。(3)若n=2048,d_k=128,GPU顯存40GB,計算標準實現與FlashAttention的峰值內存差。答案:(1)P=softmax((QK^T)/√d_k+M)(2)令s_ij=(q_i^Tk_j)/√d_k+M_ij,?L/?q_i=∑_j(?L/?s_ij)·k_j/√d_k其中?L/?s_ij=(P_ij???_{j≤i})·?L/?P_ij(3)標準:需存儲n×n=20482=4M浮點,16MB;FlashAttention:分塊128×128,僅1282=16K,128KB;峰值差:16MB?128KB≈15.9MB,可忽略,但n=8k時差1GB。35.(11分)使用LoRA微調時,設原始權重W∈?^{d×d},秩r=16,α=32。(1)寫出前向公式。(2)推導梯度?L/?A,?L/?B。(3)若d=4096,計算可訓練參數量與全參數比例。答案:(1)W'=W+α/r·BA,B∈?^{d×r},A∈?^{r×d}(2)令h=xW'^T,則?L/?B=α/r·(?L/?h)^TxA^T?L/?A=α/r·B^T(?L/?h)^Tx(3)可訓練:2dr=2×4096×16=131072;全參數:d2=16777216;比例:131072/16777216≈0.78%。七、編程與實戰(zhàn)題(共30分)36.(15分)請用PyTorch實現一個帶RoPE的多頭因果自注意力,支持長度外推2×,要求:-使用線性縮放;-支持FlashAttention開關;-返回注意力權重(可選)。寫出完整代碼并給出測試用例,輸入shape(2,1024,768),輸出shape驗證。答案:```pythonimporttorch,mathfromtorchimportnnfromeinopsimportrearrangetry:fromflash_attnimportflash_attn_funcHAS_FLASH=Trueexcept:HAS_FLASH=FalseclassRoPEAttention(nn.Module):def__init__(self,d_model=768,n_head=12,max_len=2048,scale=2.0,use_flash=True):super().__init__()assertd_model%n_head==0self.n_head=n_headself.d_k=d_model//n_headself.scale=scaleself.use_flash=use_flashandHAS_FLASHself.qkv=nn.Linear(d_model,3d_model)self.out=nn.Linear(d_model,d_model)freqs=1.0/(10000(torch.arange(0,self.d_k,2).float()/self.d_k))t=torch.arange(max_lenscale)freqs=torch.outer(t,freqs)(max_lenscale,d_k/2)self.register_buffer("cos",torch.cos(freqs))self.register_buffer("sin",torch.sin(freqs))defrotate(self,x,pos_ids):x:(B,n_head,L,d_k)cos=self.cos[pos_ids](B,L,d_k/2)sin=self.sin[pos_ids]x1,x2=x[...,0::2],x[...,1::2]x_rot=torch.cat([x1cos-x2sin,x1sin+x2cos],dim=-1)returnx_rotdefforward(self,x,pos_ids=None):B,L,_=x.shapeifpos_idsisNone:pos_ids=torch.arange(L,device=x.device).unsqueeze(0).expand(B,-1)qkv=self.qkv(x).chunk(3,dim=-1)q,k,v=map(lambdat:rearrange(t,'bl(hd)->bhld',h=self.n_head),qkv)q=self.rotate(q,pos_ids)k=self.rotate(k,pos_ids)ifself.use_flashandL%128==0:out=flash_attn_func(q,k,v,causal=True)attn=Noneelse:scores=torch.einsum('bhid,bhjd->bhij',q,k)/math.sqrt(self.d_k)causal_mask=torch.triu(torch.full((L,L),-torch.inf,device=x.device),diagonal=1)scores+=causal_maskattn=torch.softmax(scores,dim=-1)out=torch.einsum('bhij,bhjd->bhid',attn,v)out=rearrange(out,'bhld->bl(hd)')returnself.out(out),attn測試model=RoPEAttention(scale=2.0,use_flash=False)x=torch.randn(2,1024,768)y,attn=model(x)asserty.shape==(2,1024,768)print("RoPEattentionoutputshape:",y.shape)```37.(15分)使用HuggingFaceTransformers與PEFT,完成一個中文指令微調腳本,要求:-基礎模型:baichuan-7B;-數據:2000條中文問答對(自行構造);-方法:QLoRA+4-bitNormalFloat+雙量化;-輸出:訓練3步后的loss、GPU峰值顯存、推理示例。寫出完整可運行腳本(含數據生成、訓練、推理、顯存打?。4鸢福篳``pythonimporttorch,gc,timefromtransformersimportAutoModelForCausalLM,AutoTokenizer,TrainingArgumentsfrompeftimportLoraConfig,get_peft_model,prepare_model_for_kbit_trainingfromdatasetsimportDatasetimportpsutil,osdefmake_data(n=2000):importrandomtemplates=["人類:{}\n助手:{}","問:{}答:{}"]questions=["中國的首都是哪里?","1+1等于幾?","李白是哪個朝代的?"]answers=["北京","2","唐朝"]data=[]foriinrange(n):q=random.choice(questions)+str(i)a=random.choice(answers)t=random.choice(templates)data.append({"text":t.format(q,a)})returnDataset.from_list(data)tokenizer=AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-7B",trust_remote_code=True,use_fast=False)tokenizer.pad_token=tokenizer.eos_tokendeftokenize(examples):tokens=tokenizer(examples["text"],truncation=True,max_length=256)tokens["labels"]=tokens["input_ids"].copy()returntokensmodel=AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-7B",load_in_4bit=True,bnb_4bit_compute_dtype=torch.float16,bnb_4bit_use_double_quant=True,trust_remote_code=True)model=prepare_model_for_kbit_training(model)lora_config=LoraConfig(r=64,lora_alpha=32,target_modules=["W_pack","o_proj"],lora_dropout=0.05,bias="none",task_type="CAUSAL_LM")model=get_peft_model(model,lora_config)data=make_data().map(tokenize,batched=True,remove_columns=["text"])args=TrainingArguments(output_dir="tmp",per_device_train_batch_size=1,gradient_accumulation_steps=4,num_train_epochs=1,max_steps=3,fp16=True,logging_steps=1,report_to=[])fromtransformersimportTrainertrainer=Trainer(model=model,args=args,train_dataset=data)torch.cuda.reset_peak_memory_stats()trainer.train()peak=torch.cuda.max_memory_allocated()/10243print("PeakGPUmemory:",round(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中學教學質量保證措施制度
- 交通宣傳教育普及制度
- 2026年通信行業(yè)服務標準試題通信類信訪的快速響應機制
- 2026年工業(yè)機器人制造與質量管控考試卷
- 2026年律師實務法律案例分析題庫
- 2025年放棄遺產繼承聲明書(公證用)
- 綠色甲醇作為船用燃料的加注樞紐建設投資框架協(xié)議
- 檢驗科實驗室電源短路的應急處置制度及流程
- 古埃及藝術教學課件
- 2025年廣東碧桂園職業(yè)學院馬克思主義基本原理概論期末考試模擬題帶答案解析
- 2025大模型安全白皮書
- 2026國家國防科技工業(yè)局所屬事業(yè)單位第一批招聘62人備考題庫及1套參考答案詳解
- 工程款糾紛專用!建設工程施工合同糾紛要素式起訴狀模板
- 2026湖北武漢長江新區(qū)全域土地管理有限公司招聘3人筆試備考題庫及答案解析
- 110(66)kV~220kV智能變電站設計規(guī)范
- (正式版)DB44∕T 2784-2025 《居家老年人整合照護管理規(guī)范》
- 2025年美國心臟病協(xié)會心肺復蘇和心血管急救指南(中文完整版)
- 1、湖南大學本科生畢業(yè)論文撰寫規(guī)范(大文類)
- 基于多源數據融合的深圳市手足口病時空傳播模擬與風險預測模型構建及應用
- 咯血的急救及護理
- 2025初三歷史中考一輪復習資料大全
評論
0/150
提交評論