版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2025年秋季人工智能自然語言理解培訓(xùn)試卷(含答案)一、單項選擇題(每題2分,共20分。每題只有一個正確答案,錯選、多選、不選均不得分)1.在Transformer架構(gòu)中,用于捕捉序列中任意兩個位置之間依賴關(guān)系的核心機(jī)制是A.卷積核滑動窗口??B.門控循環(huán)單元??C.自注意力機(jī)制??D.池化層降采樣答案:C解析:自注意力機(jī)制通過QueryKeyValue計算直接建模全局依賴,無需遞歸或卷積,是Transformer的核心創(chuàng)新。2.下列哪一項不是BERT預(yù)訓(xùn)練任務(wù)之一A.MaskedLanguageModel??B.NextSentencePrediction??C.PermutedLanguageModel??D.上述C項答案:C解析:PermutedLanguageModel為XLNet特有,BERT僅使用MLM與NSP。3.在中文文本中,若出現(xiàn)“新冠→COVID19”的歸一化需求,最合理的處理層級是A.字節(jié)對編碼??B.詞法分析后實體鏈接??C.句法依存??D.語義角色標(biāo)注答案:B解析:實體鏈接在詞法分析后完成概念歸一化,早于句法與語義角色。4.使用BLEU指標(biāo)評估機(jī)器翻譯時,若ngram最大階數(shù)為4,則短句懲罰因子(BrevityPenalty)在以下哪種情況下一定為1A.候選句長度等于最短參考句長度??B.候選句長度大于任意參考句長度??C.候選句長度小于最短參考句長度??D.候選句長度等于最長參考句長度答案:B解析:BP=1當(dāng)且僅當(dāng)候選長度≥最短參考長度;若更長,BP仍保持1。5.在FewShot場景下,GPT3的“incontextlearning”效果隨示例數(shù)增加而飽和,其飽和拐點通常出現(xiàn)在A.1~2個示例??B.5~10個示例??C.50~100個示例??D.1000個示例以上答案:B解析:OpenAI原始論文指出5~10個示例后邊際收益顯著下降,更多示例不再線性提升。6.對中文“我想吃蘋果”進(jìn)行依存句法分析,若“蘋果”與“吃”之間的關(guān)系被標(biāo)注為VOB,則VOB含義是A.主謂關(guān)系??B.動賓關(guān)系??C.介賓關(guān)系??D.定中關(guān)系答案:B解析:VOB(VerbObject)即動賓關(guān)系,蘋果為吃賓語。7.在文本對抗樣本生成中,對“我今天很開心”進(jìn)行同音字符替換,下列哪個選項最可能欺騙基于字向量的分類器且保持人類可讀A.我今天很開忄??B.我今天很開????C.我今天很開xīn??D.我今天很開xin答案:A解析:忄為“心”的偏旁,字形高度相似,向量空間接近,人類仍可讀為“心”。8.使用ALBERT對參數(shù)進(jìn)行因式分解后,Embedding層參數(shù)量從V×H降為A.V×E+E×H??B.V×H2??C.V+E+H??D.V×E×H答案:A解析:ALBERT將V×H拆為V×E與E×H兩步,E?H,顯著壓縮。9.在中文分詞任務(wù)中,對“南京市長江大橋”采用最大匹配法(正向/逆向)出現(xiàn)歧義,其根本原因是A.未登錄詞過多??B.交叉歧義與組合歧義并存??C.命名實體邊界不一致??D.語料編碼錯誤答案:B解析:存在“南京/市長/江大橋”與“南京市/長江/大橋”兩種合法切分,屬交叉與組合歧義。10.當(dāng)使用知識蒸餾將12層BERT壓縮到3層TinyBERT時,下列哪一層損失對效果提升最關(guān)鍵A.預(yù)測層蒸餾??B.嵌入層蒸餾??C.注意力矩陣蒸餾??D.梯度蒸餾答案:C解析:注意力矩陣包含最豐富的語義對齊信息,TinyBERT論文表明其貢獻(xiàn)最大。二、多項選擇題(每題3分,共15分。每題至少有兩個正確答案,多選、少選、錯選均不得分)11.下列哪些技術(shù)可直接緩解Transformer在超長文本上的O(n2)內(nèi)存瓶頸A.Linformer??B.Performer??C.GradientCheckpointing??D.ReZero答案:A、B解析:Linformer通過低秩投影、Performer使用FAVOR+近似,均將復(fù)雜度降至O(n);C僅節(jié)省反向激活內(nèi)存,D為初始化技巧,不降低復(fù)雜度。12.在中文拼寫糾錯任務(wù)中,基于混淆集(ConfusionSet)的候選生成策略可能面臨的風(fēng)險包括A.覆蓋度不足導(dǎo)致召回低??B.混淆集過大造成誤觸發(fā)??C.繁簡混排時集外錯誤??D.音近形近權(quán)重失衡答案:A、B、C、D解析:四項均為真實場景痛點,需動態(tài)更新混淆集并引入語言模型重排序。13.以下哪些指標(biāo)對生成式摘要的事實一致性(Factuality)評估具有直接參考意義A.BERTScore??B.BLEURT??C.QuestEval??D.MoverScore答案:B、C解析:BLEURT與QuestEval均引入蘊(yùn)含判斷或問答重疊,直接度量事實一致性;A、D側(cè)重語義相似度。14.在PromptTuning中,增加“verbalizer”可選標(biāo)簽詞數(shù)量可能帶來的副作用有A.梯度方差增大??B.標(biāo)簽詞間競爭導(dǎo)致置信度下降??C.推理延遲增加??D.預(yù)訓(xùn)練微調(diào)分布差距縮小答案:A、B、C解析:更多標(biāo)簽詞擴(kuò)大搜索空間,方差與競爭加??;推理需遍歷更多詞,延遲上升;D為正面效應(yīng),非副作用。15.對低資源語言的語料增強(qiáng),下列哪些方法屬于“回譯”范式A.低資源→高資源→低資源??B.低資源→語音→低資源??C.低資源→高資源→高資源??D.低資源→高資源(paraphrase)→低資源答案:A、D解析:回譯核心為通過中間高資源語言返回原文;B為語音橋梁,C未返回原文,均不符。三、填空題(每空2分,共20分)16.在RoBERTa預(yù)訓(xùn)練中,移除了NextSentencePrediction任務(wù),并將最大序列長度擴(kuò)展至______,同時采用______大小的動態(tài)掩碼模式。答案:512;10K解析:RoBERTa實驗表明NSP無益,序列長度保持512;動態(tài)掩碼每40步重新生成,掩碼模式總量約10K。17.使用CRF層對BiLSTM輸出進(jìn)行序列標(biāo)注時,轉(zhuǎn)移矩陣T的維度為______×______,其中標(biāo)簽集合含BPER、IPER、O共3個標(biāo)簽。答案:3;3解析:CRF轉(zhuǎn)移矩陣維度為標(biāo)簽數(shù)×標(biāo)簽數(shù),不含Start/End時即為3×3。18.在中文文本正則化(TextNormalization)任務(wù)中,將“2.5折”轉(zhuǎn)換為“二點五折”屬于______類規(guī)范化,將“2.5折”轉(zhuǎn)換為“二五折”屬于______類錯誤。答案:半角數(shù)字轉(zhuǎn)中文數(shù)字;過度刪除小數(shù)點解析:前者正確保留語義,后者丟失“點”導(dǎo)致歧義。19.當(dāng)使用F1score評估NER時,若系統(tǒng)輸出實體為“南京市長江”,gold為“南京市”,則該實體被判定為______,導(dǎo)致Precision______,Recall______。答案:錯誤邊界;下降;不變解析:邊界錯誤算FP,Precision減小;Gold“南京市”未被召回,Recall亦下降(雙降)。注:嚴(yán)格評測下,部分比賽按實體級匹配,此處按最嚴(yán)格邊界評測。20.在Transformer解碼階段,若采用BeamSearch且beamsize=4,則每步需保留______個候選序列,當(dāng)遇到______符號時,該序列完成。答案:4;</s>或<eos>解析:BeamSearch每步保留topk,k=4;遇到句子結(jié)束符即入棧停止。四、判斷改錯題(每題2分,共10分。先判斷對錯,若錯則劃出錯誤部分并改正)21.判斷:GPT系列采用EncoderDecoder架構(gòu)。答案:錯。改為:GPT系列采用DecoderOnly架構(gòu)。解析:GPT僅堆疊解碼器塊,無編碼器。22.判斷:在中文分詞中,基于字符的BiLSTMCRF模型完全不需要詞典即可達(dá)到與基于詞典方法同等的召回率。答案:錯。改為:……仍可能因未登錄詞導(dǎo)致召回低于融合詞典方法。解析:純字符模型對領(lǐng)域新詞召回有限,詞典可提升邊界信號。23.判斷:使用ReLU激活函數(shù)的Transformer在梯度回傳時不會出現(xiàn)任何梯度消失問題。答案:錯。改為:……仍可能因深度與初始化導(dǎo)致梯度爆炸或消失。解析:ReLU僅緩解部分飽和區(qū)梯度消失,深層網(wǎng)絡(luò)仍需殘差與LayerNorm。24.判斷:BLEU指標(biāo)計算時,ngram精度一旦為0,則整個分子為0,導(dǎo)致最終BLEU值為0。答案:錯。改為:……若任意階ngram精度為0,幾何平均后為0,但可加平滑避免。解析:標(biāo)準(zhǔn)BLEU使用幾何平均,平滑后可非零。25.判斷:PromptLearning中,人工模板“[X]整體而言,它是_?!钡臉?biāo)簽詞“優(yōu)秀/差勁”屬于離散模板(DiscretePrompt)。答案:對。解析:人工設(shè)計自然語言片段即為離散模板,無需可訓(xùn)練連續(xù)向量。五、簡答題(每題8分,共24分)26.描述Transformer中MultiHeadAttention計算流程,并解釋為何多頭機(jī)制能提升表示能力。答案:1)對輸入X分別線性映射為Q、K、V,維度均為d_model;2)將Q、K、V按頭數(shù)h均分,得到h組(Qi,Ki,Vi),每組維度d_k=d_model/h;3)每組并行計算ScaledDotProductAttention:Attention(Qi,Ki,Vi)=softmax(QiKi^T/√d_k)Vi;4)拼接h個輸出,再線性映射回d_model。多頭允許模型在不同子空間捕捉不同語義關(guān)系(如句法、共指、語義角色),單頭易陷入單一相關(guān)性,多頭提供互補(bǔ)濾波器,提升表達(dá)能力。27.對比BERT與GPT在預(yù)訓(xùn)練目標(biāo)、模型結(jié)構(gòu)、下游適配三方面的差異,并給出各自最擅長的任務(wù)類型。答案:預(yù)訓(xùn)練目標(biāo):BERT采用雙向MLM+NSP,利用上下文同時預(yù)測掩碼詞;GPT采用單向LefttoRight語言模型,僅依賴左側(cè)歷史。結(jié)構(gòu):BERT為EncoderOnly,堆疊雙向Transformer塊;GPT為DecoderOnly,帶因果掩碼的自注意力。下游適配:BERT需增加任務(wù)特定頭(如分類器、CRF),微調(diào)全部參數(shù);GPT通過自回歸解碼,生成式任務(wù)可直接左移預(yù)測,判別任務(wù)需將標(biāo)簽映射到文本。擅長任務(wù):BERT擅長度量式理解任務(wù)(文本分類、NER、抽取式QA);GPT擅長度量式生成任務(wù)(對話、摘要、續(xù)寫、代碼生成)。28.解釋“梯度累積”與“混合精度訓(xùn)練”在超大模型訓(xùn)練中的作用,并給出PyTorch風(fēng)格偽代碼片段。答案:梯度累積:在顯存不足時,將大批次拆為若干小步,每步計算梯度后不清零而是累加,達(dá)到目標(biāo)步數(shù)再統(tǒng)一更新,實現(xiàn)等價大批次。混合精度:使用FP16存儲激活與梯度,關(guān)鍵算子(如softmax、損失)保持FP32,通過LossScaling防止下溢,結(jié)合自動FP32拷貝,減少50%顯存并提升吞吐。偽代碼:```model=model.half().cuda()optimizer=AdamW(model.parameters())scaler=GradScaler()fori,batchinenumerate(loader):inputs=batch['input_ids'].cuda().half()withautocast():loss=model(inputs).lossloss=loss/accumulate_stepsscaler.scale(loss).backward()if(i+1)%accumulate_steps==0:scaler.step(optimizer)scaler.update()optimizer.zero_grad()```六、計算與推導(dǎo)題(共31分)29.(10分)給定一個簡化Transformer自注意力,Q=[[1,0],[0,1]],K=[[1,1],[1,0]],V=[[2,0],[0,2]],d_k=2,請手工計算未歸一化注意力權(quán)重矩陣A(即QK^T),并給出經(jīng)過softmax后的權(quán)重矩陣,最后求輸出O。答案:1)QK^T=[[1,0],[0,1]]×[[1,1],[1,0]]^T=[[1,1],[1,0]];2)縮放后仍為[[1,1],[1,0]](√d_k=√2,但題目已說明簡化,此處忽略縮放);3)行wisesoftmax:第1行:exp([1,1])→[e,e]→[0.5,0.5]第2行:exp([1,0])→[e,1]→[e/(e+1),1/(e+1)]≈[0.731,0.269]得權(quán)重矩陣P≈[[0.5,0.5],[0.731,0.269]];4)O=PV=[[0.5×2+0.5×0,0.5×0+0.5×2],[0.731×2+0.269×0,0.731×0+0.269×2]]=[[1,1],[1.462,0.538]]。30.(10分)假設(shè)使用CRF進(jìn)行NER,標(biāo)簽集{B,I,O},轉(zhuǎn)移矩陣T如下(行索引為from,列索引為to):???O?B?IO?0?1?∞B?∞?1?2I?0?∞?1給定一個3字符序列,發(fā)射分?jǐn)?shù)(logits)為:char1:O=1,B=2,I=0char2:O=0,B=0,I=3char3:O=1,B=1,I=0請使用維特比算法求最優(yōu)標(biāo)簽路徑及對應(yīng)總分。答案:步驟1:初始化δ1(O)=1+0=1,δ1(B)=2+1=3,δ1(I)=0∞=∞ψ1(O)=start,ψ1(B)=start,ψ1(I)=N/A步驟2:遞推δ2(O)=max(1+0,∞+0,∞+0)=1,ψ2(O)=Oδ2(B)=max(1∞,31,∞1)=2,ψ2(B)=Bδ2(I)=max(1∞,3+2,∞+1)=5,ψ2(I)=Bδ3(O)=max(1+0,2+0,5+0)=5,ψ3(O)=Iδ3(B)=max(1∞,21,5∞)=1,ψ3(B)=Bδ3(I)=max(1∞,2+1,5+1)=6,ψ3(I)=I步驟3:終止最優(yōu)尾標(biāo)簽:I(6)步驟4:回溯I→I→B→start,路徑為BII總分:δ3(I)=6最優(yōu)路徑:BII,總分6。31.(11分)假設(shè)使用LoRA(LowRankAdaptation)對GPT2下游微調(diào),原矩陣W∈?^(768×768),LoRA秩r=8,α=16,請計算:1)可訓(xùn)練參數(shù)量;2)相對于全參數(shù)微調(diào)的訓(xùn)練顯存節(jié)省比例(假設(shè)優(yōu)化器狀態(tài)用FP32,梯度與參數(shù)同精度,忽略激活)。答案:1)LoRA引入兩個矩陣A∈?^(768×8),B∈?^(8×768),參數(shù)量=768×8+8×768=12288。2)全參數(shù)需存儲:參數(shù)768×768=589824,梯度同,Adam狀態(tài)2倍參數(shù),共4×589824=2359296。LoRA額外狀態(tài):4×12288=49152。節(jié)省比例=149152/2359296≈97.9%。七、綜合應(yīng)用題(共30分)32.(15分)某電商評論場景需構(gòu)建“細(xì)粒度情感四元組抽取”模型(aspectcategoryopinionsentiment),例如“屏幕很大”→(屏幕,尺寸,很大,正)。給定訓(xùn)練數(shù)據(jù)僅200條,請:1)設(shè)計一種基于Prompt的少量樣本方案,包括模板、標(biāo)簽詞映射、損失函數(shù);2)說明如何引入外部知識(如HowNet情感詞典)提升召回;3)給出評測指標(biāo)及其實現(xiàn)細(xì)節(jié)。答案:1)模板設(shè)計:輸入模板:“評論:[X]就[Aspect]而言,觀點為[MASK]?!睒?biāo)簽詞映射:正→“好”,負(fù)→“差”,中→“一般”;Opinion詞通過另一個Prompt:“描述詞是[MASK]”,標(biāo)簽詞為候選形容詞,用MLM打分取top1。損失:對aspect、opinion、sentiment三任務(wù)分別計算交叉熵,加權(quán)求和。2)外部知識:將HowNet正/負(fù)情感詞表注入候選池,對[MASK]預(yù)測時加入偏置項:若候選詞在詞典
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北省雄安新區(qū)2026屆高三上學(xué)期1月期末考試歷史試卷(含答案)
- 安徽省蕪湖市無為市部分學(xué)校2025-2026年九年級上學(xué)期1月期末考試道德與法治試卷(含答案)
- 2025-2026學(xué)年天津市河北區(qū)九年級(上)期末物理試卷(含答案)
- 五年級下冊期末考試卷及答案
- 網(wǎng)易筆試題庫及答案
- 2022-2023年部編版八年級語文(上冊期末)練習(xí)及答案
- 成都風(fēng)俗習(xí)慣禮儀知識
- 烏馬河2022年事業(yè)編招聘考試模擬試題及答案解析19
- 2022~2023水利設(shè)施管養(yǎng)人員考試題庫及答案第627期
- 數(shù)理方程考試試卷及答案
- 《內(nèi)科護(hù)理》課件-學(xué)前先知:腺垂體功能減退癥病人的護(hù)理課件
- 2025-2026學(xué)年北京西城區(qū)初三(上期)期末物理試卷(含答案)
- 【初中 歷史】2025-2026學(xué)年統(tǒng)編版八年級歷史上冊期末材料分析題練習(xí)
- 2026年2026年健康飲食防失眠培訓(xùn)課件
- 廣西華盛集團(tuán)廖平糖業(yè)有限責(zé)任公司招聘筆試題庫2026
- 房地產(chǎn)登記技術(shù)規(guī)程
- GB/T 714-2025橋梁用結(jié)構(gòu)鋼
- 心臟瓣膜置換術(shù)護(hù)理查房
- 【診療方案】慢性阻塞性肺疾病診治指南(2025年修訂版)
- 初三上學(xué)期物理期末復(fù)習(xí)知識詳解(含答案)
- 全員生產(chǎn)維護(hù)TPM自主保養(yǎng)
評論
0/150
提交評論