版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025年(人工智能與機器學習)自然語言處理試題及答案一、單項選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,ScaledDotProductAttention的計算公式為A.softmax(QK^T)VB.softmax(QK^T/√d_k)VC.softmax(QK^T/√d_v)VD.softmax(QK^T/√d_model)V答案:B解析:除以√d_k是為了防止點積值過大導致梯度消失,d_k為Query與Key的維度。2.下列哪一項不是BERT預(yù)訓練任務(wù)之一A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.TokenTypePrediction答案:C解析:BERT僅使用MLM與NSP,SentenceOrderPrediction為ALBERT引入的變體任務(wù)。3.在序列標注任務(wù)中,若采用BIO標注法,出現(xiàn)連續(xù)實體“北京天安門”應(yīng)標注為A.BLOCILOCILOCB.BLOCILOCBLOCC.BLOCBLOCILOCD.ILOCILOCILOC答案:A解析:B表示實體開始,I表示實體內(nèi)部,同一實體內(nèi)部不得再出現(xiàn)B。4.使用Word2Vec訓練時,若負采樣個數(shù)k=5,則SkipGram模型對每個正樣本需優(yōu)化的sigmoid單元總數(shù)為A.1B.5C.6D.11答案:C解析:1個正樣本+5個負樣本,共6個二分類sigmoid。5.在Transformer解碼階段,自注意力層中用于屏蔽未來信息的矩陣是A.單位矩陣B.下三角全零矩陣C.上三角負無窮矩陣D.下三角負無窮矩陣答案:D解析:將上三角設(shè)為?∞,softmax后變?yōu)?,實現(xiàn)“看不到未來”。6.下列哪種方法最適合解決文本風格遷移中“內(nèi)容保留度低”的問題A.增加判別器損失權(quán)重B.引入cycleconsistency損失C.降低生成器學習率D.使用更大批次答案:B解析:cycleconsistency強制往返重構(gòu),約束內(nèi)容不變。7.在GPT3175B參數(shù)模型中,采用的最大位置編碼長度為A.512B.1024C.2048D.4096答案:C解析:GPT3技術(shù)論文明確說明最大上下文長度2048。8.對中文文本進行子詞分割時,下列哪種算法對“新冠疫苗”最可能切分為“新/冠/疫/苗”A.BPEB.WordPieceC.UnigramLMD.基于字的基線答案:D解析:基于字的基線直接按字符切分,其他算法可能合并為“新冠”“疫苗”。9.在多任務(wù)學習中,若共享底層編碼器,任務(wù)梯度沖突嚴重,可優(yōu)先嘗試A.增加dropoutB.引入GradientSurgeryC.降低學習率D.使用更大batch答案:B解析:GradientSurgery通過投影消除沖突分量,緩解任務(wù)競爭。10.下列評價指標中,對機器翻譯長句欠譯現(xiàn)象最敏感的是A.BLEU4B.ROUGELC.METEORD.chrF++答案:A解析:BLEU4嚴重依賴4gram精確率,一旦漏譯,4gram驟降。二、多項選擇題(每題3分,共15分,多選少選均不得分)11.關(guān)于LayerNormalization,以下說法正確的是A.在Transformer中位于殘差分支之后B.可緩解內(nèi)部協(xié)變量偏移C.在RNN中通常作用于時間步維度D.與BatchNorm相比對batch大小不敏感答案:B、D解析:A錯,PreNorm結(jié)構(gòu)在殘差前;C錯,RNN的LayerNorm作用于特征維度而非時間步。12.下列技術(shù)可直接用于零樣本文本分類的有A.BARTlargemnliB.GPT3promptC.TexttoTextT5+labelconditioningD.CNN+隨機初始化softmax答案:A、B、C解析:D無預(yù)訓練知識,無法零樣本。13.在對話系統(tǒng)評估中,人工評價維度通常包括A.流暢性B.一致性C.信息豐富度D.響應(yīng)時間答案:A、B、C解析:響應(yīng)時間屬于系統(tǒng)指標,非人工語義維度。14.以下做法可有效緩解文本生成重復(fù)問題A.重復(fù)懲罰(repetitionpenalty)B.使用ngram阻塞C.增加溫度采樣溫度D.引入Coverage機制答案:A、B、D解析:C提高溫度只會增加隨機性,不直接懲罰重復(fù)。15.關(guān)于知識蒸餾,下列說法正確的是A.教師模型參數(shù)在蒸餾過程中會被更新B.學生模型可學習教師輸出的軟分布C.中間層特征匹配屬于logit蒸餾D.溫度系數(shù)T越大分布越平滑答案:B、D解析:A錯,教師固定;C錯,特征匹配屬于hint蒸餾,非logit。三、填空題(每空2分,共20分)16.Transformer中MultiHeadAttention的頭數(shù)h=16,若d_model=1024,則每個頭的維度d_k=____。答案:64解析:1024/16=64。17.在CRF損失函數(shù)中,前向算法計算的是____。答案:配分函數(shù)(歸一化因子)Z(x)解析:CRF損失為logP=Score_path?logZ(x)。18.若使用ALBERT參數(shù)共享機制,層間共享的是____與____參數(shù)。答案:Transformer權(quán)重;前饋網(wǎng)絡(luò)解析:ALBERT共享所有層自注意力與FFN參數(shù),僅保留嵌入獨立。19.在GPT自回歸生成中,若采用topp(nucleus)采樣,p取值越____,候選詞表越____。答案:??;窄解析:p減小則累積概率閾值提前,候選詞減少。20.使用BPE訓練時,若語料出現(xiàn)“機器學”,其中為罕見符號,合并優(yōu)先級取決于____。答案:符號對的頻率解析:BPE每次合并頻率最高的相鄰對。21.在中文分詞任務(wù)中,若采用BiLSTM+CRF,CRF層的作用是建模____。答案:標簽轉(zhuǎn)移約束解析:CRF通過轉(zhuǎn)移矩陣學習合法標簽序列,如BPerson后不能接IOrg。22.ELECTRA的生成器與判別器參數(shù)比例約為____。答案:1:4解析:論文建議生成器隱層為判別器1/4,參數(shù)量約1:4。23.若使用RoBERTa訓練,移除NSP任務(wù)后,輸入不再使用____段嵌入。答案:token_type解析:RoBERTa取消NSP,也去掉segmentembedding。24.在文本對抗訓練FGSM中,擾動方向由____決定。答案:損失對輸入嵌入的梯度符號解析:δ=ε·sign(?_xL)。25.若使用F1評價命名實體識別,實體級F1計算時,預(yù)測邊界與標簽均正確才算____。答案:TP解析:嚴格匹配,邊界或類別錯均視為FP或FN。四、判斷題(每題1分,共10分,正確打“√”,錯誤打“×”)26.LSTM中使用peephole連接會讓門層忽略細胞狀態(tài)。答案:×解析:peephole讓門層“看見”細胞狀態(tài),并非忽略。27.Transformer的位置編碼采用可學習的絕對位置向量后,模型不再支持長度外推。答案:√解析:可學習位置超出訓練長度時無對應(yīng)參數(shù)。28.在BERT微調(diào)階段,學習率預(yù)熱(warmup)有助于避免災(zāi)難性遺忘。答案:√解析:預(yù)熱讓模型緩慢離開預(yù)訓練參數(shù)空間。29.BLEU指標中,短句懲罰因子brevitypenalty可能使短翻譯得分高于長翻譯。答案:×解析:短句懲罰≤1,只會拉低短翻譯得分。30.使用ELMo時,不同層的加權(quán)系數(shù)在下游任務(wù)中通過訓練自動學習。答案:√解析:ELMo提供三層向量,權(quán)重softmax可訓練。31.在Seq2Seq中,使用coverage機制會顯著增加推理延遲。答案:×解析:coverage僅增加向量累加,延遲可忽略。32.對于多語種BERT,mBERT的詞匯表大小與單語BERT相同。答案:×解析:mBERT共享110k詞表,遠大于單語。33.使用GloVe時,詞向量維度一旦訓練完成即固定,不可再擴展。答案:√解析:靜態(tài)向量,無法動態(tài)增維。34.在對話狀態(tài)跟蹤DST中,采用span抽取方式無需預(yù)定義所有槽值。答案:√解析:span抽取直接定位片段,適合開放值。35.對于文本風格遷移,總變分自編碼器(VAE)比標準自編碼器更容易出現(xiàn)KL塌陷。答案:√解析:VAE的KL項易趨于零,導致潛變量失效。五、簡答題(每題8分,共24分)36.描述Transformer解碼器中CrossAttention的輸入來源及掩碼使用方式,并說明為何不需要因果掩碼。答案:CrossAttention的Query來自解碼器當前層自注意力輸出,Key與Value來自編碼器最終隱藏層。該層不使用因果掩碼,因為編碼器已獲取完整源句信息,允許每個解碼位置“一次性”關(guān)注源句任意位置;僅自注意力需因果掩碼防止窺視未來。解析:若對編碼器輸出再做因果掩碼,將丟失源句全局信息,導致翻譯漏譯。37.對比BPE與UnigramLM子詞算法在訓練目標、顆粒度控制、處理未登錄詞三方面的差異。答案:訓練目標:BPE基于頻率貪心合并,最大化壓縮長度;UnigramLM基于概率,通過最大化似然減去正則項,迭代剪枝低概率子詞。顆粒度控制:BPE需預(yù)設(shè)合并次數(shù);Unigram預(yù)設(shè)最終詞表大小,控制更直接。未登錄詞:BPE回退到字符級,保證可解碼;Unigram采用字符片段或<unk>,但訓練階段已顯式保留單字符,故幾乎無<unk>。解析:Unigram的似然框架更靈活,可結(jié)合語言模型先驗,適合形態(tài)豐富語言。38.解釋“提示學習”(promptlearning)中“離散提示”與“連續(xù)提示”的差異,并給出連續(xù)提示在反向傳播時的梯度更新對象。答案:離散提示:人工設(shè)計或搜索自然語言片段,如“這部電影是[MASK]”,梯度無法穿透離散詞。連續(xù)提示:將提示轉(zhuǎn)為可訓練向量(softprompt),直接拼接到輸入嵌入,如prefixtuning在每一層前添加可訓練矩陣。梯度更新對象:連續(xù)提示的嵌入矩陣或前綴網(wǎng)絡(luò)參數(shù),與模型主體可分離或聯(lián)合訓練。解析:連續(xù)提示避免大規(guī)模人工嘗試,且可在小樣本場景下微調(diào)極少參數(shù)即可達到全模型微調(diào)效果。六、計算與推導題(共31分)39.(10分)已知單層自注意力,Q=K=V=X∈R^(n×d),d=64,n=4。忽略softmax的縮放,計算注意力矩陣行和為1時,trace(AA^T)的最大值與最小值。答案:A=softmax(XX^T/8),行和恒為1。trace(AA^T)=∑_{i,j}a_{ij}^2。當A為單位陣時,trace=4,為最大值;當所有元素為0.25,trace=4×4×0.25^2=4×0.25=1,為最小值。解析:行和固定,元素越分散平方和越小,極端均勻分布取最小。40.(11分)給定CRF轉(zhuǎn)移矩陣T∈R^(k+2)×(k+2),k為標簽數(shù),START與END為額外狀態(tài)。推導單條路徑score對轉(zhuǎn)移參數(shù)T_{ij}的梯度,并說明為何只需對路徑上實際轉(zhuǎn)移計數(shù)。答案:路徑score=∑_{t=1}^{n+1}T_{y_{t1},y_t}。對T_{ij}求導:若路徑存在轉(zhuǎn)移i→j,則梯度為1,否則0。因此梯度向量僅路徑經(jīng)過的T_{ij}非零,其余為零,實現(xiàn)稀疏更新。解析:CRF為線性模型,特征指示函數(shù)可視為計數(shù)器,梯度即特征出現(xiàn)次數(shù)。41.(10分)假設(shè)使用負采樣訓練SkipGram,詞匯量V=10000,嵌入維度d=300,負采樣數(shù)k=5,批次大小b=16。計算每步參數(shù)更新所需的浮點運算量(乘加次數(shù)),并給出簡化表達式。答案:正樣本:每個中心詞平均預(yù)測2×窗口=2×5=10個上下文,共16×10=160次正樣本。每次正樣本需d次乘加計算點積,160×300=48k。負樣本:160×5=800次,每次300乘加,800×300=240k??偝思?48k+240k=288k。解析:忽略sigmoid的少量運算,復(fù)雜度O(b×(2w+1)×(k+1)×d)。七、綜合應(yīng)用題(共30分)42.(15分)閱讀材料:某醫(yī)療問答系統(tǒng)需從患者描述中提取癥狀、藥物、檢查三類實體,并判斷是否存在“藥物癥狀”關(guān)聯(lián)?,F(xiàn)有5萬條弱標注數(shù)據(jù)(僅含實體,無關(guān)聯(lián)),1千條人工精標關(guān)聯(lián)數(shù)據(jù)。請設(shè)計一套兩階段訓練方案,包括:(1)預(yù)訓練策略與模型選擇;(2)如何結(jié)合弱標注與精標數(shù)據(jù);(3)關(guān)聯(lián)判斷的損失函數(shù)與評測指標;(4)推理加速方案。答案:(1)采用中文RoBERTawwmext做實體級繼續(xù)預(yù)訓練:掩碼策略改為wholeword+實體邊界掩碼,訓練10萬步。(2)第一階段用5萬弱標注數(shù)據(jù)做實體抽取多標簽訓練,損失為BCE;第二階段凍結(jié)底層,用1千精標數(shù)據(jù)微調(diào)關(guān)聯(lián)分類頭,采用雙向注意力池化捕捉實體對交互。(3)關(guān)聯(lián)判斷損失:對實體對候選做二分類,使用focalloss緩解類別不平衡;評測采用microF1與AUCPR,兼顧罕見關(guān)聯(lián)。(4)推理加速:采用ONNX導出,實體抽取與關(guān)聯(lián)判斷共享編碼器,批量32下GPUlatency<60ms;對高頻query做緩存,LR
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年淮南市鳳臺縣郵政分公司投遞外包崗位公開招聘考試備考試題及答案解析
- 2026年福建莆田市城廂區(qū)霞林學校初中部編外教師招聘若干人考試備考試題及答案解析
- 2026年煙臺市青年干部人才“菁英計劃”選聘(山東農(nóng)業(yè)大學)考試備考試題及答案解析
- 2026浦發(fā)銀行成都分行科技發(fā)展部社會招聘考試參考題庫及答案解析
- 2026深圳那曲市巴青縣消防救援大隊面向社會招錄政府專職消防員2人考試參考題庫及答案解析
- 2026云南德宏州兵役登記考試參考題庫及答案解析
- 2026學年上海市閔行區(qū)七寶第三中學第二批教師與教輔人員招聘考試參考題庫及答案解析
- 2025廣西河池市大化瑤族自治縣招聘縣屬國有企業(yè)領(lǐng)導班子人員計劃取消考試參考題庫及答案解析
- 2026年山東理工職業(yè)學院春季學期代課教師招聘考試備考題庫及答案解析
- 2026年合肥海恒控股集團有限公司公開招聘18人筆試參考題庫及答案解析
- 2025-2030電子特氣行業(yè)純度標準升級對晶圓制造良率影響深度分析報告
- 2025年九江職業(yè)大學單招《職業(yè)適應(yīng)性測試》模擬試題(基礎(chǔ)題)附答案詳解
- 防御性駕駛安全培訓內(nèi)容
- 除夕年夜飯作文600字9篇范文
- 青年積分培養(yǎng)管理辦法
- CJ/T 43-2005水處理用濾料
- 市級應(yīng)急廣播管理制度
- 2025年河北石家莊印鈔有限公司招聘13人筆試參考題庫附帶答案詳解
- DB37T 4839-2025電化學儲能電站驗收規(guī)范
- 第四單元 《辨識媒介信息》公開課一等獎創(chuàng)新教案統(tǒng)編版高中語文必修下冊
- 眼科屈光科護士年終總結(jié)
評論
0/150
提交評論