版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年人工智能應(yīng)用(自然語(yǔ)言處理)綜合測(cè)試試卷及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息的核心組件是A.詞嵌入矩陣B.正弦位置編碼C.層歸一化D.多頭注意力答案:B解析:Transformer本身不含遞歸或卷積,需顯式注入位置信息。Vaswani等人提出用不同頻率的正弦、余弦函數(shù)生成固定向量,直接加到詞向量上,使模型感知token的絕對(duì)與相對(duì)位置。2.下列哪項(xiàng)技術(shù)最適用于解決中文“的、地、得”混淆的語(yǔ)法糾錯(cuò)任務(wù)A.BPE子詞切分B.掩碼語(yǔ)言模型預(yù)訓(xùn)練C.指針生成網(wǎng)絡(luò)D.最小編輯距離答案:B解析:語(yǔ)法糾錯(cuò)需理解上下文語(yǔ)義與語(yǔ)法規(guī)則。掩碼語(yǔ)言模型(如BERT)通過(guò)大規(guī)模自監(jiān)督預(yù)訓(xùn)練,隱式學(xué)習(xí)詞語(yǔ)搭配與語(yǔ)法約束,微調(diào)后可在“的、地、得”混淆場(chǎng)景取得SOTA效果。3.在FewShot場(chǎng)景下,GPT3采用的關(guān)鍵提示策略是A.對(duì)抗樣本增廣B.元學(xué)習(xí)MAMLC.InContextLearningD.知識(shí)蒸餾答案:C解析:GPT3不更新參數(shù),僅通過(guò)拼接任務(wù)說(shuō)明與少量示例作為前綴,利用自回歸語(yǔ)言模型概率預(yù)測(cè)輸出,稱為InContextLearning,無(wú)需梯度更新即可泛化到新任務(wù)。4.使用BLEU評(píng)估機(jī)器翻譯時(shí),若候選句為“人工智能改變世界”,參考句為“人工智能正在改變世界”,則BLEU2的分子為A.1B.2C.3D.0答案:A解析:BLEU2統(tǒng)計(jì)二元組共現(xiàn)。候選二元組為{人工/智能,智能/改變,改變/世界},參考二元組為{人工/智能,智能/正在,正在/改變,改變/世界},交集為{人工/智能,改變/世界},分子為2,但需按候選二元組總數(shù)3做截?cái)?,故分子取min(2,3)=2,但標(biāo)準(zhǔn)BLEU公式對(duì)ngramprecision做求和后再取min,實(shí)際分子為2。然而題目問(wèn)的是“分子”而非precision,故選B。但嚴(yán)格按NIST計(jì)算方式,分子為2。經(jīng)復(fù)核,BLEU2分子即匹配二元組數(shù)量,為2。修正答案:B解析:BLEU2分子為候選句中與參考句匹配的二元組數(shù)量,共2組。5.在中文分詞任務(wù)中,下列哪種方法能直接解決“新詞發(fā)現(xiàn)”與“歧義切分”的耦合問(wèn)題A.前向最大匹配B.隱馬爾可夫模型C.感知機(jī)+全局線性模型D.條件隨機(jī)場(chǎng)(CRF)答案:D解析:CRF以整句為全局歸一化,聯(lián)合建模標(biāo)簽序列,使新詞(OOV)與歧義切分在同一框架下競(jìng)爭(zhēng)最優(yōu)路徑,避免局部貪心錯(cuò)誤傳播。6.當(dāng)使用RoBERTa時(shí),以下哪項(xiàng)超參數(shù)調(diào)整對(duì)下游任務(wù)性能影響最顯著A.隱藏層維度B.注意力頭數(shù)C.學(xué)習(xí)率調(diào)度D.詞表大小答案:C解析:RoBERTa已固定架構(gòu),微調(diào)階段學(xué)習(xí)率調(diào)度(如warmup比例、峰值大?。┲苯記Q定參數(shù)收斂方向與穩(wěn)定性,實(shí)驗(yàn)表明其影響遠(yuǎn)超固定架構(gòu)內(nèi)的維度或頭數(shù)。7.在文本風(fēng)格遷移任務(wù)中,若采用“解耦重構(gòu)”框架,下列哪項(xiàng)損失最有助于保證內(nèi)容一致性A.循環(huán)一致性損失B.對(duì)抗損失C.風(fēng)格分類交叉熵D.KL散度答案:A解析:循環(huán)一致性損失要求原文→風(fēng)格化→還原后接近原文,強(qiáng)制模型保留內(nèi)容語(yǔ)義,抑制信息丟失。8.使用知識(shí)蒸餾壓縮BERT時(shí),若學(xué)生網(wǎng)絡(luò)為BiLSTM,最能提升其表現(xiàn)的做法是A.蒸餾最終層輸出分布B.蒸餾注意力矩陣C.蒸餾隱藏狀態(tài)與注意力混合D.僅蒸餾池化輸出答案:C解析:BiLSTM無(wú)注意力結(jié)構(gòu),但可通過(guò)線性映射對(duì)齊教師注意力,再聯(lián)合隱藏狀態(tài)蒸餾,使學(xué)生隱式學(xué)習(xí)交互模式,實(shí)驗(yàn)顯示比單蒸餾logits提升3.4%F1。9.在對(duì)話系統(tǒng)中,若出現(xiàn)“Howmanylegsdoesacathave?Ithink5.”,最適合的回復(fù)排序損失函數(shù)是A.CrossEntropyB.BPRC.HingeLosswithmarginD.MSE答案:C解析:對(duì)話回復(fù)選擇可視為pairwise排序,使用帶margin的HingeLoss可最大化正例與最難負(fù)例間距,提升Top1準(zhǔn)確率。10.下列哪項(xiàng)技術(shù)最適用于在端側(cè)部署Transformer模型時(shí)減少50%延遲且精度下降<1%A.8bit量化(PTQ)B.16bit浮點(diǎn)訓(xùn)練C.知識(shí)蒸餾到LSTMD.動(dòng)態(tài)批處理答案:A解析:PostTraining8bit量化(如OPTQ)通過(guò)二階信息校準(zhǔn),可將矩陣乘法延遲減半,實(shí)驗(yàn)顯示BERTbase在GLUE平均下降僅0.3%。二、多項(xiàng)選擇題(每題3分,共15分,多選少選均不得分)11.以下哪些方法可用于緩解文本分類中的長(zhǎng)尾分布問(wèn)題A.重加權(quán)交叉熵B.FocalLossC.遷移學(xué)習(xí)+微調(diào)D.文本增廣+尾部過(guò)采樣答案:A,B,C,D解析:A通過(guò)逆頻率加權(quán);FocalLoss降低易分樣本權(quán)重;遷移學(xué)習(xí)借頭部知識(shí);增廣+過(guò)采樣直接擴(kuò)充尾部,均為有效策略。12.在Transformer解碼階段,哪些操作能夠避免信息泄露A.對(duì)未來(lái)位置做maskB.使用因果掩碼(causalmask)C.禁用交叉注意力D.在自注意力softmax前加∞掩碼答案:A,B,D解析:C錯(cuò)誤,交叉注意力用于查看編碼器輸出,不導(dǎo)致自回歸泄露;A、B、D均確保解碼器t時(shí)刻僅依賴<t信息。13.關(guān)于PromptTuning,下列說(shuō)法正確的是A.僅在輸入前添加可訓(xùn)練連續(xù)向量B.參數(shù)量少于AdapterTuningC.對(duì)多任務(wù)共享同一模型參數(shù)D.離散模板需人工設(shè)計(jì)答案:A,B,C,D解析:PromptTuning(Lesteretal.)凍結(jié)模型,僅優(yōu)化前綴連續(xù)prompt;參數(shù)量≈0.01%全參;同一主干可切換不同prompt;離散模板則需人工撰寫。14.以下哪些指標(biāo)可直接用于評(píng)估生成文本多樣性A.SelfBLEUB.Distinct1C.EntropyofngramD.ROUGEL答案:A,B,C解析:SelfBLEU高=多樣性低;Distinct1統(tǒng)計(jì)不重復(fù)unigram比例;Entropy高表示分布更均勻;ROUGEL衡量與參考重疊,與多樣性無(wú)關(guān)。15.在中文拼寫糾錯(cuò)任務(wù)中,下列哪些特征對(duì)檢錯(cuò)階段有幫助A.字符級(jí)相似拼音B.五筆編碼距離C.語(yǔ)義困惑度驟升D.字形視覺差異答案:A,B,C,D解析:拼音與五筆捕捉音碼/形碼錯(cuò)誤;困惑度上升暗示語(yǔ)義不符;視覺差異(CNN編碼筆畫)可檢出形近字錯(cuò)用。三、判斷題(每題1分,共10分,正確打“√”,錯(cuò)誤打“×”)16.Word2vec使用負(fù)采樣時(shí),噪聲詞數(shù)量k越大,詞向量維度必須同步增大才能保證效果。答案:×解析:k影響訓(xùn)練目標(biāo),但維度為超參,可獨(dú)立選擇;k過(guò)大僅增加計(jì)算,不強(qiáng)制維度增加。17.ALBERT通過(guò)共享跨層參數(shù)減少了內(nèi)存占用,但推理速度相比BERTbase基本一致。答案:√解析:共享參數(shù)減少顯存,但推理時(shí)仍需逐層計(jì)算,F(xiàn)LOPs不變,速度持平。18.在RNNbased語(yǔ)言模型中,使用TruncatedBPTT時(shí),截?cái)嚅L(zhǎng)度越小,梯度消失問(wèn)題一定越嚴(yán)重。答案:×解析:截?cái)噙^(guò)小會(huì)丟失長(zhǎng)依賴,但梯度消失主因是激活函數(shù)與權(quán)重矩陣,截?cái)嚅L(zhǎng)度非唯一決定因素。19.ELECTRA的生成器判別器架構(gòu)中,生成器越大,判別器下游任務(wù)表現(xiàn)一定越好。解析:生成器過(guò)大易生成高難負(fù)樣本,導(dǎo)致判別器難以收斂,實(shí)驗(yàn)顯示中等規(guī)模生成器最佳。答案:×20.使用F1score評(píng)估命名實(shí)體識(shí)別時(shí),若實(shí)體邊界錯(cuò)誤但類型正確,仍視為完全錯(cuò)誤。答案:√解析:CoNLL評(píng)測(cè)采用exactmatch,邊界或類型任一錯(cuò)即全錯(cuò)。21.在對(duì)話生成中,重復(fù)懲罰(repetitionpenalty)參數(shù)>1會(huì)降低已生成token的生成概率。答案:√解析:重復(fù)懲罰通過(guò)縮放已出現(xiàn)token的logits,減少再次采樣概率。22.對(duì)于多模態(tài)BERT,將圖像區(qū)域特征與文本token拼接后,位置編碼需重新從零遞增,不可與文本共享序號(hào)。答案:×解析:UNITER等做法讓圖像區(qū)域使用與文本連續(xù)序號(hào),模型通過(guò)模態(tài)嵌入?yún)^(qū)分,無(wú)需重置位置。23.使用Adafactor優(yōu)化器時(shí),由于其二階矩估計(jì)被分解,可節(jié)省顯存,但需額外學(xué)習(xí)率縮放。答案:√解析:Adafactor將二階矩矩陣分解為行列均值,顯著降低內(nèi)存,同時(shí)需引入相對(duì)學(xué)習(xí)率縮放因子。24.在文本對(duì)抗樣本生成中,對(duì)同義詞做梯度顯著性排序后替換,一定提升攻擊成功率。答案:×解析:若替換后導(dǎo)致語(yǔ)法錯(cuò)誤或被防御模型檢測(cè)到異常,成功率反而下降。25.對(duì)于超長(zhǎng)文本>16ktokens,使用Longformer的滑動(dòng)窗口注意力比標(biāo)準(zhǔn)自注意力計(jì)算復(fù)雜度低且性能更高。答案:√解析:滑動(dòng)窗口將復(fù)雜度從O(n2)降至O(n×w),在文檔級(jí)任務(wù)上性能與全局注意力接近。四、填空題(每空2分,共20分)26.在Transformer中,若隱藏維度d=512,注意力頭數(shù)h=8,則每個(gè)頭的維度為______,點(diǎn)積注意力輸出拼接后需通過(guò)______線性變換映射回d維。答案:64;Wo(或輸出投影矩陣)27.使用CRF進(jìn)行序列標(biāo)注時(shí),訓(xùn)練階段通過(guò)______算法計(jì)算配分函數(shù),解碼階段通過(guò)______算法求最優(yōu)路徑。答案:前向后向;Viterbi28.若中文拼寫糾錯(cuò)系統(tǒng)采用“檢測(cè)糾正”級(jí)聯(lián),檢測(cè)階段常用______指標(biāo)評(píng)估,糾正階段常用______指標(biāo)評(píng)估。答案:精確率/召回率/F1;字級(jí)/句級(jí)準(zhǔn)確率29.在Promptbased情感分類中,將標(biāo)簽映射為“great”與“terrible”屬于______策略,其目的是縮小與預(yù)訓(xùn)練______任務(wù)的差距。答案:標(biāo)簽詞映射(verbalizer);掩碼語(yǔ)言建模30.使用Deepspeed的ZeRO3優(yōu)化器時(shí),模型參數(shù)被______分割,每張GPU僅保存______,從而實(shí)現(xiàn)千億參數(shù)訓(xùn)練。答案:按層切分;1/N參數(shù)(或?qū)?yīng)切片)五、簡(jiǎn)答題(每題8分,共24分)31.描述BERT在預(yù)訓(xùn)練與微調(diào)階段分別使用的位置編碼方式,并解釋為何RoPE在超長(zhǎng)文本上表現(xiàn)更優(yōu)。答案:預(yù)訓(xùn)練:BERT使用固定正弦余弦絕對(duì)位置編碼,直接加到輸入嵌入。微調(diào):位置編碼保持不變,不隨任務(wù)更新。RoPE(RotaryPositionEmbedding)通過(guò)旋轉(zhuǎn)矩陣將相對(duì)位置信息嵌入查詢鍵點(diǎn)積,使注意力分?jǐn)?shù)僅依賴相對(duì)距離且隨距離衰減。其優(yōu)勢(shì):1)外推性好,訓(xùn)練長(zhǎng)度外推至更長(zhǎng)文本無(wú)需重新訓(xùn)練;2)相對(duì)位置編碼天然適配線性注意力近似,降低長(zhǎng)文復(fù)雜度;3)旋轉(zhuǎn)形式保持維度間信息,避免絕對(duì)編碼的泛化鴻溝。實(shí)驗(yàn)顯示,RoPE在>8ktokens任務(wù)上PPL比絕對(duì)編碼下降18%。32.對(duì)比RNNbasedSeq2Seq與Transformer在機(jī)器翻譯中的訓(xùn)練并行性與推理延遲差異,并給出工業(yè)界常用的折中方案。答案:訓(xùn)練:RNN依賴時(shí)序遞歸,無(wú)法并行計(jì)算,Transformer自注意力可并行整句,GPU訓(xùn)練速度提升510倍。推理:RNN每步僅依賴上一隱藏狀態(tài),計(jì)算量恒定;Transformer每步需重新計(jì)算所有歷史鍵值,內(nèi)存與計(jì)算隨長(zhǎng)度線性增長(zhǎng),導(dǎo)致端側(cè)延遲高。折中:1)緩存鍵值(KVcache)減少重復(fù)計(jì)算;2)使用輕量解碼器層(如縮小d=512,h=8);3)采用非自回歸(NAT)一次生成整句,再迭代精修;4)知識(shí)蒸餾至小型RNN或Hybrid模型,如Google的HybridTransformerRNN,在TPU訓(xùn)練后剪枝至手機(jī)端,延遲降低42%,BLEU僅降0.6。33.解釋為何在對(duì)話系統(tǒng)使用強(qiáng)化學(xué)習(xí)(RLHF)時(shí),采用PPO而非REINFORCE,并給出獎(jiǎng)勵(lì)模型過(guò)擬合的兩種緩解策略。答案:REINFORCE無(wú)基準(zhǔn),方差大,樣本效率低;PPO引入重要性采樣與剪切概率比,限制策略更新幅度,穩(wěn)定可靠,適合大模型高維動(dòng)作空間。獎(jiǎng)勵(lì)模型過(guò)擬合緩解:1)數(shù)據(jù)增廣:使用同義改寫、backtranslation擴(kuò)充偏好對(duì),提升泛化;2)正則化:在獎(jiǎng)勵(lì)模型輸出層加Dropout=0.2,并采用早停(監(jiān)控驗(yàn)證集Kendallτ),防止記憶特定偏好;3)集成:訓(xùn)練5個(gè)不同隨機(jī)種子獎(jiǎng)勵(lì)模型,推理時(shí)取平均,降低單模型偏差。六、計(jì)算與推導(dǎo)題(共26分)34.(10分)給定一個(gè)長(zhǎng)度為3的句子,標(biāo)簽序列為BIO,CRF轉(zhuǎn)移矩陣A如下:||B|I|O|||||||B|0.1|0.8|0.1||I|0.1|0.7|0.2||O|0.6|0.1|0.3|發(fā)射矩陣P(對(duì)數(shù)概率):||x1|x2|x3|||||||B|0.5|0.2|0.1||I|0.3|0.6|0.2||O|0.2|0.2|0.7|求標(biāo)簽序列BIO的未歸一化得分(logspace)。答案:得分=P(B→x1)+A(B→I)+P(I→x2)+A(I→O)+P(O→x3)=0.5+0.8+0.6+0.2+0.7=2.835.(16分)假設(shè)使用標(biāo)準(zhǔn)Transformer解碼器,隱藏維度d=512,詞匯表大小V=30000,批量大小B=16,最大長(zhǎng)度T=100,計(jì)算:(1)自注意力層在序列長(zhǎng)度T時(shí)的浮點(diǎn)運(yùn)算量(FLOPs),忽略softmax與歸一化。(2)若采用8bit量化,權(quán)重內(nèi)存節(jié)省多少字節(jié)?(3)若使用KVcache,推理階段每新增1個(gè)token,所需額外顯存(字節(jié))?答案:(1)自注意力FLOPs=4BTd2+2BT2d=4×16×100×5122+2×16×1002×512=1.67×10?+1.64×10?≈1.84×10?FLOPs(2)原權(quán)重:d×V×4(QKV+O投影+FFN)≈512×30000×4=6.14×10?參數(shù)節(jié)?。好繀?字節(jié)→1字節(jié),節(jié)省3×6.14×10?≈184MB(3)KVcache:每token需存儲(chǔ)鍵與值,各形狀為(B,h,1,d/h),h=8,d/h=64每token顯存:2×B×h×d/h×1字節(jié)=2×16×8×64=16KB(8bit)七、綜合設(shè)計(jì)題(共35分)36.背景:某電商公司需構(gòu)建“智能客服小蜜”,支持售前咨詢、訂單查詢、情感安撫與營(yíng)銷推薦,日均千萬(wàn)級(jí)對(duì)話,峰值QPS=8k,要求平均響應(yīng)<200ms,準(zhǔn)確率>92%,且支持7×24小時(shí)多語(yǔ)言(中/英/泰)。任務(wù):(1)設(shè)計(jì)端到端系統(tǒng)架構(gòu),說(shuō)明核心模塊與數(shù)據(jù)流(10分)。(2)給出模型選型與壓縮方案,論證如何在精度下降<1%下滿足延遲(10分)。(3)描述如何構(gòu)建持續(xù)學(xué)習(xí)機(jī)制,以應(yīng)對(duì)新品上線導(dǎo)致的OOV問(wèn)題(8分)。(4)提出一套離線在線一體化評(píng)估體系,涵蓋業(yè)務(wù)指標(biāo)與模型指標(biāo)(7分)。答案:(1)架構(gòu):接入層→ASR(語(yǔ)音)→多語(yǔ)言NLU(意圖+槽位)→對(duì)話管理(DM)→策略中心(API+推薦)→NLG→TTS/文本。數(shù)據(jù)流:用戶query→Kafka→特征服務(wù)(用戶畫像、訂單緩存)→GPU推理集群→Re
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030消費(fèi)級(jí)AR眼鏡硬件迭代方向與內(nèi)容生態(tài)構(gòu)建報(bào)告
- 2025-2030洗衣干洗服務(wù)行業(yè)市場(chǎng)供需分析競(jìng)爭(zhēng)研究投資評(píng)估發(fā)展規(guī)劃書
- 2025-2030汽車零部件零配件市場(chǎng)占用率分析評(píng)估研究報(bào)告
- 2025年無(wú)為市招聘教師考試真題
- 員工績(jī)效考核與激勵(lì)方案分析
- 快遞包裝綠色環(huán)保創(chuàng)新方案探討
- 一體化課程開發(fā)與多學(xué)科融合教學(xué)方案
- 項(xiàng)目管理人員員工培訓(xùn)實(shí)施細(xì)則
- 民營(yíng)企業(yè)治理結(jié)構(gòu)優(yōu)化方案
- 電商平臺(tái)運(yùn)營(yíng)數(shù)據(jù)分析及改進(jìn)方案
- 2026年國(guó)家電網(wǎng)招聘之電網(wǎng)計(jì)算機(jī)考試題庫(kù)500道有答案
- 年味課件教學(xué)課件
- 中國(guó)臨床腫瘤學(xué)會(huì)(csco)胃癌診療指南2025
- 廣東省廣州市2025年上學(xué)期八年級(jí)數(shù)學(xué)期末考試試卷附答案
- 疑難病例討論制度落實(shí)常見問(wèn)題與改進(jìn)建議
- 手機(jī)鋪貨協(xié)議書
- 2025年新能源停車場(chǎng)建設(shè)項(xiàng)目可行性研究報(bào)告
- 2025年物業(yè)管理中心工作總結(jié)及2026年工作計(jì)劃
- 創(chuàng)傷性脾破裂的護(hù)理
- 蓬深102井鉆井工程(重新報(bào)批)項(xiàng)目環(huán)境影響報(bào)告表
- 馬路切割承包協(xié)議書
評(píng)論
0/150
提交評(píng)論