2025年(人工智能)自然語言處理基礎(chǔ)試題及答案_第1頁
2025年(人工智能)自然語言處理基礎(chǔ)試題及答案_第2頁
2025年(人工智能)自然語言處理基礎(chǔ)試題及答案_第3頁
2025年(人工智能)自然語言處理基礎(chǔ)試題及答案_第4頁
2025年(人工智能)自然語言處理基礎(chǔ)試題及答案_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年(人工智能)自然語言處理基礎(chǔ)試題及答案一、單項選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于將輸入序列中不同位置的信息進行關(guān)聯(lián)的核心機制是A.卷積核滑動B.自注意力C.池化降維D.殘差連接答案:B解析:自注意力通過Query、Key、Value的縮放點積計算,使任意兩個位置直接交互,擺脫了RNN的時序依賴,是Transformer的基石。2.下列關(guān)于BERT預(yù)訓(xùn)練任務(wù)“NSP”的描述,正確的是A.預(yù)測被遮蓋的詞B.判斷兩個句子是否相鄰C.判斷句子情感極性D.預(yù)測下一個句子出現(xiàn)的概率分布答案:B解析:NextSentencePrediction讓模型學(xué)習句子級關(guān)系,提升下游句對任務(wù)表現(xiàn);MaskedLM則負責詞級表示。3.在文本分類任務(wù)中,若正負樣本比例高達1:99,且數(shù)據(jù)量極大,最合理的首要處理策略是A.直接隨機降采樣負例B.采用FocalLoss并保留全量數(shù)據(jù)C.先無監(jiān)督聚類再分類D.將問題轉(zhuǎn)化為異常檢測答案:B解析:FocalLoss通過調(diào)制因子降低易分樣本權(quán)重,使模型聚焦難例,適合極度不平衡且大數(shù)據(jù)場景;隨機降采樣會丟失大量信息。4.對于中文“南京市長江大橋”進行最大前向匹配(詞典最長詞5字),切分結(jié)果是A.南京市/長江/大橋B.南京/市長/江/大橋C.南京市/長江大橋D.南京/市/長/江/大/橋答案:A解析:最大前向匹配從左側(cè)取最長可能詞,“南京市”在5字窗口內(nèi)存在,切出后繼續(xù)掃描剩余串“長江大橋”。5.在Seq2Seq+Attention的翻譯模型中,若解碼器第t步的上下文向量c_t與編碼器所有隱狀態(tài)h_i有關(guān),則c_t的計算本質(zhì)是A.對h_i做均值池化B.對h_i做加權(quán)平均,權(quán)重由注意力分數(shù)決定C.取h_t作為c_tD.對h_i做max池化答案:B解析:注意力權(quán)重α_ti=softmax(score(s_t,h_i)),上下文向量c_t=Σα_tih_i,實現(xiàn)動態(tài)加權(quán)。6.使用GPT3做零樣本情感分類時,提示模板“Review:{text}.Sentiment:”屬于A.離散提示B.連續(xù)提示C.前綴微調(diào)D.適配器微調(diào)答案:A解析:離散提示用自然語言文本引導(dǎo),無需更新參數(shù);連續(xù)提示用可訓(xùn)練向量,前綴微調(diào)則針對前綴參數(shù)訓(xùn)練。7.在Word2Vec的Skipgram模型中,若負采樣個數(shù)k=5,目標詞為“apple”,則一個訓(xùn)練樣本對應(yīng)的輸出層實際參與參數(shù)更新的節(jié)點數(shù)為A.1B.5C.6D.詞表大小答案:C解析:負采樣僅保留正例“apple”與5個負例,共6個輸出節(jié)點參與計算與梯度更新。8.下列評價指標中,對機器翻譯輸出“thecatsatonthemat”與參考譯文“acatsatonthemat”最不敏感的是A.BLEU1B.BLEU2C.METEORD.chrF++答案:D解析:chrF++基于字符ngram,對冠詞“the/a”差異不敏感;BLEU1會因“the”未匹配而扣分明顯。9.在中文拼寫糾錯任務(wù)中,若將“機器學(xué)習”誤寫為“機器學(xué)系”,最可行的檢錯階段特征是A.字音相似度B.字形編輯距離C.語義困惑度突增D.詞性標注沖突答案:C解析:語言模型對“機器學(xué)系”賦予極低概率,困惑度飆升,可觸發(fā)糾錯;字形距離“習?系”為1,但音不近,故字形或字音單特征均不足。10.當使用LoRA微調(diào)LLaMA7B時,若rank=8,插入矩陣為W+ΔW,其中ΔW=BA,則新增可訓(xùn)練參數(shù)量約為A.7B×8B.2×7B×8C.2×hidden×rankD.2×vocab×rank答案:C解析:LoRA對Attention和MLP的權(quán)重矩陣注入低秩分解,新增參數(shù)量≈2×dim×rank×層數(shù),與hiddensize直接相關(guān)。二、多項選擇題(每題3分,共15分)11.下列技術(shù)可直接用于緩解Transformer在推理階段O(n2)復(fù)雜度問題的是A.LinformerB.PerformerC.ALiBiD.SparseTransformer答案:A、B、D解析:Linformer將Key/Value投影到低維;Performer使用FAVOR+核近似;SparseTransformer限制注意力模式;ALiBi僅替換位置編碼,不改變復(fù)雜度。12.關(guān)于對比學(xué)習在句子表示中的應(yīng)用,正確的有A.SimCSE使用Dropout作為正例增強B.溫度參數(shù)τ越小,對比損失對難負例越敏感C.批量內(nèi)負例越多,表示空間越均勻D.必須依賴人工標注的相似度標簽答案:A、B、C解析:SimCSE無需額外標注,僅通過Dropout生成正例;τ減小使softmax峰值更尖銳,難負例權(quán)重上升;大批次負例可緩解崩潰;D錯誤。13.在構(gòu)建領(lǐng)域BERT時,以下策略可能提升下游任務(wù)效果的是A.繼續(xù)預(yù)訓(xùn)練(DAPT)B.調(diào)整Tokenizer新增領(lǐng)域詞C.采用WholeWordMaskingD.將NSP任務(wù)替換為句子順序預(yù)測(SOP)答案:A、B、C、D解析:DAPT注入領(lǐng)域知識;新詞切分減少OOV;WholeWordMasking提升詞級表示;SOP比NSP更魯棒,已被RoBERTa驗證。14.關(guān)于PromptTuning與Ptuningv2的區(qū)別,正確的有A.前者僅在輸入層插入連續(xù)向量,后者在每一層插入B.前者需為每個任務(wù)保存完整模型副本,后者只需保存prompt參數(shù)C.后者在小型模型上表現(xiàn)更穩(wěn)定D.兩者均不更新預(yù)訓(xùn)練模型參數(shù)答案:A、C、D解析:Ptuningv2借鑒深度提示,層間插入可訓(xùn)練向量,提升小模型效果;兩者均凍結(jié)主干;PromptTuning只需保存輕量prompt,B錯誤。15.下列關(guān)于大模型“涌現(xiàn)能力”的描述,經(jīng)驗上被觀測到的有A.參數(shù)量超閾值后,ChainofThought推理準確率突增B.指令微調(diào)后,模型在未見過的語言上也能完成翻譯C.縮放定律表明loss隨參數(shù)指數(shù)下降D.參數(shù)量超過10B后,無需微調(diào)即可做復(fù)雜算術(shù)答案:A、B解析:涌現(xiàn)能力指性能隨規(guī)模突躍,A、B已被GPT3/PaLM驗證;C描述平滑下降,非突躍;D算術(shù)能力仍不穩(wěn)定,非普遍涌現(xiàn)。三、填空題(每空2分,共20分)16.在Transformer中,若隱狀態(tài)維度d=512,多頭注意力head=8,則每個頭的維度為______。答案:64解析:512/8=64。17.若使用1gram、2gram、3gram、4gram計算BLEU,各階權(quán)重均勻,則BLEU公式中幾何平均后需乘以簡短懲罰項BP,當候選譯文長度______參考長度時,BP<1。答案:小于解析:BP=exp(1?ref/cand)若cand<ref,指數(shù)項為正,BP<1。18.將句子“AI產(chǎn)品落地難”進行字級別復(fù)制增強,若采用RandomInsertion策略,隨機插入2次,可能得到的一個結(jié)果為______(示例即可)。答案:AI產(chǎn)品落地難難或AI產(chǎn)產(chǎn)品品落地難解析:RandomInsertion隨機重復(fù)選擇字或詞,答案不唯一。19.在ELECTRA的替換Token檢測任務(wù)中,生成器采用______訓(xùn)練目標,判別器采用______訓(xùn)練目標。答案:MaskedLanguageModeling;ReplacedTokenDetection解析:生成器MLM預(yù)測被遮蓋詞,判別器判斷每個Token是否被替換。20.若中文文本含繁體字“機器學(xué)習”,需將其轉(zhuǎn)為簡體“機器學(xué)習”,所使用的最常用開源庫是______。答案:OpenCC解析:OpenCC支持繁簡、地術(shù)語轉(zhuǎn)換,GitHub開源。21.當使用ALBERT對參數(shù)進行跨層共享時,為保持表達能力,引入的投影矩陣分解將原本V×V的嵌入矩陣分解為______與______兩個矩陣。答案:V×E;E×V解析:ALBERT將詞嵌入大小E與隱層大小H解耦,分解為V×E和E×V,減少參數(shù)量。22.在UniLM同時完成三種語言模型任務(wù)時,通過改變______矩陣實現(xiàn)雙向、單向、seq2seq的不同注意力模式。答案:AttentionMask解析:UniLM不改動結(jié)構(gòu),僅調(diào)整mask實現(xiàn)不同語言模型。23.若使用FP16混合精度訓(xùn)練,為防止梯度下溢,通常需啟用______技術(shù)。答案:LossScaling解析:LossScaling將損失乘以系數(shù),反向傳播后縮放梯度,避免極小梯度歸零。24.當構(gòu)建檢索增強生成(RAG)系統(tǒng)時,檢索器通常采用______編碼器將查詢與文檔映射到同一語義空間。答案:DensePassageRetriever(或DPR)解析:DPR用雙塔BERT編碼,將查詢與段落映射為向量,做最大內(nèi)積搜索。25.在指令微調(diào)階段,為提升模型對“角色扮演”任務(wù)的穩(wěn)定性,可在提示中加入______語句,明確模型身份。答案:SystemPrompt(或系統(tǒng)提示)解析:如“你是知識淵博的助手”,系統(tǒng)提示在對話開始即固定,增強一致性。四、判斷題(每題1分,共10分)26.BERT的PositionEmbedding采用可學(xué)習的絕對位置編碼,最大長度512,超出后需截斷。答案:√解析:BERT原始實現(xiàn)即如此,超出512需滑動窗口或截斷。27.在GPT系列中,LayerNorm位于Attention/MLP之后,即PostNorm結(jié)構(gòu)。答案:×解析:GPT1/2/3均用PreNorm,即Norm→Attention/MLP→殘差。28.使用ROUGEL評價摘要時,L指最長公共子序列,考慮了詞序但不去重。答案:√解析:ROUGEL基于LCS,保留順序,允許重復(fù)詞出現(xiàn)。29.在中文分詞中,若詞典無“新冠”,則“新冠肺炎”可能被切為“新/冠/肺/炎”,此現(xiàn)象稱為OOV。答案:√解析:OOV即OutofVocabulary,詞典未登錄導(dǎo)致過度切分。30.將ReLU替換為GELU后,Transformer訓(xùn)練速度一定提升,因為GELU非飽和區(qū)梯度更大。答案:×解析:GELU計算量高于ReLU,速度未必提升;梯度特性改善收斂,但非絕對。31.使用AdaFactor優(yōu)化器可顯著降低顯存占用,因其不保存一階動量。答案:×解析:AdaFactor不保存二階動量的平方梯度矩陣,僅保存低秩分解,節(jié)省顯存;一階動量仍保留。32.在對話系統(tǒng)安全過濾中,若采用規(guī)則黑名單“殺|死|毒”,則句子“病毒殺死了進程”會被誤傷。答案:√解析:關(guān)鍵詞匹配無上下文,導(dǎo)致正常技術(shù)術(shù)語被誤屏蔽。33.將預(yù)訓(xùn)練模型從FP32轉(zhuǎn)為INT8量化后,模型體積理論上縮小為原來1/4。答案:×解析:體積縮小1/4僅當全部INT8且embedding也量化;實際需存縮放參數(shù),約1/3~1/4。34.使用梯度累積可在單卡上模擬大batch訓(xùn)練,但學(xué)習率需等比例放大。答案:×解析:梯度累積不改變有效batch大小下的優(yōu)化器行為,學(xué)習率無需等比放大,除非同時調(diào)整scheduler。35.在對比學(xué)習中,若負例出現(xiàn)與正例語義相同的樣本,稱為假負例(FalseNegative),會拉低性能。答案:√解析:假負例被錯誤推遠,導(dǎo)致表示空間塌陷,需通過難負例挖掘或清洗緩解。五、簡答題(每題8分,共24分)36.描述Transformer自注意力計算流程,并給出縮放點積的數(shù)學(xué)表達式,說明縮放因子的作用。答案:1)對輸入X分別線性映射為Q、K、V,維度均為d;2)計算注意力分數(shù)S=QK^T/√d_k;3)對S按行進行softmax得權(quán)重矩陣A;4)輸出O=AV??s放點積:Attention(Q,K,V)=softmax(QK^T/√d_k)V??s放因子√d_k防止d_k較大時點積絕對值過大,導(dǎo)致softmax梯度飽和,梯度消失。37.解釋“知識蒸餾”在小型學(xué)生模型模仿大型教師模型時的損失函數(shù)設(shè)計,并給出溫度參數(shù)τ的影響。答案:損失通常由兩部分加權(quán):L=α·CE(y_true,y_student)+(1?α)·τ2·KL(p_t^τ||p_s^τ)其中p^τ=softmax(z/τ)。溫度τ>1使softmax分布更平滑,放大負標簽信息,幫助學(xué)生學(xué)到教師暗知識;τ→∞分布趨均勻,τ→0趨onehot。實驗表明τ=3~5效果佳,τ過大則信號噪聲比下降。38.列舉三種緩解大模型推理時顯存峰值的方法,并比較其優(yōu)缺點。答案:1)梯度檢查點(Checkpoint):重計算前向激活,顯存降至O(√n),時間增加約20%;2)8bit量化(LLM.int8()):權(quán)重與激活I(lǐng)NT8,顯存減半,精度損失<1%,但需硬件支持矩陣乘累加INT32;3)模型并行(TensorParallel):將單層權(quán)重拆分到多卡,單卡顯存線性下降,通信量上升,需高速互聯(lián)。比較:Checkpoint無精度損,耗時;量化實現(xiàn)簡單,極端層可能溢出;模型并行擴展性好,實現(xiàn)復(fù)雜。六、計算與推導(dǎo)題(共21分)39.(10分)假設(shè)某Transformer編碼層hidden=768,head=12,序列長度n=128,batch=32,計算標準自注意力機制在該層的理論浮點運算量(FLOPs),并給出推導(dǎo)。答案:1)Q、K、V線性映射:3×(n×d×d)=3×128×768×768=226M;2)QK^T:n×d_head×n×head=128×64×128×12=12.5M;3)加權(quán)求和AV:n×n×d_head×head=128×128×64×12=12.5M;4)輸出投影:n×d×d=128×768×768=75.5M;總FLOPs=226+12.5+12.5+75.5≈326.5MFLOPs。注:乘法與加法各算1FLOP,已合并。40.(11分)給定真實標簽序列“BPERIPEROOBLOCILOCO”與模型預(yù)測“BPERIPERBPEROBLOCOO”,計算實體級精確率、召回率、F1,需給出實體邊界與類型完全匹配才計TP。答案:真實實體:PER(01)、LOC(45)預(yù)測實體:PER(01)、PER(2)、LOC(4)TP:PER(01)匹配,1個;FP:PER(2)、LOC(4)類型或邊界錯誤,2個;FN:LOC(45)未完全匹配,1個。精確率P=1/(1+2)=1/3≈0.333;召回率R=1/(1+1)=0.5;F1=2PR/(P+R)=0.4。七、綜合應(yīng)用題(共30分)41.(15分)某電商評論情感分析項目需部署在邊緣ARM設(shè)備,內(nèi)存<1GB,現(xiàn)擁有BERTbase(440MBFP32)及10萬條領(lǐng)域標注數(shù)據(jù)。請設(shè)計一套“訓(xùn)練壓縮部署”完整方案,含模型選擇、微調(diào)策略、壓縮流程、推理框架,并說明如何保障精度損失<3%。答案:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論