版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
2025年高職人工智能技術(shù)應(yīng)用(自然語言處理基礎(chǔ))試題及答案一、單項選擇題(每題2分,共20分。每題只有一個正確答案,請將正確選項填入括號內(nèi))1.在中文分詞任務(wù)中,下列哪種算法最適合處理未登錄詞(OOV)問題?A.正向最大匹配法B.逆向最大匹配法C.基于HMM的序列標(biāo)注D.Ngram語言模型【答案】C【解析】HMM將分詞視為序列標(biāo)注問題,可通過字符級狀態(tài)轉(zhuǎn)移捕捉未登錄詞的邊界特征,而基于詞典的匹配法無法識別詞典外新詞。2.當(dāng)使用BERT進行文本分類時,若下游任務(wù)數(shù)據(jù)極少,最合理的優(yōu)化策略是:A.直接微調(diào)全部參數(shù)B.凍結(jié)所有Transformer層,僅訓(xùn)練分類頭C.采用分層學(xué)習(xí)率,頂層學(xué)習(xí)率最大D.先在無標(biāo)注語料繼續(xù)預(yù)訓(xùn)練,再微調(diào)【答案】D【解析】領(lǐng)域自適應(yīng)預(yù)訓(xùn)練(DAPT)可在小樣本場景下注入領(lǐng)域知識,顯著降低微調(diào)過擬合風(fēng)險,優(yōu)于單純調(diào)整學(xué)習(xí)率或凍結(jié)策略。3.在Transformer中,ScaledDotProductAttention除以√d_k的主要作用是:A.加快計算速度B.防止softmax梯度消失C.減少內(nèi)存占用D.增強位置編碼【答案】B【解析】當(dāng)d_k較大時點積方差增大,softmax輸入可能落入飽和區(qū),梯度趨零;縮放可保持方差為1,維持梯度穩(wěn)定。4.使用TextRank提取關(guān)鍵詞時,節(jié)點權(quán)重迭代收斂的停止條件通常設(shè)置為:A.迭代次數(shù)達100B.兩次迭代L2范數(shù)差<1e5C.圖直徑不再變化D.邊權(quán)重和為1【答案】B【解析】TextRank沿用PageRank的冪迭代法,當(dāng)連續(xù)兩次迭代向量差小于閾值即認(rèn)為收斂,避免無謂計算。5.在中文醫(yī)療命名實體識別中,若標(biāo)簽采用BIOES方案,下列序列哪一組存在非法轉(zhuǎn)移?A.BDISEIDISEEDISEB.BDISEIDISEIDISEC.SDISEBDISEIDISED.OBDISEEDISE【答案】B【解析】BIOES規(guī)定I必須出現(xiàn)在B之后,連續(xù)I缺少E屬于非法轉(zhuǎn)移,模型需加入約束層(CRF)進行修正。6.對于基于LSTM的Seq2Seq模型,在推理階段使用BeamSearch時,若beamwidth=3,則每一步需要保留的候選序列數(shù)為:A.1B.3C.詞匯表大小D.3×詞匯表大小【答案】B【解析】BeamSearch每步僅擴展并保留得分最高的beamwidth條路徑,避免指數(shù)爆炸。7.在FewRel數(shù)據(jù)集上評估關(guān)系抽取模型時,官方采用的評價指標(biāo)是:A.MacroF1B.MicroF1C.Accuracy@KD.AUCROC【答案】A【解析】FewRel為5way1shot任務(wù),每類樣本量相等,MacroF1對類別取平均更能反映稀有關(guān)系性能。8.使用ALBERT替代BERT時,以下哪項技術(shù)最直接降低了參數(shù)量?A.FactorizedembeddingparameterizationB.CrosslayerparametersharingC.SentenceorderpredictionD.Gradientcheckpointing【答案】B【解析】ALBERT共享所有層Transformer權(quán)重,使深度網(wǎng)絡(luò)參數(shù)量隨層數(shù)線性增長變?yōu)槌?shù),壓縮比最大。9.在文本對抗樣本生成中,若使用遺傳算法對中文進行字符級擾動,下列哪種變異操作最易保持語義?A.隨機插入繁體字B.同音字替換C.隨機刪除標(biāo)點D.Unicode視覺混淆【答案】B【解析】同音字在聽覺層面保持一致,讀者可自動糾錯,語義損失最小,視覺混淆雖肉眼難辨,但可被防御工具檢測。10.當(dāng)使用知識蒸餾將12層BERT壓縮為3層TinyBERT時,下列哪一層損失對下游任務(wù)精度影響最大?A.Embedding層輸出B.隱藏層注意力矩陣C.預(yù)測層logitsD.池化層輸出【答案】C【解析】logits蒸餾直接對齊教師與學(xué)生最終概率分布,任務(wù)相關(guān)信號最強;注意力矩陣損失主要提升中間表征穩(wěn)定性。二、多項選擇題(每題3分,共15分。每題有兩個或兩個以上正確答案,漏選、錯選均不得分)11.關(guān)于GPT系列模型的特點,下列說法正確的有:A.采用單向Transformer解碼器B.預(yù)訓(xùn)練目標(biāo)為語言模型C.使用LayerNorm在注意力之后D.位置編碼為可學(xué)習(xí)絕對位置【答案】ABD【解析】GPT在注意力之前做LayerNorm,C錯誤;其余三項均與官方論文一致。12.在構(gòu)建中文拼寫糾錯系統(tǒng)時,可用于生成候選集的策略包括:A.基于混淆集的音近替換B.基于編輯距離的候選召回C.基于語言模型的候選排序D.基于字形相似度的筆畫編輯【答案】ABD【解析】C屬于排序階段,非候選生成;其余三項均可擴大召回。13.使用CRF層增強BiLSTMCRF模型時,CRF提供的功能有:A.學(xué)習(xí)標(biāo)簽轉(zhuǎn)移分?jǐn)?shù)B.保證輸出標(biāo)簽序列合法C.加速訓(xùn)練收斂D.提升解碼全局最優(yōu)性【答案】ABD【解析】CRF通過動態(tài)規(guī)劃解碼全局最優(yōu)路徑,但訓(xùn)練速度略慢于Softmax,C錯誤。14.在文本摘要任務(wù)中,屬于抽取式摘要方法的有:A.TextRankB.BertSumExtC.PointerGeneratorD.PacSum【答案】ABD【解析】PointerGenerator為生成式模型,其余三項均從原文抽取句子或片段。15.當(dāng)使用HuggingFaceTransformers加載模型時,以下做法可防止任意代碼執(zhí)行漏洞:A.設(shè)置trust_remote_code=FalseB.審查modeling_.py文件C.使用離線緩存權(quán)重D.啟用torch.jit.script【答案】ABC【解析】D與安全性無關(guān);A可禁止遠程自定義腳本,B、C確保權(quán)重與代碼可信。三、判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)16.Word2Vec的Skipgram模型中,使用負(fù)采樣時噪聲詞數(shù)量k越大,詞向量維度必須越大。【答案】×【解析】k與維度無必然聯(lián)系,k增大僅增加負(fù)樣本量,維度由嵌入層設(shè)定。17.在Transformer中,MultiHeadAttention的head數(shù)必須能被d_model整除?!敬鸢浮俊獭窘馕觥抗俜綄崿F(xiàn)中d_k=d_model/h,必須整除以保證維度一致。18.使用CRF時,若標(biāo)簽序列出現(xiàn)非法轉(zhuǎn)移,訓(xùn)練階段會直接報錯終止。【答案】×【解析】CRF訓(xùn)練階段通過轉(zhuǎn)移矩陣自動賦予非法轉(zhuǎn)移極低權(quán)重,不會報錯。19.在中文文本分類中,將繁體轉(zhuǎn)為簡體屬于數(shù)據(jù)清洗環(huán)節(jié)。【答案】√【解析】繁簡轉(zhuǎn)換可消除字符變體,減少詞匯碎片化,提升泛化。20.BERT的NSP任務(wù)對短文本匹配任務(wù)始終帶來正向收益?!敬鸢浮俊痢窘馕觥亢罄m(xù)研究(如RoBERTa)表明NSP對多數(shù)任務(wù)無增益甚至負(fù)向。21.使用ALBERT時,因參數(shù)共享,層數(shù)增加不會帶來推理延遲增加?!敬鸢浮俊痢窘馕觥抗蚕頇?quán)重僅節(jié)省內(nèi)存,計算量仍隨層數(shù)線性增加,延遲上升。22.在Seq2Seq中,TeacherForcing比例為1時,推理階段不會出現(xiàn)曝光偏差?!敬鸢浮俊痢窘馕觥縏eacherForcing僅在訓(xùn)練使用,推理仍依賴上一時刻預(yù)測,曝光偏差仍存在。23.使用F1score評估NER時,實體級與字符級計算結(jié)果可能相差較大?!敬鸢浮俊獭窘馕觥孔址墝⒉糠制ヅ湟暈镕P/FN,實體級要求邊界完全正確,結(jié)果差異顯著。24.在GPT3的Fewshot推理中,示例順序?qū)敵鼋Y(jié)果無影響?!敬鸢浮俊痢窘馕觥垦芯勘砻魇纠樞驎@著改變概率分布,導(dǎo)致輸出不穩(wěn)定。25.對BERT進行INT8量化后,必須重新微調(diào)以恢復(fù)精度?!敬鸢浮俊痢窘馕觥渴褂肞ostTrainingQuantization(PTQ)配合校準(zhǔn)數(shù)據(jù),無需重新微調(diào)即可恢復(fù)99%+精度。四、填空題(每空2分,共20分)26.在BERT的預(yù)訓(xùn)練階段,MaskLM的掩碼比例為________?!敬鸢浮?5%【解析】其中80%用[MASK]、10%隨機詞、10%不變。27.當(dāng)使用BiLSTMCRF進行NER時,若標(biāo)簽數(shù)為7,則CRF轉(zhuǎn)移矩陣維度為________?!敬鸢浮?×7【解析】包含START與STOP標(biāo)簽時維度為(7+2)×(7+2),但題目已含START/STOP在內(nèi),故7×7。28.Transformer的位置編碼采用________與________兩種模式。【答案】絕對位置編碼;相對位置編碼【解析】原始論文為絕對sinusoidal,后續(xù)T5、DeBERTa引入相對位置。29.使用TextCNN時,若卷積核尺寸為[2,3,4],每種尺寸100個核,則卷積層輸出特征圖為________維?!敬鸢浮?00【解析】3種尺寸×100=300,后接最大池化拼接。30.在GPT2中,LayerNorm的epsilon默認(rèn)值為________。【答案】1e5【解析】與TensorFlow默認(rèn)一致,防止除零。31.使用ALBERT時,因參數(shù)共享,其每層Transformer的________與________完全一致。【答案】權(quán)重矩陣;偏置【解析】共享包括Attention與FFN全部參數(shù)。32.在中文分詞評測中,SIGHANBakeoff采用的評價指標(biāo)為________與________?!敬鸢浮縋recision;Recall;F1(任填兩項即可)【解析】官方以F1為主,需先算P、R。33.使用BeamSearch時,若長度懲罰系數(shù)α=0.6,則得分公式為________。【答案】logP/(T^α)【解析】T為序列長度,用于懲罰長序列。34.在知識蒸餾中,溫度系數(shù)τ越大,則softmax輸出分布越________?!敬鸢浮科交窘馕觥扛邷胤糯笪⑿〔町?,分布更均勻。35.使用RoBERTa時,移除了NSP任務(wù)并采用________訓(xùn)練方式?!敬鸢浮縁ULLSENTENCES【解析】連續(xù)從同一文檔采樣多句,跨越文檔邊界才加[SEP]。五、簡答題(每題8分,共24分)36.簡述BERT與GPT在預(yù)訓(xùn)練目標(biāo)、模型結(jié)構(gòu)及適用場景上的三點核心差異。【答案與解析】(1)預(yù)訓(xùn)練目標(biāo):BERT采用雙向MaskedLM+NSP,GPT采用單向LefttoRightLM;雙向使BERT擅長理解任務(wù),單向使GPT更適生成。(2)模型結(jié)構(gòu):BERT使用雙向TransformerEncoder,GPT使用單向MaskedMultiHeadAttention的Decoder;GPT在注意力層引入下三角掩碼屏蔽未來信息。(3)適用場景:BERT在句子級分類、序列標(biāo)注、閱讀理解表現(xiàn)突出;GPT在文本續(xù)寫、對話生成、少樣本提示推理更具優(yōu)勢;二者分別代表“編碼器”與“解碼器”范式的巔峰。37.解釋為何在中文拼寫糾錯pipeline中,語言模型排序階段常采用結(jié)合字級與詞級特征的混合分?jǐn)?shù),并給出公式?!敬鸢概c解析】中文錯誤常表現(xiàn)為“字錯但詞對”或“詞碎但字對”,單一粒度易誤判?;旌戏?jǐn)?shù)公式:Score(s)=λ·logP_char(s)+(1?λ)·logP_word(s)?α·EditDistance(s,original)其中P_char與P_word分別為字符級與詞級語言模型概率,λ∈[0,1]通過驗證集調(diào)優(yōu),α控制懲罰強度。實驗表明λ=0.6時F1提升2.3%,兼顧字詞一致性。38.描述如何使用對抗訓(xùn)練(FGM)提升BERT在文本分類中的魯棒性,并給出PyTorch偽代碼?!敬鸢概c解析】FGM在embedding層添加擾動,最大化損失后反向更新,提升魯棒。偽代碼:```forbatchinloader:input_ids,labels=batchembeds=model.bert.embeddings(input_ids)正常前向loss=model(input_ids,labels=labels)loss.backward()計算擾動grad=embeds.grad.datanorm=torch.norm(grad)r=epsilongrad/(norm+1e8)embeds.data+=r對抗前向loss_adv=model(inputs_embeds=embeds,labels=labels)loss_adv.backward()optimizer.step()embeds.data=r恢復(fù)```實驗顯示AGNews數(shù)據(jù)集準(zhǔn)確率提升1.1%,對抗樣本錯誤率下降18%。六、計算與推導(dǎo)題(共11分)39.給定一個長度為4的輸入序列,d_model=512,h=8,計算ScaledDotProductAttention中QK^T的維度,并推導(dǎo)其內(nèi)存占用(float32)。若采用FlashAttention融合算法,內(nèi)存峰值可降低多少倍?(假設(shè)無batch維度,忽略偏置與掩碼)【答案與解析】(1)QK^T維度:序列長度×序列長度=4×4(2)內(nèi)存:4×4×4字節(jié)=64字節(jié);若含h個頭,則單樣本總內(nèi)存=64×8=512字節(jié)(3)標(biāo)準(zhǔn)實現(xiàn)需存儲中間Attention矩陣(4×4×8×4B)=512B;FlashAttention通過分塊重計算,無需顯存存儲整個矩陣,峰值僅保留分塊,實驗測得峰值降低約7.8倍(以序列長度1024測得,短序列理論峰值趨近O(1))。七、綜合應(yīng)用題(共30分)40.某醫(yī)院需構(gòu)建中文電子病歷命名實體識別系統(tǒng),數(shù)據(jù)含“疾病”“癥狀”“藥品”“部位”四類實體,共標(biāo)注1.2萬句,平均句長82字。請回答:(1)選擇基線模型并說明理由(4分)(2)設(shè)計一套數(shù)據(jù)增強方案,要求生成不少于3種策略并給出實現(xiàn)細(xì)節(jié)(6分)(3)若實體出現(xiàn)嚴(yán)重類別不平衡(藥品占58%),給出一種動態(tài)加權(quán)損失函數(shù)并寫出公式(4分)(4)評測指標(biāo)除F1外,再選擇一項更能反映臨床可用性的指標(biāo)并解釋(3分)(5)給出模型輕量化方案,要求在精度下降≤1%前提下,推理速度提升3倍,參數(shù)≤50MB(8分)(6)描述如何融入外部醫(yī)學(xué)詞典,并給出匹配與校正流程(5分)【答案與解析】(1)基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職烹飪(傳統(tǒng)菜肴制作)試題及答案
- 2025年高職(老年服務(wù)與管理)老年人康復(fù)護理試題及答案
- 2025年高職(環(huán)境工程技術(shù))環(huán)境監(jiān)理基礎(chǔ)試題及答案
- 2025年高職美發(fā)與形象設(shè)計(形象設(shè)計創(chuàng)意)試題及答案
- 2025年高職新材料(高分子應(yīng)用實操)試題及答案
- 2025年大學(xué)安全教育(食品安全知識)試題及答案
- 2025年高職移動應(yīng)用技術(shù)與服務(wù)(用戶體驗設(shè)計)試題及答案
- 2025年大學(xué)心理學(xué)(人格心理學(xué)實驗)試題及答案
- 2026年稅務(wù)實務(wù)(稅務(wù)登記)試題及答案
- 2026年行政管理(公文流轉(zhuǎn)效率)試題及答案
- 重慶水利安全員c證考試題庫和及答案解析
- 城市更新能源高效利用方案
- 2025秋期版國開電大本科《理工英語4》一平臺綜合測試形考任務(wù)在線形考試題及答案
- 2025 精神護理人員職業(yè)倦怠預(yù)防課件
- 簡易混凝土地坪施工方案
- 介紹數(shù)字孿生技術(shù)
- 春播行動中藥貼敷培訓(xùn)
- 水泵維修安全知識培訓(xùn)課件
- 部隊裝修合同(標(biāo)準(zhǔn)版)
- DBJT15-147-2018 建筑智能工程施工、檢測與驗收規(guī)范
- 《智能制造技術(shù)基礎(chǔ)》課件
評論
0/150
提交評論