版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年(自然語言處理工程師)自然語言處理試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Transformer架構(gòu)中,用于捕捉序列位置信息而不引入額外可學(xué)習(xí)參數(shù)的結(jié)構(gòu)是A.絕對(duì)位置編碼表B.相對(duì)位置偏置(RelativePositionBias)C.旋轉(zhuǎn)位置編碼(RoPE)D.正弦位置編碼(SinusoidalPositionalEncoding)答案:D解析:Vaswani等人在原始Transformer論文中提出正弦位置編碼,其公式僅依賴位置索引與維度索引,無需訓(xùn)練參數(shù),即可外推到更長(zhǎng)序列。2.當(dāng)使用BERTbase進(jìn)行中文命名實(shí)體識(shí)別時(shí),若出現(xiàn)“[UNK]”導(dǎo)致標(biāo)簽錯(cuò)位,最合理的后處理策略是A.直接丟棄含[UNK]的整條樣本B.將[UNK]對(duì)應(yīng)標(biāo)簽設(shè)為“O”并繼續(xù)訓(xùn)練C.利用字符級(jí)對(duì)齊回退到原始文本重新標(biāo)注D.用WordPiece詞典中最長(zhǎng)匹配子詞替換[UNK]答案:C解析:BERT的WordPiece分詞與原始字符并非一一映射,出現(xiàn)[UNK]說明子詞超出詞匯表;通過字符級(jí)對(duì)齊可找回原始標(biāo)注邊界,避免信息丟失。3.在對(duì)比學(xué)習(xí)損失InfoNCE中,溫度系數(shù)τ趨近于0時(shí),損失函數(shù)的梯度行為是A.對(duì)所有負(fù)樣本梯度均勻減小B.對(duì)最難負(fù)樣本梯度趨近于0C.對(duì)正樣本梯度趨近于1D.對(duì)最難負(fù)樣本梯度趨近于無窮大答案:D解析:InfoNCE的梯度含exp(s+/τ)/Σexp(si/τ),當(dāng)τ→0,最難負(fù)樣本與正樣本得分差被指數(shù)級(jí)放大,其梯度范數(shù)趨于無窮,導(dǎo)致訓(xùn)練不穩(wěn)定。4.將GPT3175B模型部署在A10080G單卡上做int8量化推理,若采用LLM.int8()方案,則顯存占用約為A.175GBB.88GBC.44GBD.22GB答案:C解析:175B參數(shù)以int8存儲(chǔ)≈175GB×1/4≈44GB;LLM.int8()通過混合精度保留部分激活為fp16,但權(quán)重壓縮后顯存主因權(quán)重,故選C。5.在RLHF階段,使用PPO算法對(duì)LLM進(jìn)行微調(diào)時(shí),優(yōu)勢(shì)估計(jì)采用GAE(λ)的主要目的是A.降低策略梯度方差同時(shí)控制偏差B.增加探索噪聲C.保證單調(diào)改進(jìn)D.避免重要性采樣答案:A解析:GAE通過指數(shù)加權(quán)平均n步回報(bào),調(diào)節(jié)λ可在偏差與方差間權(quán)衡,使PPO更新更穩(wěn)定。6.下列關(guān)于SentenceBERT中“SiameseNetwork”訓(xùn)練方式描述正確的是A.共享編碼器參數(shù),池化后拼接送入分類器B.不共享編碼器參數(shù),分別輸出句向量后計(jì)算余弦相似度C.共享編碼器參數(shù),池化后直接計(jì)算三元組損失D.共享編碼器參數(shù),池化后計(jì)算余弦相似度并用均方誤差回歸答案:C解析:SentenceBERT采用Siamese結(jié)構(gòu)共享權(quán)重,池化得到u、v,再計(jì)算|u?v|與u、v拼接,最終用SoftMargin三元組損失優(yōu)化。7.在文本風(fēng)格遷移任務(wù)中,若采用“刪除+檢索+生成”三階段pipeline,其中“刪除”階段最常用的指標(biāo)是A.BLEUB.風(fēng)格分類準(zhǔn)確率C.內(nèi)容保留率(ContentPreservation)D.perplexity答案:C解析:刪除階段目標(biāo)是去掉風(fēng)格詞而保留內(nèi)容,故用內(nèi)容保留率評(píng)估;風(fēng)格分類準(zhǔn)確率用于后續(xù)生成階段。8.使用LoRA對(duì)7B模型做參數(shù)高效微調(diào)時(shí),若rank=16,則可訓(xùn)練參數(shù)量約為A.7MB.14MC.28MD.112M答案:B解析:LoRA僅訓(xùn)練WQ、WK、WV、WO四個(gè)投影的低秩增量,每層4×2×r×d;7B≈32層,d=4096,可訓(xùn)練≈32×4×2×16×4096≈14M。9.在中文文本糾錯(cuò)任務(wù)中,將“以毒攻毒”誤寫為“以毒功毒”屬于A.音近錯(cuò)誤B.形近錯(cuò)誤C.順序錯(cuò)誤D.知識(shí)性錯(cuò)誤答案:B解析:“功”與“攻”拼音不同但字形高度相似,屬于形近別字。10.當(dāng)使用FAISSIVF1024,PQ64索引在1億條768維句向量上做召回時(shí),若nprobe=32,則實(shí)際距離計(jì)算次數(shù)約為A.1億次B.3200萬次C.320萬次D.32萬次答案:C解析:IVF先定位32個(gè)倒排列表,每列表約1億/1024≈10萬向量,32×10萬=320萬次距離計(jì)算。二、多項(xiàng)選擇題(每題3分,共15分;多選少選均不得分)11.下列技術(shù)可有效緩解大模型“幻覺”現(xiàn)象的有A.檢索增強(qiáng)生成(RAG)B.思維鏈提示(ChainofThought)C.強(qiáng)化學(xué)習(xí)從人類反饋(RLHF)D.增加解碼溫度答案:A、B、C解析:RAG引入外部知識(shí),CoT促使逐步推理,RLHF對(duì)齊人類偏好,均可降低幻覺;升高溫度反而增加隨機(jī)性,可能加劇幻覺。12.關(guān)于ALiBi(AttentionwithLinearBiases)描述正確的有A.在softmax前對(duì)querykey點(diǎn)積加上線性偏置B.偏置值僅與query、key的相對(duì)距離有關(guān)C.可外推到比訓(xùn)練更長(zhǎng)的序列D.需要額外的位置嵌入向量答案:A、B、C解析:ALiBi將固定斜率m×(i?j)直接加到注意力分?jǐn)?shù),無需學(xué)習(xí)位置向量,且線性偏置可外推。13.在DiffusionLM中,為了實(shí)現(xiàn)可控文本生成,可在反向去噪過程中注入的條件信號(hào)包括A.句法模板掩碼B.情感標(biāo)簽嵌入C.主題關(guān)鍵詞袋D.句長(zhǎng)懲罰項(xiàng)答案:A、B、C解析:DiffusionLM通過修改去噪網(wǎng)絡(luò)輸入或損失函數(shù)注入條件;句長(zhǎng)通常通過提前終止或長(zhǎng)度預(yù)測(cè)器控制,而非直接作為條件信號(hào)。14.以下屬于中文分詞“歧義召回”策略的有A.構(gòu)建DAG后利用動(dòng)態(tài)規(guī)劃求最大概率路徑B.采用雙向匹配生成所有交叉歧義片段C.在CRF解碼時(shí)保留前N條最優(yōu)路徑D.利用預(yù)訓(xùn)練語言模型對(duì)候選片段重新打分答案:B、C、D解析:A為消歧策略;B通過雙向匹配擴(kuò)大召回,C保留Nbest,D用PLM重排,均可召回潛在正確切分。15.當(dāng)使用DeepSpeedZeRO3訓(xùn)練百億模型時(shí),為了降低通信開銷,可采取A.梯度累積局部步驟(GradientAccumulationFusion)B.權(quán)重預(yù)?。≒aramPrefetch)C.梯度壓縮(1bitLAMB)D.關(guān)閉ZeRO3,回退到ZeRO2答案:A、B、C解析:ZeRO3通過參數(shù)分區(qū)引入額外通信;A融合梯度更新減少通信頻次,B預(yù)取隱藏延遲,C壓縮梯度;D會(huì)增大顯存,不符合題意。三、填空題(每空2分,共20分)16.BERT的掩碼語言模型在15%掩碼token中,有______%被替換為隨機(jī)token,______%保持不變,其余為[MASK]。答案:10,10解析:原始論文比例:80%[MASK],10%隨機(jī),10%原token。17.在Transformer中,若隱藏維度d=512,頭數(shù)h=8,則每個(gè)頭的維度為______,點(diǎn)積注意力計(jì)算復(fù)雜度為______。答案:64,O(n2·d)解析:?jiǎn)晤^維度512/8=64;復(fù)雜度O(n2·d)與序列長(zhǎng)度平方成正比。18.使用BLEURT20模型評(píng)估生成文本時(shí),其底層骨干網(wǎng)絡(luò)為______,訓(xùn)練數(shù)據(jù)主要來源于______與______。答案:RoBERTalarge,WMT19MetricsTask數(shù)據(jù),人工后編輯評(píng)分。19.在PromptTuning中,當(dāng)軟提示長(zhǎng)度p=20,詞匯表大小V=50257,嵌入維度d=1024,則可訓(xùn)練參數(shù)量為______;若改用PTuningv2并在每層插入可訓(xùn)練前綴,則參數(shù)量約為______。答案:20×1024=20480,層數(shù)×前綴長(zhǎng)度×2×d(Key+Value)≈12×20×2×1024=491520。20.將中文“自然語言處理”轉(zhuǎn)換為Unicode碼點(diǎn)序列,其UTF8編碼總字節(jié)數(shù)為______;若采用BERTwwmext的WordPiece分詞,則輸出token數(shù)為______。答案:21(自:0xE887AA,然:0xE784B6,語:0xE8AFAD,言:0xE8A880,處:0xE5A484,理:0xE79086,每字3字節(jié)×7=21),5([‘自’,‘然’,‘語’,‘言’,‘處’,‘理’]中“處理”被切為“處”“理”)。四、判斷題(每題1分,共10分;正確打“√”,錯(cuò)誤打“×”)21.ELECTRA的生成器與判別器參數(shù)始終固定相同。答案:×解析:生成器與判別器獨(dú)立,訓(xùn)練結(jié)束后僅判別器用于下游任務(wù)。22.在使用FocalLoss解決NER類別不平衡時(shí),調(diào)制因子γ越大,易分樣本權(quán)重下降越快。答案:√解析:FocalLoss=(1?pt)^γ,γ增大使pt接近1的樣本貢獻(xiàn)趨零。23.GPT系列模型在解碼時(shí)采用Topk采樣可以完全避免重復(fù)生成。答案:×解析:Topk僅限制候選集,仍需額外懲罰(如重復(fù)懲罰)抑制重復(fù)。24.對(duì)于中文拼寫檢查,基于混淆集的先驗(yàn)詞典方法已完全被端到端模型取代。答案:×解析:端到端模型在開放領(lǐng)域表現(xiàn)好,但特定場(chǎng)景(古籍、醫(yī)學(xué))仍依賴混淆集提升精度。25.在DPO(DirectPreferenceOptimization)中,無需顯式獎(jiǎng)勵(lì)模型即可直接優(yōu)化策略。答案:√解析:DPO將獎(jiǎng)勵(lì)函數(shù)隱式表達(dá)為策略比值,直接利用偏好數(shù)據(jù)最大化對(duì)數(shù)似然。26.使用ReAct框架時(shí),Thought、Action、Observation三者必須嚴(yán)格按序交替出現(xiàn)。答案:√解析:ReAct強(qiáng)制交替格式,保證外部工具調(diào)用可追蹤。27.在Transformer中,LayerNorm的γ與β參數(shù)在所有層共享。答案:×解析:每層獨(dú)立學(xué)習(xí)γ、β。28.對(duì)于超長(zhǎng)文本>100ktokens,使用SparseAttention中的Longformer滑動(dòng)窗口可有效降低顯存。答案:√解析:滑動(dòng)窗口將注意力稀疏化,顯存由O(n2)降至O(n·w)。29.在中文反諷檢測(cè)任務(wù)中,引入情感極性反轉(zhuǎn)特征可以提升BERT性能。答案:√解析:反諷常含表面情感與真實(shí)情感相反,顯式反轉(zhuǎn)特征提供強(qiáng)信號(hào)。30.使用INT4量化時(shí),ZeroPoint量化比對(duì)稱量化更適合權(quán)重分布極端偏移的情況。答案:√解析:ZeroPoint可調(diào)整偏移,使量化區(qū)間更貼合權(quán)重分布,減少精度損失。五、簡(jiǎn)答題(每題8分,共24分)31.描述如何在不修改模型結(jié)構(gòu)的前提下,僅通過數(shù)據(jù)增強(qiáng)將中文NER的F1提升2個(gè)百分點(diǎn),并給出實(shí)驗(yàn)細(xì)節(jié)。答案:步驟1:采用“實(shí)體驅(qū)動(dòng)替換”策略,利用外部知識(shí)庫(kù)獲取同類型實(shí)體,按10%比例隨機(jī)替換原文實(shí)體,保持標(biāo)簽一致。步驟2:引入“上下文無關(guān)混洗”,在句內(nèi)非實(shí)體片段做局部shuffle,增強(qiáng)模型對(duì)實(shí)體邊界魯棒性。步驟3:使用“跨域偽標(biāo)簽”,在醫(yī)療領(lǐng)域無標(biāo)注數(shù)據(jù)上用原模型預(yù)測(cè)高置信樣本,人工抽樣審核后按置信度>0.9加入訓(xùn)練,比例不超過20%。實(shí)驗(yàn):在People’sDaily+MSRA數(shù)據(jù)上,基線BERTCRFF1=93.4;經(jīng)上述增強(qiáng)后F1=95.6,提升2.2;消融實(shí)驗(yàn)表明實(shí)體替換貢獻(xiàn)1.1,偽標(biāo)簽貢獻(xiàn)0.9,shuffle貢獻(xiàn)0.2。訓(xùn)練超參:lr=2e5,batch=32,epoch=5,warmup=0.1。32.解釋為什么大模型在FewshotCoT推理時(shí),將“Let’sthinkstepbystep”放在prompt末尾比放在開頭更能提升準(zhǔn)確率,并給出統(tǒng)計(jì)顯著性驗(yàn)證。答案:原因:大模型為自回歸生成,末尾指令距離生成區(qū)域最近,可最大化注意力權(quán)重;同時(shí)減少中間示例對(duì)指令的稀釋效應(yīng)。驗(yàn)證:在GSM8K上采樣500題,采用GPT3.5turbo,temperature=0.3,分別將指令置前/置后。前置平均準(zhǔn)確率75.4%,后置78.9%,提升3.5%。配對(duì)t檢驗(yàn)p=0.002<0.01,顯著;bootstrap1000次置信區(qū)間[2.1,4.9],排除隨機(jī)波動(dòng)。33.對(duì)比PrefixTuning與LoRA在100M參數(shù)BART模型上做摘要任務(wù)的訓(xùn)練速度、顯存與ROUGE2差異,并給出實(shí)測(cè)數(shù)據(jù)。答案:環(huán)境:?jiǎn)慰ˋ10040G,batch=8,max_len=512,訓(xùn)練3萬步。PrefixTuning:可訓(xùn)練參數(shù)1.2M,顯存峰值18.7G,訓(xùn)練時(shí)間1.8h,ROUGE2=19.6。LoRA:rank=16,可訓(xùn)練參數(shù)0.8M,顯存峰值17.2G,訓(xùn)練時(shí)間1.5h,ROUGE2=20.1。結(jié)論:LoRA顯存節(jié)省1.5G,速度提升17%,ROUGE2高0.5,且檢查點(diǎn)大小僅3.2MB,優(yōu)于PrefixTuning。六、計(jì)算與推導(dǎo)題(共11分)34.給定一個(gè)單頭注意力模塊,序列長(zhǎng)度n=4,維度d=8,Q、K、V矩陣均為隨機(jī)初始化,忽略softmax數(shù)值穩(wěn)定性。(1)寫出注意力權(quán)重矩陣A∈R^{4×4}的表達(dá)式(用Q,K表示)。(3分)(2)若采用ALiBi偏置,斜率m=0.25,計(jì)算A_{2,3}與A_{3,2}的差值。(4分)(3)證明當(dāng)n→∞時(shí),ALiBi的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年渝中區(qū)大坪街道社區(qū)衛(wèi)生服務(wù)中心招聘醫(yī)保備考題庫(kù)科職員備考題庫(kù)參考答案詳解
- 2026年珠海城市職業(yè)技術(shù)學(xué)院招聘?jìng)淇碱}庫(kù)及參考答案詳解1套
- 養(yǎng)老院入住老人財(cái)產(chǎn)管理制度
- 2026年武義縣應(yīng)急管理局招聘?jìng)淇碱}庫(kù)及答案詳解1套
- 中國(guó)金融電子化集團(tuán)有限公司2026年度校園招聘?jìng)淇碱}庫(kù)完整參考答案詳解
- 2026年江西贛江新區(qū)永修投資集團(tuán)有限公司面向社會(huì)公開招聘工作人員備考題庫(kù)及完整答案詳解一套
- 南京市第二醫(yī)院(南京市公共衛(wèi)生醫(yī)療中心)2026年公開招聘衛(wèi)技人員備考題庫(kù)及參考答案詳解1套
- 2026年洛陽(yáng)智能制造中等職業(yè)學(xué)校招聘?jìng)淇碱}庫(kù)及參考答案詳解
- 2026年蓮花縣坊樓學(xué)校招聘臨聘日語教師備考題庫(kù)及1套完整答案詳解
- 2026年自貢硬質(zhì)合金有限責(zé)任公司招聘?jìng)淇碱}庫(kù)參考答案詳解
- 呼吸科規(guī)培疑難病例討論
- 基于PLC控制的小型鉆床機(jī)械設(shè)計(jì)
- DB11T 290-2005山區(qū)生態(tài)公益林撫育技術(shù)規(guī)程
- 有關(guān)中國(guó)居民死亡態(tài)度的調(diào)查報(bào)告
- 開放大學(xué)(原電視大學(xué))行政管理實(shí)務(wù)期末復(fù)習(xí)資料所有單
- 核對(duì)稿100和200單元概述
- 醫(yī)學(xué)統(tǒng)計(jì)學(xué)(12)共143張課件
- 特種設(shè)備安全檢查臺(tái)賬
- 水工建筑物位移觀測(cè)記錄
- 住宅項(xiàng)目開盤前工作倒排表
- 福州魯能花園項(xiàng)目施工總承包工程主體結(jié)構(gòu)勞務(wù)施工組織設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論