版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025年自然語言處理技術(shù)培訓(xùn)模擬試題及答案一、單項選擇(每題2分,共20分)1.在Transformer架構(gòu)中,用于將輸入序列中任意兩個位置直接關(guān)聯(lián)的核心組件是A.卷積核B.自注意力機制C.池化層D.循環(huán)單元答案:B解析:自注意力通過QueryKeyValue計算實現(xiàn)任意位置間的直接交互,卷積與池化僅局部關(guān)聯(lián),循環(huán)單元需順序傳遞信息。2.當(dāng)使用BERTbase進行中文命名實體識別時,若標(biāo)簽體系采用BIO,則“北京市”一詞在分字后最多需要幾個標(biāo)簽?A.2B.3C.4D.5答案:C解析:“北/BLOC京/ILOC市/ILOC”共3字,需3標(biāo)簽;若考慮[CLS]、[SEP]特殊標(biāo)記,但標(biāo)簽僅針對實質(zhì)token,故仍為3。3.在訓(xùn)練GPT3時,OpenAI采用的主要分布式策略是A.數(shù)據(jù)并行+張量并行+流水線并行B.僅數(shù)據(jù)并行C.模型并行+梯度累積D.單機多卡NCCL答案:A解析:175B參數(shù)遠超單卡,需三維并行:數(shù)據(jù)并行切分batch,張量并行切分矩陣乘,流水線并行切分層。4.下列哪項技術(shù)最直接緩解Seq2Seq模型曝光偏差(exposurebias)?A.LabelSmoothingB.BeamSearchC.ScheduledSamplingD.GradientClipping答案:C解析:ScheduledSampling在訓(xùn)練時以一定概率將模型上一時刻預(yù)測作為下一時刻輸入,縮小訓(xùn)練與推斷差距。5.使用ALBERT替代BERT時,為保持層間參數(shù)共享,下列哪一層不參與共享?A.前饋網(wǎng)絡(luò)B.注意力矩陣C.LayerNorm參數(shù)D.詞嵌入矩陣答案:C解析:ALBERT僅共享Attention與FFN權(quán)重,LayerNorm的增益與偏置保持獨立,以穩(wěn)定各層分布。6.在中文文本糾錯任務(wù)中,將“因該”糾正為“應(yīng)該”屬于A.語法錯誤B.拼寫錯誤C.語義錯誤D.搭配錯誤答案:B解析:拼音相同或相近導(dǎo)致的形近/音近替換歸為拼寫(spelling)錯誤。7.若將RoBERTalarge用于句子對分類,最大序列長度設(shè)為256,batch=8,fp16精度,顯存占用最接近A.3GBB.6GBC.11GBD.22GB答案:C解析:RoBERTalarge355M參數(shù),激活值占主要,以字節(jié)/激活≈2Byte計,≈8×256×1024×24×2≈1.0GB,加上參數(shù)、梯度、優(yōu)化器狀態(tài),總約11GB。8.在FewRel2.0基準(zhǔn)中,評估模型在“新關(guān)系類”上性能的任務(wù)設(shè)定稱為A.有監(jiān)督學(xué)習(xí)B.遷移學(xué)習(xí)C.元學(xué)習(xí)/小樣本學(xué)習(xí)D.多任務(wù)學(xué)習(xí)答案:C解析:FewRel2.0官方提供5way1shot等NwayKshot設(shè)定,典型小樣本(metalearning)場景。9.使用BPE分詞時,若詞表已固定,下列哪種操作不會引入OOV?A.在句子中插入一個emojiB.將數(shù)字“2025”寫成“②0②5”C.全角轉(zhuǎn)半角D.將“COVID”寫成“COVID”答案:C答案:全半角映射屬于字符級歸一化,不改變子詞片段,故不會新增OOV。10.在T5模型中,用于區(qū)分不同下游任務(wù)的標(biāo)識符是A.[CLS]B.<extra_id_0>C.taskspecificprefixD.decoder_start_token答案:C解析:T5采用文本到文本統(tǒng)一框架,通過在輸入前添加“translateEnglishtoGerman:”等前綴區(qū)分任務(wù),無需額外分類符。二、多項選擇(每題3分,共15分;多選少選均不得分)11.下列哪些方法可直接提升Transformer長文本外推能力?A.LinearAttentionB.RotaryPositionEmbedding(RoPE)C.Performer隨機特征映射D.ReZero殘差初始化答案:A、B、C解析:RoPE通過旋轉(zhuǎn)矩陣保留相對位置信息,利于長度外推;LinearAttention與Performer降低O(n2)復(fù)雜度;ReZero僅加速收斂,不直接擴展長度。12.關(guān)于對比學(xué)習(xí)損失InfoNCE,以下說法正確的是A.溫度系數(shù)τ越小,對困難負例關(guān)注越高B.與交叉熵等價,當(dāng)負例數(shù)為1時C.可視為最大化正例互信息下界D.在SimCSE中,同一句子經(jīng)兩次dropout作為正例對答案:A、C、D解析:τ→0分布更尖銳,聚焦難例;負例為1時InfoNCE退化為二分類,但形式不等價交叉熵;SimCSE采用dropout作為最小數(shù)據(jù)增廣。13.在構(gòu)建中文醫(yī)療問答系統(tǒng)時,以下哪些資源屬于結(jié)構(gòu)化知識?A.SNOMEDCT中文子集B.百度百科網(wǎng)頁文本C.中國藥典XML版D.醫(yī)學(xué)教科書PDF答案:A、C解析:SNOMED與藥典XML具有預(yù)定義schema,屬結(jié)構(gòu)化;百科與教科書為自由文本。14.使用DeepSpeedZeRO3訓(xùn)練百億模型時,下列哪些組件被切分到所有GPU?A.優(yōu)化器狀態(tài)B.梯度C.模型參數(shù)D.激活檢查點答案:A、B、C解析:ZeRO3將參數(shù)、梯度、優(yōu)化器狀態(tài)均按層切分;激活檢查點仍按batch維度按需重建。15.在文本風(fēng)格遷移任務(wù)中,評估“內(nèi)容保留”可采用A.BLEUB.BERTScoreC.人工屬性準(zhǔn)確率D.困惑度PPL答案:A、B解析:BLEU/BERTScore衡量與原文ngram或語義相似度,反映內(nèi)容保留;屬性準(zhǔn)確率衡量風(fēng)格控制;PPL衡量流暢度。三、判斷題(每題1分,共10分;正確打“√”,錯誤打“×”)16.ELECTRA采用生成器判別器框架,其生成器與判別器共享相同詞匯表。答案:√解析:生成器與判別器均使用相同詞嵌入矩陣,確保token空間一致。17.在使用F1score評估序列標(biāo)注時,宏平均比微平均更易受稀有標(biāo)簽影響。答案:√解析:宏平均先計算各標(biāo)簽F1再平均,稀有標(biāo)簽權(quán)重與高頻相同,故波動更大。18.將ReLU替換為GELU一定會提升Transformer在GLUE上的平均分?jǐn)?shù)。答案:×解析:GELU在多數(shù)任務(wù)上略優(yōu),但非絕對,部分任務(wù)可能下降。19.對于中文預(yù)訓(xùn)練,全詞掩碼(WWM)性能一定優(yōu)于隨機子詞掩碼。答案:×解析:WWM在分詞準(zhǔn)確前提下有效,若分詞錯誤則掩碼邊界錯誤,反而損害性能。20.使用混合精度訓(xùn)練時,損失縮放(lossscaling)是為了防止梯度下溢。答案:√解析:fp16動態(tài)范圍小,乘以較大系數(shù)可避免梯度過小變0。21.在DPR(DensePassageRetrieval)中,問題編碼器與段落編碼器必須共享參數(shù)。答案:×解析:DPR使用雙塔結(jié)構(gòu),兩套編碼器參數(shù)獨立,僅最后點積交互。22.對于對話系統(tǒng),使用重復(fù)懲罰(repetitionpenalty)可降低“車轱轆話”現(xiàn)象。答案:√解析:對已生成token降低概率,有效抑制循環(huán)輸出。23.在LoRA微調(diào)中,秩r越大,可訓(xùn)練參數(shù)量越少。答案:×解析:秩r越大,低秩矩陣尺寸增大,參數(shù)量增加。24.使用對抗訓(xùn)練(FGM)時,擾動僅施加于詞嵌入層。答案:√解析:FGM在嵌入空間添加范數(shù)約束擾動,不影響上層參數(shù)。25.對于多語種模型,增加語種embedding比使用語種token更節(jié)省顯存。答案:×解析:語種embedding需額外維度,而token僅需增加一個離散符號,顯存占用更小。四、填空題(每空2分,共20分)26.在Transformer中,若隱藏維度d=1024,注意力頭數(shù)h=16,則每個頭的維度為________。答案:64解析:1024÷16=64。27.使用BPE訓(xùn)練詞表時,若語料出現(xiàn)“機器學(xué)機器學(xué)習(xí)學(xué)習(xí)”,合并頻次最高的字符對是________。答案:“機”+“器”解析:共現(xiàn)3次(機器學(xué)、機器、機器),其余組合最多2次。28.在SimCSE無監(jiān)督版本中,同一句子經(jīng)BERT編碼后,使用________作為正例對。答案:dropoutmask不同的兩次輸出解析:無需人工正例,靠模型內(nèi)部隨機dropout產(chǎn)生差異。29.若要將GPT的詞匯表從50257擴展到50357,嵌入層需新增________個浮點參數(shù)(維度768,fp32)。答案:76800解析:100×768×4字節(jié)=307200字節(jié),但題目僅問參數(shù)個數(shù),故100×768=76800。30.在Rdrop正則化中,兩次前向的KL散度損失系數(shù)通常設(shè)為________。答案:α=1或5(論文常用)解析:原論文給出α∈[1,5],填1即可得分。31.使用FAISSIndexFlatIP進行內(nèi)積檢索時,需提前將向量做________歸一化。答案:L2解析:InnerProduct等價于余弦相似度當(dāng)且僅當(dāng)向量已L2歸一化。32.在中文分詞任務(wù)中,使用CRF層的主要作用是建模________依賴。答案:標(biāo)簽轉(zhuǎn)移解析:CRF學(xué)習(xí)相鄰標(biāo)簽合法性,如BLOC后不能接IPER。33.若學(xué)習(xí)率調(diào)度為線性warmup10%步數(shù)后逆平方根衰減,則第1萬步(總10萬步)的lr與峰值lr之比為________。答案:0.316解析:逆平方根decay系數(shù)=(max_step/warmup_step)^(0.5)=10^(0.5)≈0.316。34.在PyTorch中,使用自動混合精度時,需將損失回傳包裹在________上下文管理器內(nèi)。答案:GradScaler().scale(loss)解析:scale后反向,避免梯度下溢。35.對于對話情感識別,使用SpeakerEmbedding區(qū)分說話人,其維度通常設(shè)為________(給出常見值即可)。答案:128解析:經(jīng)驗值128,兼顧表達力與參數(shù)量。五、簡答題(每題8分,共24分)36.描述Transformer解碼器中“自回歸掩碼”的實現(xiàn)方式及其數(shù)學(xué)表達,并說明為何訓(xùn)練階段可并行計算。答案:實現(xiàn):構(gòu)造上三角為?∞、下三角為0的注意力logits掩碼矩陣M,維度(n×n),M_ij=?∞當(dāng)i<j。數(shù)學(xué)表達:Softmax(QK^T/√d+M)V,其中M為因果掩碼。并行原因:訓(xùn)練時目標(biāo)序列整體已知,可通過一次前向同時計算所有位置輸出;推斷時僅逐步生成。掩碼確保位置i無法窺見未來token,保持自回歸特性。37.對比ELECTRA與BERT的預(yù)訓(xùn)練目標(biāo),分析ELECTRA在計算效率上的優(yōu)勢,并給出實驗結(jié)論。答案:BERT采用MLM,僅掩碼15%token,梯度稀疏;ELECTRA使用替換token檢測(RTD),所有輸入token均參與判別,信號更稠密。計算效率:同等FLOPs下,ELECTRA在GLUE平均得分高3–5個百分點;或在相同性能下,ELECTRA僅需1/4預(yù)訓(xùn)練步數(shù)。實驗結(jié)論:ELECTRAbase在GLUEdev上達到89.1,BERTbase為86.7,訓(xùn)練時間減半。38.解釋“梯度累積”與“微批次”的關(guān)系,并給出在顯存受限場景下,將全局batch=2048、微批次=16、GPU=8時的累積步數(shù)計算公式與結(jié)果。答案:關(guān)系:梯度累積將大batch拆成多個小微批次前向,梯度求平均后再更新,模擬大batch效果。公式:累積步數(shù)S=全局batch/(微批次×GPU)=2048/(16×8)=16。結(jié)果:每步在單卡上處理16樣本,累積16步后統(tǒng)一更新,等效batch=2048。六、計算與推導(dǎo)(共21分)39.(10分)給定注意力權(quán)重矩陣A(已softmax,n×n),值矩陣V(n×d),證明加權(quán)平均后輸出O的復(fù)雜度為O(n2d),并推導(dǎo)當(dāng)采用Linformer將維度投影至k時的新復(fù)雜度。答案:原復(fù)雜度:O=AV,矩陣乘(n×n)·(n×d)需n2d次乘加,故O(n2d)。Linformer:引入投影矩陣E、F(n×k),將A壓縮至(n×k)得?=AEF,再計算?(EV),復(fù)雜度O(nk·n+nk·d)=O(nk(n+d));當(dāng)k?n,降為線性。40.(11分)假設(shè)使用LoRA微調(diào)GPT2medium(345M),在注意力層(Q,V)插入低秩適配,秩r=16,隱藏維度d=1024,層數(shù)L=24,求可訓(xùn)練參數(shù)量,并對比全量微調(diào)節(jié)省比例。答案:每層Q、V各引入r×d+d×r=2rd=2×16×1024=32768參數(shù)。總層24,可訓(xùn)練=24×32768=786432。全量微調(diào)參數(shù)量≈345M,節(jié)省比例=1?0.786/345≈99.77%。七、綜合應(yīng)用(共40分)41.(20分)閱讀下列場景并作答:某企業(yè)需構(gòu)建“2025智能客服”系統(tǒng),要求:①支持粵語、四川方言語音輸入,實時轉(zhuǎn)文字;②識別用戶情緒(憤怒、焦慮、滿意);③針對“物流查詢”意圖,需結(jié)合外部API返回快遞軌跡;④回答生成需帶“安撫話術(shù)”風(fēng)格。請給出端到端技術(shù)方案,包括:a)語音前端與文本歸一化策略;b)情緒識別模型結(jié)構(gòu)及遷移學(xué)習(xí)方案;c)意圖與槽位聯(lián)合模型訓(xùn)練數(shù)據(jù)構(gòu)造;d)風(fēng)格化回復(fù)生成損失設(shè)計;e)線上推理時延≤600ms的優(yōu)化手段。答案:a)前端采用Wav2Vec2.0largeCN自監(jiān)督模型,微調(diào)粵語+川渝方言各50h數(shù)據(jù);文本歸一化用OpenCC完成繁簡轉(zhuǎn)換,音譯口語詞表“唔該→謝謝,咋子→怎么”。b)結(jié)構(gòu):凍結(jié)BERTbase前8層,后4層與雙向LSTM拼接,輸出情緒3分類;遷移:先在開源Weibo情感語料微調(diào),再用公司客服5萬標(biāo)注情緒樣本繼續(xù)訓(xùn)練,學(xué)習(xí)率3e5→1e6逐層遞減。c)數(shù)據(jù):從日志抽取100萬句,用規(guī)則+遠程監(jiān)督打意圖,物流類占18%;槽位采用BIO標(biāo)注“快遞單號、手機號、地址”,使用主動學(xué)習(xí),優(yōu)先標(biāo)注高置信錯誤樣本。d)生成:基于T5small,在標(biāo)準(zhǔn)回復(fù)后附加“安撫風(fēng)格”前綴“<安撫>”,訓(xùn)練時采用風(fēng)格判別器+風(fēng)格語言模型雙損失:L=L_NLL+λL_disc,λ=0.5;判別器為CNN二分類,確保生成文本被判定為“安撫”概率>0.8。e)時延優(yōu)化:①模型蒸餾至6層TinyBERT,參數(shù)量1/5;②使用ONN
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職護理(護理風(fēng)險管理)試題及答案
- 2025年中職交通運營管理(交通調(diào)度管理)試題及答案
- 2025年大學(xué)車輛工程(汽車制造企業(yè)生產(chǎn)管理)試題及答案
- 2025年大學(xué)大二(人力資源管理)員工關(guān)系綜合測試試題及答案
- 2025年高職建筑材料工程技術(shù)(新型建筑材料研發(fā))試題及答案
- 2026年重慶大學(xué)附屬江津醫(yī)院招聘備考題庫(中藥調(diào)劑崗)及完整答案詳解1套
- 娛樂直播介紹
- 攝影比賽教學(xué)介紹
- 2026年浙江安保管理員考試題庫含答案
- 2026年母嬰護理新生兒急救基礎(chǔ)技能考核題及解析
- 國家開放大學(xué)漢語言文學(xué)本科《古代小說戲曲專題》期末紙質(zhì)考試第四大題論述題庫2025春期版
- 環(huán)境衛(wèi)生學(xué)EnvironmentalHygiene10課件
- 橋架安裝承包合同
- 牛羊肉精深加工項目可行性研究報告
- 12D101-5 110KV及以下電纜敷設(shè)
- 直腸陰道瘺診療指南的更新
- DL-T5434-2021電力建設(shè)工程監(jiān)理規(guī)范
- FZT 43046-2017 錦綸彈力絲織物
- 居住權(quán)協(xié)議書
- 病案管理考核標(biāo)準(zhǔn)表格2022版
- 中國家庭金融調(diào)查報告
評論
0/150
提交評論