2025自然語言處理工程師校招題庫(kù)及答案_第1頁
2025自然語言處理工程師校招題庫(kù)及答案_第2頁
2025自然語言處理工程師校招題庫(kù)及答案_第3頁
2025自然語言處理工程師校招題庫(kù)及答案_第4頁
2025自然語言處理工程師校招題庫(kù)及答案_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025自然語言處理工程師校招題庫(kù)及答案一、語言模型與文本生成1.(單選)在GPT3175B參數(shù)模型中,若采用bfloat16精度,僅存儲(chǔ)參數(shù)就需要約多少GB顯存?A.175GB?B.350GB?C.700GB?D.1400GB答案:B解析:bfloat16占2字節(jié),175×10^9×2Byte≈350GB。2.(單選)下列哪種解碼方法在相同溫度下最可能產(chǎn)生“重復(fù)片段”?A.topk=50?B.topp=0.9?C.greedy?D.typical=0.95答案:C解析:greedy每步選最高概率token,易落入局部循環(huán)。3.(填空)Transformer解碼器在訓(xùn)練階段使用______掩碼,防止位置i的表示看到位置>i的信息。答案:因果(causal)或下三角(lowertriangular)4.(簡(jiǎn)答)描述“對(duì)比搜索”(ContrastiveSearch)的核心思想并給出其打分函數(shù)。答案:對(duì)比搜索在每一步選擇既具有較高條件概率又與已生成內(nèi)容語義差異大的token,打分函數(shù):score(v)=α·logp(v|x_<t)?(1?α)·max_{x_j∈x_<t}sim(h_v,h_{x_j})其中α∈[0,1]平衡概率與相似度,sim為余弦相似度。5.(計(jì)算)給定上下文“北京故宮”,模型輸出詞表{“的”:0.3,“是”:0.2,“建筑”:0.15,…},若topk=2,溫度τ=0.5,求采樣到“建筑”的概率。答案:先對(duì)topk=2重新歸一化:“的”0.3,“是”0.2,歸一化后0.6,0.4;溫度縮放后exp(log0.6/0.5)=0.36,exp(log0.4/0.5)=0.16,再歸一化得0.692,0.308;“建筑”不在topk,概率=0。6.(編程)用PyTorch實(shí)現(xiàn)一個(gè)帶重復(fù)懲罰(penalty=1.2)的貪心生成函數(shù),輸入為已編碼上下文input_ids,模型,最大長(zhǎng)度max_len。答案:```pythondefgenerate_with_repeat_penalty(model,input_ids,max_len,penalty=1.2):for_inrange(max_len):logits=model(input_ids).logits[:,1,:]fortoken_idinset(input_ids[0].tolist()):logits[0,token_id]/=penaltynext_id=logits.argmax(dim=1,keepdim=True)input_ids=torch.cat([input_ids,next_id],dim=1)returninput_ids```7.(多選)關(guān)于BeamSearch,以下說法正確的是:A.beam寬度越大,BLEU一定越高?B.可通過長(zhǎng)度歸一化緩解短句偏好?C.每個(gè)時(shí)間步保留beam_width條路徑?D.需要維護(hù)一個(gè)大小為beam_width的優(yōu)先隊(duì)列答案:BCD8.(判斷)在Transformer中,共享輸入與輸出嵌入矩陣會(huì)顯著降低模型容量,因此GPT系列均未采用共享。答案:錯(cuò)誤,GPT1/2/3均共享。9.(綜合)給定一個(gè)4層GPT模型,隱維度768,詞匯量50257,計(jì)算總參數(shù)量(不含bias)。答案:嵌入:50257×768×2(輸入+輸出共享算一次)Transformer層:4×(768×768×4+768×4×768+768×2×4)=4×(2.36M+2.36M+6.1k)≈18.9M總參數(shù)量≈50257×768+18.9M≈56.6M。10.(開放)如何在不增加參數(shù)的前提下,把12層BERT壓縮為6層并保持90%下游精度?請(qǐng)給出兩種方法并比較。答案:1.層蒸餾(LayerwiseDistillation):每?jī)蓪舆x一層作為教師,使用隱狀態(tài)與注意力分布蒸餾;2.動(dòng)態(tài)分層丟棄(LayerDrop):訓(xùn)練時(shí)隨機(jī)丟棄一半層,推理時(shí)固定保留6層,再微調(diào)。實(shí)驗(yàn)顯示方法1在NER上保留92%F1,方法1+2聯(lián)合可達(dá)94%,但訓(xùn)練成本翻倍。二、預(yù)訓(xùn)練與微調(diào)策略11.(單選)在RoBERTa中,移除了“下一句預(yù)測(cè)”任務(wù),主要因?yàn)椋篈.降低顯存?B.提升MLM難度?C.對(duì)下游任務(wù)無益?D.加速收斂答案:C12.(填空)ELECTRA的生成器與判別器參數(shù)量比例通常設(shè)為______。答案:1:413.(簡(jiǎn)答)解釋“梯度離散”(GradientDiscretization)現(xiàn)象,并給出其在量化微調(diào)中的影響。答案:當(dāng)權(quán)重被量化為低比特時(shí),梯度需經(jīng)STE(StraightThroughEstimator)回傳,導(dǎo)致梯度與真實(shí)導(dǎo)數(shù)不匹配,稱為梯度離散;它使模型陷入尖銳極小值,微調(diào)階段需降低學(xué)習(xí)率并用更平滑的優(yōu)化器(如AdamW+warmup)。14.(計(jì)算)假設(shè)用LoRA把a(bǔ)ttentionqkv投影從768→768分解為r=16的低秩矩陣,計(jì)算節(jié)省的參數(shù)量。答案:原參數(shù)量3×768×768=1.77M;LoRA為3×(768×16+16×768)=73.7k,節(jié)省≈95.8%。15.(多選)以下屬于“參數(shù)高效微調(diào)”方法的是:A.AdaLoRA?B.BitFit?C.PromptTuning?D.RecAdam答案:ABC16.(編程)實(shí)現(xiàn)AdaLoRA的秩自適應(yīng)更新偽代碼,要求含重要性評(píng)分sij。答案:```pythonfor(i,j)inactive_params:sij=|grad_ijW_ij|ifsij<tauandrank_ij>1:rank_ij=1merge_to_low_rank(W,i,j)```17.(判斷)在T5中,所有下游任務(wù)均被轉(zhuǎn)換為“TexttoText”形式,因此無需額外添加分類頭。答案:正確18.(綜合)給定8張A10080GB,欲全參數(shù)微調(diào)176BBLOOM,ZeRO3+bf16,估算最少需要多少?gòu)埧ǎ看鸢福簠?shù)350GB,梯度350GB,優(yōu)化器狀態(tài)(Adam)700GB,共1.4TB;單卡80GB,需1.4TB/80GB≈18,考慮激活與并行開銷,最少需20張。19.(開放)如何僅用1%標(biāo)注數(shù)據(jù)在中文NER任務(wù)上超越全量微調(diào)BERT?給出完整方案。答案:1.領(lǐng)域自適應(yīng)預(yù)訓(xùn)練:用未標(biāo)注領(lǐng)域語料繼續(xù)MLM100k步;2.自訓(xùn)練:用高置信偽標(biāo)簽迭代3輪;3.對(duì)比學(xué)習(xí):在標(biāo)注數(shù)據(jù)上構(gòu)建正例對(duì)(同實(shí)體邊界),負(fù)例對(duì)(誤標(biāo)邊界),batch內(nèi)對(duì)比損失;4.最終微調(diào):聯(lián)合MLM+CRF,學(xué)習(xí)率2e5,早停。實(shí)驗(yàn)顯示F1提升4.3%,超越全量微調(diào)。三、信息抽取與實(shí)體鏈接20.(單選)在CasRel框架中,主語抽取與關(guān)系抽取的級(jí)聯(lián)方式屬于:A.管道模型?B.聯(lián)合模型?C.端到端?D.多任務(wù)答案:C21.(填空)BERT+CRF中,CRF層轉(zhuǎn)移矩陣維度為______。答案:label_size×label_size22.(簡(jiǎn)答)解釋“候選實(shí)體生成”階段常用“先召回后排序”策略,并給出兩種召回方法。答案:先召回:用別名表+ES倒排得到topk候選;再排序:用BERT實(shí)體編碼與上下文做余弦相似度精排。召回方法:1.字符ngram倒排;2.音形碼(Soundex)模糊匹配。23.(計(jì)算)給定句子“喬丹退役了”,候選實(shí)體{“邁克爾·喬丹”:Q41421,“約旦國(guó)家”:Q810},若實(shí)體先驗(yàn)0.8,0.2,上下文相似度0.9,0.3,求線性加權(quán)得分(α=0.6)。答案:score1=0.6×0.9+0.4×0.8=0.86score2=0.6×0.3+0.4×0.2=0.2624.(多選)以下屬于“嵌套NER”解決方案的是:A.LayerwiseBiaffine?B.CascadeCRF?C.Spanbased?D.Seq2Seq答案:ABCD25.(編程)用spaCy實(shí)現(xiàn)一個(gè)自定義組件,將“周杰倫”鏈接到維基百科實(shí)體Q4534,并給出代碼。答案:```pythonimportspacyfromspacy.kbimportKnowledgeBasenlp=spacy.blank("zh")kb=KnowledgeBase(vocab=nlp.vocab,entity_vector_length=1)kb.add_entity(entity_id="Q4534",freq=3421,entity_vector=[1])kb.add_alias("周杰倫",["Q4534"],[0.99])entity_linker=nlp.add_pipe("entity_linker")entity_linker.set_kb(lambda:kb)doc=nlp("周杰倫唱歌")forentindoc.ents:print(ent,ent.kb_id_)```26.(判斷)在DyGIE++中,實(shí)體、關(guān)系、事件三元組共用同一個(gè)跨度表示,因此必須采用統(tǒng)一標(biāo)注體系。答案:正確27.(綜合)設(shè)計(jì)一個(gè)“多模態(tài)實(shí)體鏈接”任務(wù),輸入為文本+商品圖,輸出淘寶商品ID,請(qǐng)給出模型架構(gòu)與損失函數(shù)。答案:雙塔:文本塔BERT,圖像塔ResNet50→avgpool,融合塔Crossattention;損失:batch內(nèi)InfoNCE+難例挖掘,溫度τ=0.05。28.(開放)如何在不使用遠(yuǎn)程監(jiān)督的情況下,構(gòu)建中文醫(yī)療關(guān)系抽取數(shù)據(jù)集?給出三步法。答案:1.專家制定schema(疾病癥狀治療);2.用主動(dòng)學(xué)習(xí):模型初標(biāo)+人工糾偏5輪;3.眾包交叉驗(yàn)證,Krippendorffα>0.8入庫(kù),最終獲1.2萬句,F(xiàn)1提升6.7%。四、模型壓縮與邊緣部署29.(單選)將FP32BERTbase剪枝至70%稀疏且無損,最佳粒度是:A.向量級(jí)?B.通道級(jí)?C.層級(jí)?D.細(xì)粒度權(quán)重答案:B30.(填空)KnowledgeDistillation中,溫度T→∞時(shí),softmax分布趨近于______分布。答案:均勻31.(簡(jiǎn)答)解釋“動(dòng)態(tài)量化”與“靜態(tài)量化”在推理階段的差異。答案:動(dòng)態(tài)量化在運(yùn)行時(shí)統(tǒng)計(jì)激活范圍,無需校準(zhǔn);靜態(tài)量化需提前用校準(zhǔn)集統(tǒng)計(jì),推理時(shí)直接查表,延遲更低。32.(計(jì)算)給定矩陣W∈?^{512×768},用INT8量化,零點(diǎn)z=3,縮放s=0.02,求W[0,0]=6.08的量化值。答案:q=round(6.08/0.02)+3=30733.(多選)以下能用于“移動(dòng)端GPU加速”的框架是:A.TensorRT?B.MNN?C.CoreML?D.ONNXRuntimeMobile答案:BCD34.(編程)用torch.fx實(shí)現(xiàn)一個(gè)把BERT中所有線性層替換為INT8線性層的轉(zhuǎn)換函數(shù)。答案:```pythonfromtorch.ao.quantizationimportQuantStub,DeQuantStubdefreplace_linear(gm):forninlist(gm.graph.nodes):ifn.op=="call_module"andisinstance(gm.get_submodule(n.target),torch.nn.Linear):withgm.graph.inserting_after(n):new_layer=torch.nn.quantized.dynamic.Linear(gm.get_submodule(n.target).in_features,gm.get_submodule(n.target).out_features)gm.add_submodule(n.target,new_layer)gm.recompile()returngm```35.(判斷)在8bit量化中,采用逐token量化(pertoken)通常比逐通道量化(perchannel)對(duì)梯度更魯棒。答案:正確36.(綜合)給定一款手機(jī)NPU算力為4TOPS,峰值功耗2W,若INT8BERTbase每次推理需1.2GOPS,求理論最大QPS。答案:4000/1.2≈3333QPS,考慮利用率30%,實(shí)際≈1000QPS。37.(開放)如何在僅200MB內(nèi)存的IoT設(shè)備上運(yùn)行中文GPT2117M?給出三步方案。答案:1.塊級(jí)動(dòng)態(tài)召回:磁盤存權(quán)重,按需加載當(dāng)前層;2.8bit量化+權(quán)重共享:把embedding與輸出層共享;3.預(yù)測(cè)緩存:用SLRU緩存最近10步隱藏態(tài),DRAM占用<180MB,速度降18%。五、多模態(tài)與前沿探索38.(單選)CLIP中圖像與文本的嵌入維度為:A.256?B.512?C.768?D.1024答案:B39.(填空)BLIP2中凍結(jié)視覺編碼器,僅訓(xùn)練______模塊,實(shí)現(xiàn)高效對(duì)齊。答案:QFormer40.(簡(jiǎn)答)解釋“指令跟隨”在多模態(tài)大模型中的挑戰(zhàn),并給出緩解方案。答案:挑戰(zhàn):圖文粒度不一致,指令歧義;方案:用InstructionawareAttention,在crossattention加入指令嵌入,訓(xùn)練時(shí)隨機(jī)drop圖文對(duì)提升魯棒。41.(計(jì)算)若ViTB/16輸入224×224,patch_size=16,則序列長(zhǎng)度=______。答案:(224/16)^2+1=19742.(多選)以下屬于“視頻文本預(yù)訓(xùn)練”損失的是:A.VTC?B.VTM?C.MLM?D.VMA答案:ABC43.(編程)用HuggingFace實(shí)現(xiàn)一個(gè)將圖片+問題“圖中貓的顏色?”輸入BLIP2并返回答案的完整腳本。答案:```pythonfromtransformersimportBlip2Processor,Blip2ForConditionalGenerationimporttorch,requestsfromPILimportImageprocessor=Blip2Processor.from_pretrained("Salesforce/blip2flant5xl")model=Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2flant5xl",torch_dtype=torch.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論