版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《深度學(xué)習(xí)理論》期末考試試卷附答案注意事項(xiàng):本試卷滿分100分,考試時(shí)間120分鐘;請(qǐng)將答案寫(xiě)在答題紙上,保持字跡工整。一、單項(xiàng)選擇題(每題2分,共20分)1.以下激活函數(shù)中,在輸入值較大或較小時(shí)梯度趨近于0的是()。A.ReLU(修正線性單元)B.LeakyReLU(帶泄漏的修正線性單元)C.sigmoid(邏輯函數(shù))D.GELU(高斯誤差線性單元)2.交叉熵?fù)p失函數(shù)(Cross-EntropyLoss)通常用于以下哪種任務(wù)?()A.回歸預(yù)測(cè)(如房?jī)r(jià)預(yù)測(cè))B.多分類任務(wù)(如圖像分類)C.無(wú)監(jiān)督聚類(如K-means)D.生成任務(wù)(如GAN生成圖像)3.梯度消失(VanishingGradient)現(xiàn)象主要發(fā)生在以下哪種場(chǎng)景?()A.使用ReLU激活函數(shù)的淺層網(wǎng)絡(luò)B.使用sigmoid激活函數(shù)的深層網(wǎng)絡(luò)C.使用Adam優(yōu)化器的小批量訓(xùn)練D.使用Dropout正則化的模型推理階段4.BatchNormalization(批量歸一化)的核心作用是()。A.加速模型收斂,緩解內(nèi)部協(xié)變量偏移(InternalCovariateShift)B.減少過(guò)擬合,提高模型泛化能力C.增加模型非線性,提升表達(dá)能力D.降低計(jì)算復(fù)雜度,減少內(nèi)存占用5.以下優(yōu)化算法中,同時(shí)結(jié)合了動(dòng)量(Momentum)和自適應(yīng)學(xué)習(xí)率(AdaptiveLearningRate)的是()。A.SGD(隨機(jī)梯度下降)B.RMSprop(均方根傳播)C.Adam(自適應(yīng)矩估計(jì))D.Adagrad(自適應(yīng)梯度算法)6.LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))中,遺忘門(ForgetGate)的主要功能是()。A.控制當(dāng)前輸入信息的保留比例B.決定是否將候選記憶(CandidateMemory)寫(xiě)入細(xì)胞狀態(tài)(CellState)C.調(diào)節(jié)細(xì)胞狀態(tài)中舊信息的遺忘程度D.生成當(dāng)前時(shí)間步的輸出信息7.卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,感受野(ReceptiveField)指的是()。A.卷積核的大?。ㄈ?×3)B.特征圖中一個(gè)像素對(duì)應(yīng)原始輸入圖像的區(qū)域C.池化操作的步長(zhǎng)(Stride)D.全連接層的神經(jīng)元數(shù)量8.自注意力機(jī)制(Self-Attention)在Transformer模型中的核心優(yōu)勢(shì)是()。A.降低計(jì)算復(fù)雜度,優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)B.顯式捕捉序列中任意位置的依賴關(guān)系C.減少參數(shù)數(shù)量,提升模型泛化能力D.支持并行計(jì)算,加速訓(xùn)練過(guò)程9.以下正則化方法中,通過(guò)隨機(jī)刪除部分神經(jīng)元來(lái)防止過(guò)擬合的是()。A.L1正則化(L1Regularization)B.L2正則化(L2Regularization)C.DropoutD.數(shù)據(jù)增強(qiáng)(DataAugmentation)10.遷移學(xué)習(xí)(TransferLearning)中,“微調(diào)”(Fine-tuning)策略的關(guān)鍵步驟是()。A.直接使用預(yù)訓(xùn)練模型的輸出層,不修改任何參數(shù)B.凍結(jié)預(yù)訓(xùn)練模型的底層特征提取層,僅訓(xùn)練頂層分類層C.隨機(jī)初始化所有參數(shù),重新訓(xùn)練整個(gè)模型D.解凍部分底層參數(shù),與頂層參數(shù)共同訓(xùn)練二、填空題(每題2分,共20分)1.反向傳播(Backpropagation)算法的核心是利用__________法則,從輸出層向輸入層逐層計(jì)算損失函數(shù)對(duì)各參數(shù)的梯度。2.Transformer模型中,自注意力機(jī)制的計(jì)算表達(dá)式為:Attention(Q,K,V)=__________,其中Q、K、V分別為查詢、鍵、值矩陣,d_k為鍵的維度。3.過(guò)擬合(Overfitting)的典型表現(xiàn)是模型在__________集上的準(zhǔn)確率遠(yuǎn)高于__________集。4.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的梯度消失問(wèn)題本質(zhì)是由于__________在反向傳播時(shí)多次連乘導(dǎo)致梯度趨近于0。5.損失函數(shù)(LossFunction)用于衡量模型預(yù)測(cè)值與真實(shí)值的差異,回歸任務(wù)常用__________損失,分類任務(wù)常用__________損失。6.卷積操作的參數(shù)共享(ParameterSharing)特性使得CNN能夠__________(填“平移不變性”或“旋轉(zhuǎn)不變性”),即對(duì)輸入圖像的平移變化具有魯棒性。7.Adam優(yōu)化器通過(guò)維護(hù)梯度的__________(一階矩)和__________(二階矩)來(lái)動(dòng)態(tài)調(diào)整學(xué)習(xí)率。8.LSTM的細(xì)胞狀態(tài)(CellState)通過(guò)__________門、__________門和輸出門(OutputGate)實(shí)現(xiàn)長(zhǎng)時(shí)依賴信息的傳遞。9.深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),若學(xué)習(xí)率設(shè)置過(guò)大,可能導(dǎo)致__________(填“梯度消失”或“參數(shù)震蕩不收斂”);若學(xué)習(xí)率過(guò)小,可能導(dǎo)致__________(填“訓(xùn)練速度過(guò)慢”或“過(guò)擬合”)。10.生成對(duì)抗網(wǎng)絡(luò)(GAN)由__________和__________兩個(gè)部分組成,通過(guò)博弈過(guò)程學(xué)習(xí)數(shù)據(jù)分布。三、簡(jiǎn)答題(每題8分,共40分)1.比較全連接層(FullyConnectedLayer)與卷積層(ConvolutionalLayer)在參數(shù)數(shù)量和特征提取方式上的差異。2.解釋Dropout正則化的工作原理,并說(shuō)明其對(duì)模型訓(xùn)練和推理的影響。3.簡(jiǎn)述LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))如何解決傳統(tǒng)RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的長(zhǎng)依賴問(wèn)題。4.自注意力機(jī)制(Self-Attention)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在處理序列數(shù)據(jù)時(shí)的核心區(qū)別是什么?各自的優(yōu)缺點(diǎn)是什么?5.列舉三種緩解深度神經(jīng)網(wǎng)絡(luò)過(guò)擬合的方法,并分別說(shuō)明其原理。四、計(jì)算題(每題10分,共20分)1.輸入圖像尺寸為224×224×3(高度×寬度×通道數(shù)),經(jīng)過(guò)一個(gè)卷積層處理,該層參數(shù)為:卷積核大小3×3,步長(zhǎng)(Stride)1,填充(Padding)1,輸出通道數(shù)64。計(jì)算:(1)輸出特征圖的尺寸(高度×寬度×通道數(shù));(2)該卷積層的總參數(shù)量(包括偏置項(xiàng))。2.某全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為:輸入層(784個(gè)神經(jīng)元)→隱藏層(256個(gè)神經(jīng)元,使用ReLU激活)→輸出層(10個(gè)神經(jīng)元,使用Softmax激活)。假設(shè)隱藏層和輸出層均包含偏置項(xiàng),計(jì)算:(1)隱藏層的參數(shù)量(權(quán)重+偏置);(2)輸出層的參數(shù)量(權(quán)重+偏置);(3)若輸入一個(gè)樣本,計(jì)算隱藏層的前向傳播輸出(用數(shù)學(xué)表達(dá)式表示,假設(shè)輸入向量為x,權(quán)重矩陣為W1,偏置向量為b1)。深度學(xué)習(xí)理論期末考試答案一、單項(xiàng)選擇題(每題2分,共20分)1.C2.B3.B4.A5.C6.C7.B8.B9.C10.D二、填空題(每題2分,共20分)1.鏈?zhǔn)角髮?dǎo)2.softmax(QK?/√d_k)V3.訓(xùn)練;測(cè)試4.激活函數(shù)導(dǎo)數(shù)(或權(quán)重矩陣)5.均方(MSE);交叉熵(Cross-Entropy)6.平移不變性7.一階矩估計(jì)(均值);二階矩估計(jì)(方差)8.遺忘;輸入9.參數(shù)震蕩不收斂;訓(xùn)練速度過(guò)慢10.生成器(Generator);判別器(Discriminator)三、簡(jiǎn)答題(每題8分,共40分)1.差異分析:-參數(shù)數(shù)量:全連接層中每個(gè)輸出神經(jīng)元與所有輸入神經(jīng)元相連,參數(shù)數(shù)量為輸入維度×輸出維度+輸出維度(偏置);卷積層通過(guò)滑動(dòng)窗口和參數(shù)共享,每個(gè)卷積核的參數(shù)數(shù)量為(核高度×核寬度×輸入通道數(shù))×輸出通道數(shù)+輸出通道數(shù)(偏置),參數(shù)數(shù)量遠(yuǎn)小于全連接層。-特征提取方式:全連接層提取全局特征,無(wú)局部感知能力;卷積層通過(guò)局部感受野和滑動(dòng)窗口提取局部空間特征(如邊緣、紋理),并通過(guò)參數(shù)共享實(shí)現(xiàn)平移不變性。2.Dropout原理與影響:-工作原理:訓(xùn)練時(shí),以概率p隨機(jī)“失活”(置零)部分神經(jīng)元,剩余神經(jīng)元按1/(1-p)縮放輸出(或測(cè)試時(shí)縮放);測(cè)試時(shí)保留所有神經(jīng)元,不進(jìn)行失活。-影響:訓(xùn)練時(shí)強(qiáng)制神經(jīng)元學(xué)會(huì)與其他隨機(jī)子集合作,減少神經(jīng)元間的共適應(yīng)(Co-adaptation),增強(qiáng)模型泛化能力;推理時(shí)無(wú)隨機(jī)失活,避免預(yù)測(cè)結(jié)果的不確定性。3.LSTM解決長(zhǎng)依賴的機(jī)制:LSTM通過(guò)引入細(xì)胞狀態(tài)(CellState)和三個(gè)門控單元(遺忘門、輸入門、輸出門)解決長(zhǎng)依賴問(wèn)題:-遺忘門:控制細(xì)胞狀態(tài)中舊信息的遺忘程度(sigmoid輸出0-1,0表示完全遺忘);-輸入門:決定當(dāng)前輸入的候選記憶(tanh輸出)是否寫(xiě)入細(xì)胞狀態(tài);-細(xì)胞狀態(tài):通過(guò)逐時(shí)間步的線性傳遞(加法操作)保留長(zhǎng)時(shí)信息,避免RNN中乘法傳遞導(dǎo)致的梯度消失;-輸出門:根據(jù)細(xì)胞狀態(tài)生成當(dāng)前時(shí)間步的輸出。4.自注意力與RNN的核心區(qū)別及優(yōu)缺點(diǎn):-核心區(qū)別:RNN通過(guò)隱狀態(tài)逐時(shí)間步傳遞信息,依賴順序計(jì)算;自注意力直接計(jì)算序列中任意兩個(gè)位置的關(guān)聯(lián)權(quán)重,并行處理所有位置。-RNN優(yōu)點(diǎn):時(shí)間復(fù)雜度為O(n)(n為序列長(zhǎng)度),適合處理長(zhǎng)序列;缺點(diǎn):長(zhǎng)序列中梯度消失/爆炸,無(wú)法捕捉遠(yuǎn)距離依賴。-自注意力優(yōu)點(diǎn):顯式建模任意位置依賴,并行計(jì)算加速訓(xùn)練;缺點(diǎn):時(shí)間復(fù)雜度為O(n2),長(zhǎng)序列計(jì)算成本高。5.緩解過(guò)擬合的方法及原理:-數(shù)據(jù)增強(qiáng)(DataAugmentation):通過(guò)旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪等方式增加訓(xùn)練數(shù)據(jù)多樣性,擴(kuò)大數(shù)據(jù)分布,避免模型僅記憶訓(xùn)練樣本。-L2正則化:在損失函數(shù)中添加權(quán)重平方和的懲罰項(xiàng)(λ||W||2),迫使模型選擇更小的權(quán)重,降低模型復(fù)雜度。-早停(EarlyStopping):在驗(yàn)證集準(zhǔn)確率不再提升時(shí)提前終止訓(xùn)練,避免模型過(guò)度擬合訓(xùn)練數(shù)據(jù)的噪聲。四、計(jì)算題(每題10分,共20分)1.卷積層計(jì)算:(1)輸出特征圖尺寸:高度/寬度計(jì)算公式:(輸入尺寸-核尺寸+2×填充)/步長(zhǎng)+1代入數(shù)據(jù):(224-3+2×1)/1+1=224因此,輸出尺寸為224×224×64。(2)參數(shù)量計(jì)算:每個(gè)卷積核參數(shù):3(高度)×3(寬度)×3(輸入通道)=27總卷積核參數(shù):27×64(輸出通道)=1728偏置參數(shù):64(每個(gè)輸出通道一個(gè)偏置)總參數(shù)量:1728+64=1792。2.全連接層計(jì)算:(1)隱藏層參數(shù)量:權(quán)重參數(shù):784(輸入維度)×256(隱藏層維度)=200
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 災(zāi)后飲用水衛(wèi)生監(jiān)督制度
- 煙花廠衛(wèi)生管理制度
- 衛(wèi)生院門診治療管理制度
- 衛(wèi)生標(biāo)準(zhǔn)及管理制度
- 寧夏衛(wèi)生院醫(yī)保管理制度
- 衛(wèi)生院新冠院感制度
- 街道辦事處衛(wèi)生工作制度
- 豬肉店衛(wèi)生管理制度
- 基層醫(yī)院衛(wèi)生制度
- 健身房衛(wèi)生獎(jiǎng)罰制度
- 2025年住院醫(yī)師規(guī)范化培訓(xùn)考試(腎臟內(nèi)科)歷年參考題庫(kù)含答案詳解(5卷)
- 血液小學(xué)生課件
- 森林消防安全知識(shí)課件
- T-CRHA 089-2024 成人床旁心電監(jiān)測(cè)護(hù)理規(guī)程
- 燃?xì)夤艿廊毕菪迯?fù)技術(shù)-深度研究
- 刑事訴訟法學(xué)全套課件
- DBJ51-T 040-2021 四川省工程建設(shè)項(xiàng)目招標(biāo)代理操作規(guī)程
- 青鳥(niǎo)消防JBF62E-T1型測(cè)溫式電氣火災(zāi)監(jiān)控探測(cè)器使用說(shuō)明書(shū)
- 武漢市江岸區(qū)2022-2023學(xué)年七年級(jí)上學(xué)期期末地理試題【帶答案】
- 自動(dòng)駕駛系統(tǒng)關(guān)鍵技術(shù)
- 完整工資表模板(帶公式)
評(píng)論
0/150
提交評(píng)論