版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
深度強(qiáng)化學(xué)習(xí)理論基礎(chǔ)概述目錄TOC\o"1-3"\h\u22725深度強(qiáng)化學(xué)習(xí)理論基礎(chǔ)概述 1165741.1深度學(xué)習(xí)基礎(chǔ) 1318041.1.1全連接神經(jīng)網(wǎng)路 160051.1.2卷積神經(jīng)網(wǎng)絡(luò) 394371.1.3訓(xùn)練與優(yōu)化 6181401.2深度強(qiáng)化學(xué)習(xí)基礎(chǔ) 730511.1.1深度Q學(xué)習(xí)算法 9242021.1.2近端策略優(yōu)化算法 101.1深度學(xué)習(xí)基礎(chǔ)1.1.1全連接神經(jīng)網(wǎng)路全連接神經(jīng)網(wǎng)絡(luò)是一種前向人工神經(jīng)網(wǎng)絡(luò),又被稱為多層感知器(MLP),其將輸入數(shù)據(jù)通過(guò)非線性運(yùn)算映射到一組輸出結(jié)果。如圖2-1所示,主要由輸入層、隱藏層、輸出層三個(gè)部分組成,最左邊的輸入層接收輸入信息向量,中間的多個(gè)隱藏層對(duì)輸入進(jìn)行多層次的抽象,右邊輸出層輸出預(yù)測(cè)結(jié)果。每一層由多個(gè)神經(jīng)元組成,其中單個(gè)神經(jīng)元如圖2-2所示。每個(gè)神經(jīng)元通常都有多個(gè)輸入,每一個(gè)與其對(duì)應(yīng)的權(quán)重相乘然后將各自得到的結(jié)果相加,最后與偏置相加并通過(guò)激活函數(shù)得到神經(jīng)元的輸出,其公式化表示為: (2-1)這里表示其第個(gè)輸入對(duì)應(yīng)的權(quán)重,表示神經(jīng)元對(duì)應(yīng)的偏置,表示所用的激活函數(shù)。圖2-1全連接神經(jīng)網(wǎng)路如果不使用激活函數(shù),每層網(wǎng)絡(luò)的輸出都是其輸入的線性函數(shù),無(wú)論多少層的MLP均能夠看作是輸入的線性組合,任意多層的網(wǎng)絡(luò)也類(lèi)似于一個(gè)更復(fù)雜的單層網(wǎng)絡(luò)。因此,為了使神經(jīng)網(wǎng)絡(luò)有更好的表達(dá)能力,需要引入非線性激活函數(shù)。常用的激活函數(shù)包括S函數(shù)(Sigmoid)、\o"雙曲正切函數(shù)"雙曲正切函數(shù)(Tanh)、線性整流單元(ReLU)等,三者對(duì)應(yīng)曲線如下圖2-3所示:圖2-2神經(jīng)元基本結(jié)構(gòu)Sigmoid函數(shù)對(duì)應(yīng)公式為: (2-2)函數(shù)將輸出限制在0~1的范圍內(nèi),但是當(dāng)輸入的絕對(duì)值較大時(shí),其梯度非常小,導(dǎo)致參數(shù)更新緩慢,目前該函數(shù)一般只會(huì)被用在輸出層。Tanh函數(shù)對(duì)應(yīng)公式為: (2-3)函數(shù)的輸出取值范圍時(shí)-1~1,較S函數(shù)更大,并且輸出的均值為零,類(lèi)似對(duì)輸入產(chǎn)生了歸一化的效果。然而也存在當(dāng)輸入絕對(duì)值較大時(shí)梯度非常小從而使得參數(shù)更新緩慢的情況。ReLU函數(shù)對(duì)應(yīng)公式為: (2-4)該函數(shù)是目前應(yīng)用最為廣泛的激活函數(shù),不會(huì)將輸出限制在固定范圍,形式簡(jiǎn)單,計(jì)算遠(yuǎn)快于上述兩者,并較好的解決了上述兩者存在的梯度消失情況,此外,其單側(cè)抑制帶來(lái)的稀疏表達(dá)能力使網(wǎng)絡(luò)可以更好的挖掘相關(guān)特征。圖2-3常用激活函數(shù)曲線1.1.2卷積神經(jīng)網(wǎng)絡(luò)TC"1.1.2Theories"\l3卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是對(duì)某種形式的輸入應(yīng)用了卷積運(yùn)算的神經(jīng)網(wǎng)絡(luò),通常包含卷積層、池化層、全連接層,結(jié)構(gòu)如下圖2-4所示。卷積層一般由多個(gè)卷積核組成,卷積核在工作時(shí)按照由左至右、由上至下的規(guī)律滑過(guò)輸入數(shù)據(jù),在感受野內(nèi)對(duì)輸入做矩陣元素乘法并求和(卷積運(yùn)算)得到輸出特征,卷積層常常被用于空間數(shù)據(jù)的特征提取。感受野的概念來(lái)自上個(gè)世紀(jì)對(duì)視覺(jué)表皮細(xì)胞的研究[66]。在人工設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)中處理圖像之類(lèi)的高維空間數(shù)據(jù)時(shí),讓前一層的所有神經(jīng)元與當(dāng)前層每個(gè)神經(jīng)元全部相連是困難的,參數(shù)量會(huì)變的巨大以至難以訓(xùn)練,因此只能讓每個(gè)神經(jīng)元與上一層的一個(gè)局部區(qū)域相連(稀疏連接),這個(gè)局部的大小就是神經(jīng)元的感受野,也即卷積網(wǎng)絡(luò)中卷積核的大?。ǜ吆蛯挘?。圖2-4卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)單的二維卷積過(guò)程示例如圖2-5所示,5×5大小的輸入數(shù)據(jù)與一個(gè)3×3大小卷積核,在滑動(dòng)步長(zhǎng)為1,無(wú)填充情況下得到3×3特征輸出。一維卷積過(guò)程與二維類(lèi)似,示例如圖2-6所示。卷積核的通道數(shù)(深度)通常與輸入數(shù)據(jù)通道數(shù)保持一致,輸入數(shù)據(jù)的同一個(gè)通道內(nèi)全部區(qū)域共享一組卷積核權(quán)重(權(quán)值共享),在輸入有多個(gè)通道時(shí),需要卷積核各個(gè)通道分別與輸入的各個(gè)通道做卷積然后將結(jié)果加起來(lái)作為該卷積核的輸出。卷積層一般由多個(gè)卷積核組成,這里的多個(gè)也對(duì)應(yīng)了輸出特征的通道數(shù)。此外,輸出特征的大小取決于輸入數(shù)據(jù)尺寸,卷積核大小,滑動(dòng)步長(zhǎng),如何填充,在二維卷積中可公式化表示為: (2-5) (2-6)輸出結(jié)果向下取整,其中,、分別表示輸入數(shù)據(jù)的高度和寬度,表示填充(padding,主要為了調(diào)整輸出的大?。?表示卷積核的大小(高和寬一般取值相同),表示滑動(dòng)步長(zhǎng)。圖2-5二維卷積操作圖2-6一維卷積操作池化層的作用就是對(duì)輸入信息進(jìn)行特征選擇與過(guò)濾,用某區(qū)域的統(tǒng)計(jì)特征表示該區(qū)域從而在不丟失重要信息的情況下降低特征數(shù)據(jù)量,通常不含要訓(xùn)練參數(shù)。常用池化操作是最大池化和均值池化,前者取區(qū)域的最大值表示該區(qū)域,后者取區(qū)域的均值表示該區(qū)域,池化過(guò)程與卷積過(guò)程有類(lèi)似的步驟,示例如圖2-7所示。圖2-7典型的池化操作1.1.3訓(xùn)練與優(yōu)化TC"1.1.3Inception-V4Network"\l3神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程即不斷調(diào)整權(quán)重和偏置使其滿足我們的需求,這通常是通過(guò)反向傳播算法(backpropagation,BP)[67]與優(yōu)化方法結(jié)合實(shí)現(xiàn)的。BP算法包含正向傳播與反向傳播,上述兩節(jié)講述了輸入信息如何通過(guò)神經(jīng)網(wǎng)絡(luò)非線性映射到輸出,這通常稱為前向傳播;然后我們需要根據(jù)網(wǎng)絡(luò)的實(shí)際輸出與我們期待的輸出計(jì)算損失函數(shù)(其代表了在某個(gè)任務(wù)上網(wǎng)絡(luò)實(shí)際的輸出與我們期待的輸出有多少距離),并通過(guò)反向傳播計(jì)算各個(gè)其對(duì)各個(gè)神經(jīng)元參數(shù)的梯度。有了梯度之后我們可以通過(guò)如梯度下降之類(lèi)的優(yōu)化算法更新網(wǎng)絡(luò)參數(shù)使其輸出我們期待的結(jié)果。如果采用梯度下降的方法對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,每次迭代是針對(duì)全部數(shù)據(jù)集,參數(shù)更新的速度較低,當(dāng)數(shù)據(jù)集較大時(shí)這通常需要較多的計(jì)算資源。隨機(jī)梯度下降法每次只會(huì)利用一個(gè)樣本進(jìn)行更新,這種方式的缺點(diǎn)是沒(méi)用到向量化加速,并且梯度更新時(shí)容易出現(xiàn)波動(dòng)。小批量梯度下降方法每次采集合適的數(shù)據(jù)量進(jìn)行更新,用到向量化加速又可以實(shí)現(xiàn)快速更新。此外,還有一系列新提出的優(yōu)化方法可以使得梯度更新時(shí)波動(dòng)幅度減小、訓(xùn)練速度加快,例如Adam、Momentum、RMSprop等。在訓(xùn)練網(wǎng)絡(luò)時(shí)如果一直采用固定的學(xué)習(xí)率可能使得代價(jià)函數(shù)在最小值周?chē)▌?dòng),不能收斂到最優(yōu)位置,因此通常做法是采用學(xué)習(xí)率衰減,即訓(xùn)練期間中將其減小,如用指數(shù)衰減、離散下降等。1.2深度強(qiáng)化學(xué)習(xí)基礎(chǔ)TC"1.2RecurrentNeuralNetwork"\l2機(jī)器學(xué)習(xí)是計(jì)算機(jī)程序從經(jīng)驗(yàn)中學(xué)習(xí)以提高其在特定任務(wù)中的性能的過(guò)程[68]。通常包括監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)算法基于歸納推理,事先給訓(xùn)練數(shù)據(jù)做好標(biāo)簽類(lèi)別,模型在標(biāo)簽的指導(dǎo)下進(jìn)行學(xué)習(xí)分類(lèi)或回歸任務(wù)。無(wú)監(jiān)督學(xué)習(xí)將一系列未標(biāo)記數(shù)據(jù)中類(lèi)似的進(jìn)行分組聚類(lèi),尋找數(shù)據(jù)中隱含的結(jié)構(gòu)。相比之下,強(qiáng)化學(xué)習(xí)是一種介于監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)中間的方式,其中智能體在與環(huán)境的交互的過(guò)程中依靠反饋的獎(jiǎng)勵(lì)指導(dǎo)學(xué)習(xí)。這里智能體表示與環(huán)境進(jìn)行交互并學(xué)習(xí)的實(shí)體,環(huán)境表示除智能體外一切與之交互的事物[69]。具體的,強(qiáng)化學(xué)習(xí)問(wèn)題可以形式化建模為馬爾可夫決策過(guò)程(MDP),即元組,其中表示一組狀態(tài)集合,表示一組動(dòng)作集合,表示狀態(tài)轉(zhuǎn)移概率,表示獎(jiǎng)勵(lì)函數(shù),是折扣因子,決定智能體如何看待未來(lái)的獎(jiǎng)勵(lì),較大的鼓勵(lì)智能體看重長(zhǎng)期的獎(jiǎng)勵(lì),較小的鼓勵(lì)看重短期的獎(jiǎng)勵(lì)。其基本框架如圖2-1所示。圖2-8強(qiáng)化學(xué)習(xí)智能體與環(huán)境交互智能體首先根據(jù)當(dāng)前時(shí)刻的環(huán)境狀態(tài)選擇一個(gè)動(dòng)作,然后執(zhí)行該動(dòng)作與環(huán)境進(jìn)行交互,環(huán)境轉(zhuǎn)移到新的狀態(tài)并向智能體反饋一個(gè)即時(shí)獎(jiǎng)勵(lì),反復(fù)持續(xù)這個(gè)過(guò)程,并根據(jù)采集到的軌跡數(shù)據(jù)不斷學(xué)習(xí)。我們定義為時(shí)刻開(kāi)始軌跡上的折扣累積獎(jiǎng)勵(lì),T表示MDP的視野長(zhǎng)度,在無(wú)限視野問(wèn)題中為無(wú)窮大,有限視野問(wèn)題中通常為一個(gè)有限值,例如回合(episode)的時(shí)間步長(zhǎng)或者其他設(shè)定的長(zhǎng)度,一個(gè)回合指智能體與環(huán)境交互并達(dá)到終止?fàn)顟B(tài)或者達(dá)到設(shè)定的時(shí)間步長(zhǎng)的過(guò)程: (2-7)智能體的目標(biāo)是學(xué)習(xí)一個(gè)策略一種能夠最大化軌跡期望折扣累積獎(jiǎng)勵(lì)的策略。策略即根據(jù)狀態(tài)去選擇動(dòng)作,最優(yōu)策略是在環(huán)境中使上述獎(jiǎng)勵(lì)最大化的策略[70]。狀態(tài)處的狀態(tài)值函數(shù)定義為從開(kāi)始一直遵循策略時(shí)的期望折扣累積獎(jiǎng)勵(lì): (2-8) (2-9)相應(yīng)的,狀態(tài)處的狀態(tài)動(dòng)作值函數(shù)定義為從開(kāi)始執(zhí)行動(dòng)作,并一直遵循策略時(shí)的期望折扣累積獎(jiǎng)勵(lì): (2-10)在現(xiàn)實(shí)環(huán)境中,很少環(huán)境能將完整的狀態(tài)提供給智能體。部分可觀測(cè)的馬爾可夫決策過(guò)程(POMDP)通過(guò)明確承認(rèn)智能體接收到的只是底層系統(tǒng)狀態(tài)的一部分,可以更好地捕獲許多現(xiàn)實(shí)環(huán)境的動(dòng)態(tài)[21]。在形式上,元組能夠描述POMDP過(guò)程,這里與前述定義一致,表示一組觀測(cè)的集合,其中觀測(cè)是根據(jù)概率分布從潛在的系統(tǒng)狀態(tài)中生成的,此時(shí)智能體不在接收真實(shí)的環(huán)境狀態(tài),而是接收這里的觀測(cè)。強(qiáng)化學(xué)習(xí)中探索和利用是難以平衡的,為了最大化它所獲得的累計(jì)回報(bào),一方面,智能體會(huì)偏向于利用,選擇那些已知會(huì)導(dǎo)致高獎(jiǎng)勵(lì)的行為;另一方面,智能體也會(huì)主動(dòng)去探索一些當(dāng)前看來(lái)不是最優(yōu)的動(dòng)作,因?yàn)檫@可能會(huì)在未來(lái)帶來(lái)比當(dāng)前最優(yōu)動(dòng)作更高的長(zhǎng)期累計(jì)回報(bào)[71]。在強(qiáng)化學(xué)習(xí)中異策略(Offpolicy)是指行動(dòng)策略(產(chǎn)生數(shù)據(jù)的)與目標(biāo)策略(要更新和改進(jìn)的)不一致;其中行動(dòng)策略主要負(fù)責(zé)與環(huán)境交互收集數(shù)據(jù),目標(biāo)策略利用前者收集的數(shù)據(jù)不斷優(yōu)化自身策略性能。而在同策略(Onpolicy)中行動(dòng)和目標(biāo)策略為同一個(gè)策略。近年來(lái)深度強(qiáng)化學(xué)習(xí)算法發(fā)展迅速,誕生了一系列經(jīng)典算法包括基于值函數(shù)系列的深度Q網(wǎng)絡(luò)算法DQN及其改進(jìn)版分布式循環(huán)經(jīng)驗(yàn)重播算法R2D2,基于策略的異步優(yōu)勢(shì)演員評(píng)論家算法A3C、近端策略優(yōu)化算法PPO等。本文選擇最經(jīng)典的DQN算法和能夠在連續(xù)動(dòng)作空間中處理復(fù)雜強(qiáng)化學(xué)習(xí)任務(wù)的PPO算法重點(diǎn)講解。1.1.1深度Q學(xué)習(xí)算法TC"1.1.2Theories"\l3Deepmind科學(xué)家提出了著名的深度Q學(xué)習(xí)算法(DQN)[4][12],開(kāi)啟了深度強(qiáng)化學(xué)習(xí)的先河。算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2-9所示,整體思路是將傳統(tǒng)的Q學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合。圖2-9DQN網(wǎng)絡(luò)結(jié)構(gòu)Q學(xué)習(xí)算法是一種異策略時(shí)間差分方法。行動(dòng)策略一般是,其中,即每次以的概率隨機(jī)選擇動(dòng)作,以概率直接選擇能使Q值最大的動(dòng)作,當(dāng)取較大時(shí)策略偏向于探索,較小時(shí)偏向于利用;目標(biāo)策略是貪婪策略,即選擇能使Q值最大的動(dòng)作。如下式2-11所示,時(shí)間差分方法即用時(shí)間差分目標(biāo)來(lái)更新Q值,其結(jié)合了動(dòng)態(tài)規(guī)劃的自舉方法與蒙特卡洛的采樣方法的優(yōu)勢(shì),同時(shí)利用采樣和自舉進(jìn)行高效率學(xué)習(xí)。 (2-11)DQN的算法的成功只要取決于三個(gè)貢獻(xiàn)點(diǎn):第一,用一個(gè)深度神經(jīng)網(wǎng)絡(luò)從高維圖像輸入擬合Q值;第二,結(jié)合神經(jīng)科學(xué)理論知識(shí),利用經(jīng)驗(yàn)回放機(jī)制[72]打破歷史樣本數(shù)據(jù)之間的相關(guān)性,使得策略能夠收斂且穩(wěn)定;第三,設(shè)計(jì)單獨(dú)的定期更新的目標(biāo)網(wǎng)絡(luò)來(lái)降低訓(xùn)練過(guò)程中Q值與目標(biāo)值的相關(guān)性,進(jìn)一步穩(wěn)定策略的訓(xùn)練過(guò)程。1.1.2近端策略優(yōu)化算法TC"1.1.3LongShort-termMemory"\l3本文基于策略的方法通常直接將策略參數(shù)化表示為;通過(guò)在上執(zhí)行近似梯度上升的方法來(lái)更新參數(shù),在REINFORCE系列策略梯度強(qiáng)化學(xué)習(xí)算法中,目標(biāo)策略可表示為: (2-12)這里表示隨機(jī)策略,表示其參數(shù)。為了減小方差,通常需要將減去一個(gè)基線,常用做法是建立單獨(dú)的值函數(shù)網(wǎng)絡(luò)估計(jì)狀態(tài)值函數(shù)值,并將其作為的基線,類(lèi)似于Actor-critic結(jié)構(gòu),此時(shí)相當(dāng)于時(shí)刻優(yōu)勢(shì)函數(shù)的估計(jì)值: (2-13)上述優(yōu)勢(shì)函數(shù)的計(jì)算中用到了多步估計(jì),然而會(huì)帶來(lái)較大的方差,Schulman等人[28]提出一種能夠有效減小梯度方差的方法,廣義優(yōu)勢(shì)函數(shù)估計(jì)方法(GAE): (2-14)其中: (2-15)因此目標(biāo)策略變?yōu)椋? (2-16)如第一章所述,策略梯度算法最大的缺點(diǎn)在于更新步長(zhǎng)不好確定,基于此,Schulman等人在TRPO算法[26]中提出使用替代目標(biāo)函數(shù): (2-17)服從于: (2-18)TRPO通過(guò)滿足新舊策略允許的接近程度的特殊約束來(lái)采取對(duì)策略最大可能的更新,以獲得最大的性能改進(jìn)。約束是用kl散度表示的,kl散度可以作為對(duì)概率分布之間距離的度量。在對(duì)替代目標(biāo)函數(shù)進(jìn)行線性逼近和對(duì)上述約束進(jìn)行二次逼近后,利用共軛梯度算法可以有效地近似求解該問(wèn)題。然而,TRPO實(shí)現(xiàn)復(fù)雜,計(jì)算復(fù)雜性高,Schulman在之后提出一種更簡(jiǎn)潔以及通用性更好的PPO算法[27],其動(dòng)機(jī)和TRPO類(lèi)似,如何利用現(xiàn)有數(shù)據(jù)對(duì)策略執(zhí)行最大程度的更新而不導(dǎo)致意外的不收斂。其替代目標(biāo)函數(shù)可以表示為: (2-19) (2-20)其中是超參數(shù),表示我們?cè)试S的策略策略更新前后的差距。通過(guò)這種對(duì)概率比的裁剪以及取最小操作可以較好的限制策略更新的步長(zhǎng),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 手機(jī)店合同協(xié)議
- 煤礦復(fù)工合同范本
- 苗木保障協(xié)議書(shū)
- 苗木運(yùn)輸協(xié)議合同
- 蔬菜供需協(xié)議書(shū)
- 認(rèn)養(yǎng)子女協(xié)議書(shū)
- 認(rèn)購(gòu)更名協(xié)議書(shū)
- 設(shè)備合作協(xié)議書(shū)
- 設(shè)備競(jìng)買(mǎi)協(xié)議書(shū)
- 設(shè)施共享協(xié)議書(shū)
- 2025下半年貴州遵義市市直事業(yè)單位選調(diào)56人考試筆試參考題庫(kù)附答案解析
- 2025年淮北市相山區(qū)公開(kāi)招考村(社區(qū))后備干部66名筆試考試參考試題及答案解析
- 2025年貴州錦麟化工有限責(zé)任公司招聘?jìng)淇碱}庫(kù)及一套參考答案詳解
- 2025年石家莊市公安局鹿泉分局公開(kāi)招聘留置看護(hù)警務(wù)輔助人員30人的備考題庫(kù)有答案詳解
- 【數(shù) 學(xué)】2025-2026學(xué)年北師大版七年級(jí)數(shù)學(xué)上冊(cè)期末綜合提升卷III
- 車(chē)輛運(yùn)營(yíng)托管協(xié)議書(shū)
- 【MOOC】3D工程圖學(xué)-華中科技大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 人教版六年級(jí)上冊(cè)語(yǔ)文詞語(yǔ)專項(xiàng)練習(xí)題及答案
- 刑法學(xué)智慧樹(shù)知到答案2024年上海財(cái)經(jīng)大學(xué)
- 密碼學(xué)原理與實(shí)踐第三版答案
- 美國(guó)黃石國(guó)家公園地質(zhì)奇觀與野生動(dòng)物
評(píng)論
0/150
提交評(píng)論