版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN115311538B(21)申請(qǐng)?zhí)?02210156851.X(22)申請(qǐng)日2022.02.21(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)申請(qǐng)公布號(hào)CN115311538A(43)申請(qǐng)公布日2022.11.08(73)專利權(quán)人上海應(yīng)用技術(shù)大學(xué)地址201418上海市奉賢區(qū)海泉路100號(hào)(72)發(fā)明人趙懷林陸升陽(yáng)梁蘭軍侯煊(74)專利代理機(jī)構(gòu)上海科盛知識(shí)產(chǎn)權(quán)代理有限公司31225專利代理師丁云(56)對(duì)比文件梁蘭軍.室內(nèi)場(chǎng)景下的機(jī)器人目標(biāo)搜索方法研究.《中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù)信息審查員黃沛GO6V20/00(2022.01)GO6V10/774(2022.01)(54)發(fā)明名稱法(57)摘要本發(fā)明涉及一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,用于機(jī)器人的目標(biāo)搜索,包括以下步驟:確認(rèn)目標(biāo)編碼信息和待搜索目標(biāo);通過(guò)機(jī)器人獲取待搜索場(chǎng)景的環(huán)境圖像,根據(jù)環(huán)境圖像構(gòu)建深度圖像矩陣、語(yǔ)義圖像矩陣;對(duì)提取對(duì)象關(guān)系特征向量;構(gòu)建空間語(yǔ)義融合矩陣;根據(jù)空間語(yǔ)義地圖融合矩陣獲取語(yǔ)義地圖特征向量;根據(jù)對(duì)象關(guān)系特征向量、語(yǔ)義地圖特征向量及目標(biāo)編碼信息生成融合特征向量;根據(jù)融合特征向量對(duì)價(jià)值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,完成訓(xùn)練后基于訓(xùn)練好的價(jià)值網(wǎng)絡(luò)進(jìn)行目標(biāo)搜索。與現(xiàn)有技視覺(jué)傳感器強(qiáng)化學(xué)習(xí)算法21.一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,其特征在于,用于機(jī)器人的目標(biāo)搜索,包括以下步驟:S1:確認(rèn)目標(biāo)編碼信息和待搜索目標(biāo);S2:通過(guò)機(jī)器人獲取待搜索場(chǎng)景的環(huán)境圖像,根據(jù)環(huán)境圖像構(gòu)建深度圖像矩陣、語(yǔ)義圖像矩陣;S3:對(duì)環(huán)境圖像進(jìn)行對(duì)象關(guān)系特征分析,識(shí)別環(huán)境中的物體并確認(rèn)與待搜索目標(biāo)關(guān)系可能性最大的物體,提取對(duì)象關(guān)系特征向量;S4:根據(jù)深度圖像矩陣、語(yǔ)義圖像矩陣獲取空間語(yǔ)義點(diǎn)云,并根據(jù)空間語(yǔ)義點(diǎn)云和環(huán)境中的物體信息構(gòu)建空間語(yǔ)義融合矩陣;S5:根據(jù)空間語(yǔ)義融合矩陣獲取語(yǔ)義地圖特征向量;S6:根據(jù)對(duì)象關(guān)系特征向量、語(yǔ)義地圖特征向量及目標(biāo)編碼信息生成融合特征向量;S7:構(gòu)建目標(biāo)搜索的價(jià)值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),根據(jù)融合特征向量對(duì)價(jià)值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,完成訓(xùn)練后基于訓(xùn)練好的價(jià)值網(wǎng)絡(luò)進(jìn)行目標(biāo)搜索;步驟S3具體包括:S31:獲取場(chǎng)景圖譜G={V,E},V為圖譜節(jié)點(diǎn),表示場(chǎng)景中不同的物體種類,E為圖譜邊,表示兩個(gè)類別物體間的位置關(guān)系,使用視覺(jué)基因組數(shù)據(jù)集作為來(lái)源,根據(jù)待搜索場(chǎng)景中出現(xiàn)的所有對(duì)象的類別構(gòu)建知識(shí)圖,將每一個(gè)類別都表示為圖中的一個(gè)節(jié)點(diǎn),在視覺(jué)基因組數(shù)據(jù)集中對(duì)象關(guān)系出現(xiàn)頻率大于3的兩個(gè)節(jié)點(diǎn)間使用邊來(lái)鏈接生成圖結(jié)構(gòu)并用二進(jìn)制鄰接S32:構(gòu)建圖卷積神經(jīng)網(wǎng)絡(luò),輸入為環(huán)境圖像的RGB圖像,輸出為空間關(guān)系特征,將空間關(guān)系特征映射到512維得到對(duì)象關(guān)系特征向量;步驟S4的具體步驟包括:S41:生成一個(gè)(C+2)*(224*224)的全0矩陣,該矩陣代表空間語(yǔ)義融合矩陣M,所述的空間語(yǔ)義融合矩陣含有C+2個(gè)圖層,其中224*224代表每一個(gè)圖層的尺寸;S42:考慮機(jī)器人的位置和姿態(tài)P(x,y+,zt,θ)生成空間點(diǎn)云;S43:所述的空間點(diǎn)云的尺寸為C*W*L*H,其中C為空間語(yǔ)義點(diǎn)云的通道,每一個(gè)通道都S44:在空間語(yǔ)義融合矩陣的C+1層記錄機(jī)器人行走的路徑,在C+2層中標(biāo)記與待搜索目標(biāo)關(guān)系可能性最大的物體;S45:實(shí)時(shí)獲取機(jī)器人的最新空間點(diǎn)云、路徑和與待搜索目標(biāo)關(guān)系可能性最大的物體,對(duì)空間語(yǔ)義融合矩陣進(jìn)行更新。2.根據(jù)權(quán)利要求1所述的一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,其特征在于,步驟S2具體包括:S21:通過(guò)機(jī)器人獲取待搜索場(chǎng)景的環(huán)境圖像,所述的環(huán)境圖像包括環(huán)境的RGB圖像和深度圖像;S22:將深度圖像記作深度圖像矩陣;S23:利用預(yù)訓(xùn)練好的語(yǔ)義分割網(wǎng)絡(luò)對(duì)環(huán)境圖像進(jìn)行計(jì)算,生成語(yǔ)義圖像矩陣。3.根據(jù)權(quán)利要求1所述的一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,其特征在于,所3述的空間點(diǎn)云的獲取方式為:置,D為深度圖像矩陣,u,v分別為語(yǔ)義圖像矩陣中的像素點(diǎn)坐標(biāo),R,T則分別為機(jī)器人的轉(zhuǎn)移矩陣和旋轉(zhuǎn)矩陣,根據(jù)機(jī)器人的位姿為P(x,y+,z,θ)得到機(jī)器人的轉(zhuǎn)移矩陣和旋轉(zhuǎn)矩陣分別為:4.根據(jù)權(quán)利要求1所述的一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,其特征在于,步驟S5具體包括:S51:對(duì)空間語(yǔ)義融合矩陣進(jìn)行歸一化處理;S52:構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)空間語(yǔ)義融合矩陣作為輸入進(jìn)行處理,輸出語(yǔ)義地圖特征向量。5.根據(jù)權(quán)利要求4所述的一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,其特征在于,所述的卷積神經(jīng)網(wǎng)絡(luò)包括依次連接的卷積層、非線性激活層、數(shù)據(jù)歸一化層、最大池化網(wǎng)絡(luò)、層、最大池化網(wǎng)絡(luò)、卷積層、數(shù)據(jù)歸一化層,最后通過(guò)矩陣變換將最后一層數(shù)據(jù)歸一化層的輸出變成一維向量,再利用線性變換,將矩陣變換的結(jié)果轉(zhuǎn)換為語(yǔ)義地圖特征向量。6.根據(jù)權(quán)利要求1所述的一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,其特征在于,步驟S6具體包括:將對(duì)象關(guān)系特征向量、語(yǔ)義地圖特征向量及目標(biāo)編碼信息向量進(jìn)行拼接,生成融合特征向量。7.根據(jù)權(quán)利要求1所述的一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,其特征在于,步驟S7具體包括:S71:構(gòu)建獎(jiǎng)懲函數(shù):其中,R(t,a)為獎(jiǎng)懲回報(bào),t表示機(jī)器人在某一個(gè)時(shí)刻,a表示機(jī)器人在該時(shí)刻采取的動(dòng)作,當(dāng)機(jī)器人語(yǔ)義圖像矩陣S中出現(xiàn)了目標(biāo)類別,并且計(jì)算出機(jī)器人與目標(biāo)類別的距離小于0.5m則代表機(jī)器人已經(jīng)找到目標(biāo);S72:將融合特征向量Q輸入帶到初始權(quán)重的深層卷積神經(jīng)網(wǎng)絡(luò)中,機(jī)器模仿人類專家4的導(dǎo)航策略獲得演示經(jīng)驗(yàn),并將演示經(jīng)驗(yàn)存入初始化的經(jīng)驗(yàn)池中,在利用隨機(jī)權(quán)重值初始化價(jià)值網(wǎng)絡(luò)J,將目標(biāo)網(wǎng)絡(luò)J’初始化為當(dāng)前價(jià)值網(wǎng)絡(luò),循環(huán)每次事件,得到最優(yōu)價(jià)值網(wǎng)絡(luò)J。8.根據(jù)權(quán)利要求7所述的一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,其特征在于,所述的S72中的價(jià)值網(wǎng)絡(luò)的訓(xùn)練過(guò)程具體為:使用強(qiáng)化學(xué)習(xí)的時(shí)間差分法去訓(xùn)練價(jià)值網(wǎng)絡(luò),將價(jià)值網(wǎng)絡(luò)J記作當(dāng)前價(jià)值網(wǎng)絡(luò),初始化訓(xùn)練次數(shù)為0,設(shè)計(jì)經(jīng)驗(yàn)回放容量、取樣數(shù)量,設(shè)置目標(biāo)網(wǎng)絡(luò)J’,初始化機(jī)器人的隨機(jī)位姿,設(shè)定訓(xùn)練次數(shù),根據(jù)貪心策略再當(dāng)前狀態(tài)下選擇動(dòng)作:其中a為下一個(gè)時(shí)刻采取的動(dòng)作,根據(jù)采取的動(dòng)作得到回報(bào)R(t,a),以及下一個(gè)狀態(tài)S,將更新的匯報(bào)值和狀態(tài)存入經(jīng)驗(yàn)池中,每經(jīng)過(guò)預(yù)設(shè)步數(shù)更新一次經(jīng)驗(yàn)池,通過(guò)梯度下降算法更新當(dāng)前的價(jià)值網(wǎng)絡(luò),直到機(jī)器人達(dá)到最終狀態(tài)超過(guò)所設(shè)定的最大時(shí)間tmax為200個(gè)動(dòng)5一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及主動(dòng)視覺(jué)感知領(lǐng)域,尤其是涉及一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法。背景技術(shù)[0002]近年來(lái),機(jī)器人研究領(lǐng)域一直致力于擴(kuò)大機(jī)器人探索環(huán)境、了解環(huán)境、與環(huán)境交互以及與人溝通的能力。傳統(tǒng)的導(dǎo)航方法通常使用環(huán)境地圖進(jìn)行導(dǎo)航,并將導(dǎo)航任務(wù)分為三個(gè)步驟:繪制地圖、定位和路徑規(guī)劃。這種方法通常需要提前構(gòu)建3D地圖,以及可靠的地圖定位和路徑跟蹤。但是,在某些情況下,人工地標(biāo)是不可知的境中,這樣自我運(yùn)動(dòng)估計(jì)或獲取場(chǎng)景信息就遭遇很大的困難。很長(zhǎng)時(shí)間以來(lái),機(jī)器人導(dǎo)航問(wèn)題基本上是通過(guò)一系列距離傳感器來(lái)解決的,比如光線檢測(cè)和測(cè)距,紅外輻射,或聲納導(dǎo)航和測(cè)距,這些適用于小范圍靜態(tài)環(huán)境中(各種距離傳感器受限于他們獨(dú)自的物理屬性)。但[0003]最近,針對(duì)各種控制和感知問(wèn)題的數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)策略的成功為克服以前方法的局限性開(kāi)辟了一條新途徑。這些方法無(wú)需構(gòu)建地圖對(duì)環(huán)境的依賴程度較低并且可以進(jìn)行人機(jī)交互而被廣泛研究。他們的關(guān)鍵點(diǎn)是直接學(xué)習(xí)原始觀測(cè)與操作任務(wù)端到端方式之間的映射。這些方法利用了以前在新的類似環(huán)境中導(dǎo)航經(jīng)驗(yàn)的能力,無(wú)論是否有地圖。強(qiáng)化學(xué)習(xí)(ReinforcementLearning)常用于視覺(jué)導(dǎo)航。然而,強(qiáng)化學(xué)習(xí)仍存在泛化能力差、導(dǎo)航效率發(fā)明內(nèi)容[0004]本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法。[0005]本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):[0006]一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,用于機(jī)器人的目標(biāo)搜索,包括以下[0007]S1:確認(rèn)目標(biāo)編碼信息和待搜索目標(biāo);[0008]S2:通過(guò)機(jī)器人獲取待搜索場(chǎng)景的環(huán)境圖像,根據(jù)環(huán)境圖像構(gòu)建深度圖像矩陣、語(yǔ)義圖像矩陣;[0009]S3:對(duì)環(huán)境圖像進(jìn)行對(duì)象關(guān)系特征分析,識(shí)別環(huán)境中的物體并確認(rèn)與待搜索目標(biāo)關(guān)系可能性最大的物體,提取對(duì)象關(guān)系特征向量;[0010]S4:根據(jù)深度圖像矩陣、語(yǔ)義圖像矩陣獲取空間語(yǔ)義點(diǎn)云,并根據(jù)空間語(yǔ)義點(diǎn)云和環(huán)境中的物體信息構(gòu)建空間語(yǔ)義融合矩陣;[0011]S5:根據(jù)空間語(yǔ)義地圖融合矩陣獲取語(yǔ)義地圖特征向量;[0012]S6:根據(jù)對(duì)象關(guān)系特征向量、語(yǔ)義地圖特征向量及目標(biāo)編碼信息生成融合特征向6[0013]S7:根據(jù)融合特征向量對(duì)價(jià)值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,完成訓(xùn)練后基于訓(xùn)練好組數(shù)據(jù)集中對(duì)象關(guān)系出現(xiàn)頻率大于3的兩個(gè)節(jié)點(diǎn)間使用邊來(lái)鏈接生成圖結(jié)構(gòu)并用二進(jìn)制鄰[0024]S43:所述的空間點(diǎn)云的尺寸為C*W*L*H,其中C為空間語(yǔ)義點(diǎn)云的通道,每一個(gè)通7[0031]優(yōu)選地,所述的步驟S5具體包括:[0032]S51:對(duì)空間語(yǔ)義融合矩陣進(jìn)行歸一化處理;[0033]S52:構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)空間語(yǔ)義融合矩陣作為輸入進(jìn)行處理,輸出語(yǔ)義地圖特征向量。[0034]優(yōu)選地,所述的卷積神經(jīng)網(wǎng)絡(luò)包括依次連接的卷積層、非線性激活層、數(shù)據(jù)歸一化層、最大池化網(wǎng)絡(luò)、卷積層、非線性激活層、數(shù)據(jù)歸一化層、最大池化網(wǎng)絡(luò)、卷積層、非線性激活層、數(shù)據(jù)歸一化層、最大池化網(wǎng)絡(luò)、卷積層、數(shù)據(jù)歸一化層,最后通過(guò)矩陣變換將最后一層數(shù)據(jù)歸一化層的輸出變成一維向量,再利用線性變換,將矩陣變換的結(jié)果轉(zhuǎn)換為語(yǔ)義地圖特征向量。[0035]優(yōu)選地,所述的步驟S6具體包括:[0036]將對(duì)象關(guān)系特征向量、語(yǔ)義地圖特征向量及目標(biāo)編碼信息向量進(jìn)行拼接,生成融合特征向量。[0037]優(yōu)選地,所述的步驟S7具體包括:[0038]S71:構(gòu)建獎(jiǎng)懲函數(shù):[0040]其中,R(t,a)為獎(jiǎng)懲回報(bào),t表示機(jī)器人在某一個(gè)時(shí)刻,a表示機(jī)器人在該時(shí)刻采取的動(dòng)作,當(dāng)機(jī)器人語(yǔ)義圖像矩陣S中出現(xiàn)了目標(biāo)類別,并且計(jì)算出機(jī)器人與目標(biāo)類別的距離小于0.5m則代表機(jī)器人已經(jīng)找到目標(biāo);[0041]S72:將融合特征向量Q輸入帶到初始權(quán)重的深層卷積神經(jīng)網(wǎng)絡(luò)中,機(jī)器模仿人類專家的導(dǎo)航策略獲得演示經(jīng)驗(yàn),并將演示經(jīng)驗(yàn)存入初始化的經(jīng)驗(yàn)池中,在利用隨機(jī)權(quán)重值初始化價(jià)值網(wǎng)絡(luò)J,將目標(biāo)價(jià)值網(wǎng)絡(luò)J’初始化為當(dāng)前價(jià)值網(wǎng)絡(luò),循環(huán)每次事件,得到最優(yōu)價(jià)值網(wǎng)絡(luò)J。[0042]優(yōu)選地,所述的S72中的價(jià)值網(wǎng)絡(luò)的訓(xùn)練過(guò)程具體為:[0043]使用強(qiáng)化學(xué)習(xí)的時(shí)間差分法去訓(xùn)練價(jià)值網(wǎng)絡(luò),將價(jià)值網(wǎng)絡(luò)J記作當(dāng)前價(jià)值網(wǎng)絡(luò),初始化訓(xùn)練次數(shù)為0,設(shè)計(jì)經(jīng)驗(yàn)回放容量、取樣數(shù)量,設(shè)置目標(biāo)網(wǎng)絡(luò)J’,初始化機(jī)器人的隨機(jī)位姿,設(shè)定訓(xùn)練次數(shù),根據(jù)貪心策略再當(dāng)前狀態(tài)下選擇動(dòng)作:[0045]其中a,為下一個(gè)時(shí)刻采取的動(dòng)作,根據(jù)采取的動(dòng)作得到回報(bào)R(t,a),以及下一個(gè)狀態(tài)S,將更新的匯報(bào)值和狀態(tài)存入經(jīng)驗(yàn)池中,每經(jīng)過(guò)預(yù)設(shè)步數(shù)更新一次經(jīng)驗(yàn)池,通過(guò)梯度下降算法更新當(dāng)前的價(jià)值網(wǎng)絡(luò),直到機(jī)器人達(dá)到最終狀態(tài)超過(guò)所設(shè)定的最大時(shí)間tma為200個(gè)動(dòng)作;否則,將當(dāng)前的網(wǎng)絡(luò)更新為目標(biāo)網(wǎng)絡(luò),當(dāng)達(dá)到訓(xùn)練次數(shù)后得到價(jià)值網(wǎng)絡(luò)J。[0046]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn):[0047]1、本發(fā)明的機(jī)器人目標(biāo)搜索方法,基于現(xiàn)實(shí)環(huán)境,設(shè)計(jì)了基于視覺(jué)傳感器的室內(nèi)8無(wú)地圖導(dǎo)航目標(biāo)搜索系統(tǒng),使得機(jī)器人尋找物體完成任務(wù)導(dǎo)航時(shí)不需要再建立地圖,可以實(shí)現(xiàn)無(wú)地圖的目標(biāo)搜索和室內(nèi)導(dǎo)航任務(wù)。[0048]2、在當(dāng)前室內(nèi)無(wú)地圖視覺(jué)導(dǎo)航的研究中,基本上都是將視覺(jué)信息作為一個(gè)輸入矩陣,直接利用強(qiáng)化學(xué)習(xí)或者模仿學(xué)習(xí)進(jìn)行訓(xùn)練導(dǎo)航。這種方法不僅導(dǎo)航成功率低,時(shí)間久,而且部分網(wǎng)絡(luò)難以收斂,造成訓(xùn)練失敗的結(jié)果。本發(fā)明設(shè)計(jì)的基于場(chǎng)景先驗(yàn)的無(wú)地圖導(dǎo)航目標(biāo)搜索系統(tǒng),先將視覺(jué)信息構(gòu)成局部語(yǔ)義地圖,大大提高了訓(xùn)練的速度和導(dǎo)航的精度。[0049]3、本發(fā)明采用了場(chǎng)景先驗(yàn),利用場(chǎng)景先驗(yàn)探索環(huán)境尋找物體,有助于提升目標(biāo)搜索的準(zhǔn)確率和效率。附圖說(shuō)明[0050]圖1為本發(fā)明方法涉及的硬件系統(tǒng)的結(jié)構(gòu)框圖。[0051]圖2為本發(fā)明的總體流程框圖。[0052]圖3為本發(fā)明的場(chǎng)景圖譜示意圖。[0053]圖4為本發(fā)明的圖卷積神經(jīng)網(wǎng)絡(luò)示意圖[0054]圖5為本發(fā)明中強(qiáng)化學(xué)習(xí)流程圖。具體實(shí)施方式[0055]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。注意,以下的實(shí)施方式的說(shuō)明只是實(shí)質(zhì)上的例示,本發(fā)明并不意在對(duì)其適用物或其用途進(jìn)行限定,且本發(fā)明并不限定于以下的實(shí)施方式。[0057]本發(fā)明的一種基于場(chǎng)景先驗(yàn)的智能體目標(biāo)搜索的方法,拍攝環(huán)境的RGB圖像與深度圖,將RGB圖像利用訓(xùn)練好的語(yǔ)義分割網(wǎng)絡(luò)計(jì)算生成語(yǔ)義圖像,根據(jù)深度圖以及里程計(jì)信息,生成局部語(yǔ)義地圖;將視覺(jué)基因組數(shù)據(jù)多次出現(xiàn)的物體關(guān)系記錄稱為一個(gè)先驗(yàn)知識(shí)矩陣,在語(yǔ)義地圖的基礎(chǔ)上加入物體關(guān)系,生成空間關(guān)系語(yǔ)義地圖;采用卷積網(wǎng)絡(luò)獲取空間語(yǔ)義地圖矩陣作為局部環(huán)境的數(shù)據(jù)融合矩陣;訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)模型作為導(dǎo)航器,將數(shù)據(jù)融目標(biāo)搜索,如圖1所示,該方法的所采用的設(shè)備主要由裝備有相機(jī)傳感器與激光雷達(dá)的機(jī)器人以及一臺(tái)服務(wù)器構(gòu)成,機(jī)器人通過(guò)相機(jī)傳感器將“看到的”信息通過(guò)WiFi傳輸?shù)椒?wù)器[0058]S1:確認(rèn)目標(biāo)編碼信息和待搜索目標(biāo)。建立目標(biāo)編碼網(wǎng)絡(luò)并進(jìn)行編碼確認(rèn)場(chǎng)景中每一個(gè)物體的編碼信息。具體地,本實(shí)施例中搭建一個(gè)人機(jī)交互界面構(gòu)成,該交互界面通過(guò)一個(gè)文本框的形式,用戶將要尋找的目標(biāo)名稱輸入文本框中,輸入完后將目標(biāo)進(jìn)行編碼。編[0059]S2:通過(guò)機(jī)器人獲取待搜索場(chǎng)景的環(huán)境圖像,根據(jù)環(huán)境圖像構(gòu)建深度圖像矩陣、語(yǔ)義圖像矩陣。[0060]步驟S2具體包括:機(jī)器人用相機(jī)傳感器拍攝環(huán)境的RGB圖像與深度圖,稱為環(huán)境圖的尺寸為(w*h),深度圖像為一個(gè)1*(w*h)圖像,深度圖像中含有1個(gè)圖層,該圖層的尺寸為9[0061]S3:對(duì)環(huán)境圖像進(jìn)行對(duì)象關(guān)系特征分析,識(shí)別環(huán)境中的物體并確認(rèn)與待搜索目標(biāo)表示為圖中的一個(gè)節(jié)點(diǎn)。在視覺(jué)基因組數(shù)據(jù)集中對(duì)象關(guān)系出現(xiàn)頻率大于3時(shí)才會(huì)在兩個(gè)節(jié)83個(gè)節(jié)點(diǎn),將所有的節(jié)點(diǎn)歸納為特征矩陣FA。的圖像特征向量映射為512維的特征向量,然后將所有類別的名稱用單詞嵌入分別映射成義融合矩陣M。其中空間語(yǔ)義融合矩陣中含有C+2個(gè)圖層的空間語(yǔ)義點(diǎn)云的尺寸為C*W*L*H,其中C為空間語(yǔ)義點(diǎn)云的通道,每一個(gè)通道都代表了一征圖按照對(duì)應(yīng)的位置和空間語(yǔ)義融合矩陣M相加,并對(duì)路徑和關(guān)系可能性最大的[0077]具體包括:S51:對(duì)空間語(yǔ)義融合矩陣進(jìn)行歸一化處理;[0079]卷積神經(jīng)網(wǎng)絡(luò)作為一種提取圖像特征的方式由于其無(wú)需對(duì)圖像進(jìn)行預(yù)處理和可64;該卷積層的輸入為上步驟的歸一化處理后的空間語(yǔ)義融合矩陣M;卷積神經(jīng)網(wǎng)絡(luò)的第二11[0086]其中,,(k)為歸一化層的輸出,xv?)為非線性激活層的輸出,k為通道編號(hào),即第k個(gè)通道的輸出為x⑧,E(xv?k)為x的平均數(shù),var[x?]為xv1的方差。[0087]卷積神經(jīng)網(wǎng)絡(luò)的第四層為最大池化網(wǎng)絡(luò),最大池化神經(jīng)網(wǎng)絡(luò)的卷積核為2*2的矩陣,卷積神經(jīng)網(wǎng)絡(luò)的第五層是卷積層,該卷積層的卷積核尺寸為3*3的矩陣,通道數(shù)為64,該卷積層的輸入為特征提取網(wǎng)絡(luò)第四層最大池化網(wǎng)絡(luò)輸出的結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)的第六層為非線性激活層,非線性激活函數(shù)為relu函數(shù),將卷積層的輸出作為該層輸入,增加網(wǎng)絡(luò)的非線性。卷積神經(jīng)網(wǎng)絡(luò)的第七層為數(shù)據(jù)歸一化層,該層的輸入為非線性激活層的輸出。卷積神經(jīng)網(wǎng)絡(luò)的第八層為最大池化網(wǎng)絡(luò),最大池化神經(jīng)網(wǎng)絡(luò)的卷積核為2*2的矩陣,卷積神經(jīng)網(wǎng)絡(luò)的第九層為卷積層,該卷積層的卷積核尺寸為3*3的矩陣,通道數(shù)為128,該卷積層的輸入為最大池化網(wǎng)絡(luò)輸出的結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)的第十層為非線性激活層,非線性激活函數(shù)采用relu函數(shù),將卷積層的輸出作為該層輸入,增加網(wǎng)絡(luò)的非線性。卷積神經(jīng)網(wǎng)絡(luò)的第十一層為數(shù)據(jù)歸一化層,該層的輸入為非線性激活層的輸出卷積神經(jīng)網(wǎng)絡(luò)的第十二層為最大池化網(wǎng)絡(luò),最大池化神經(jīng)網(wǎng)絡(luò)的卷積核為2*2的矩陣,卷積神經(jīng)網(wǎng)絡(luò)的第十三層是卷積層,該卷積層的卷積核為3*3矩陣,通道數(shù)為512,該卷積層的輸入為最大池化網(wǎng)絡(luò)輸出的結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)的第十四層為數(shù)據(jù)歸一化層,輸入為第十三層的輸出結(jié)果,再通過(guò)矩陣變換,數(shù)據(jù)歸一化層的輸出變成一維向量,利用線性變換,將矩陣變換的變成一個(gè)1*1*128的特語(yǔ)義地圖特征向量f。[0088]S6:根據(jù)對(duì)象關(guān)系特征向量、語(yǔ)義地圖特征向量及目標(biāo)編碼信息生成融合特征向量。具體,本實(shí)施例中將特征向量e,f以及目標(biāo)編碼信息進(jìn)行拼接,生成融合特征[0089]步驟S7采用深度學(xué)習(xí)中的深層卷積神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)中的時(shí)間差分法訓(xùn)練價(jià)值網(wǎng)絡(luò)模型從而實(shí)現(xiàn)機(jī)器人的目標(biāo)搜索與導(dǎo)航,具體包括:[0090]S71:構(gòu)建獎(jiǎng)懲函數(shù):[0092]其中,R(t,a)為獎(jiǎng)懲回報(bào),t表示機(jī)器人在某一個(gè)時(shí)刻,a表示機(jī)器人在該時(shí)刻采取的動(dòng)作,當(dāng)機(jī)器人語(yǔ)義圖像矩陣S中出現(xiàn)了目標(biāo)類別,并且計(jì)算出機(jī)器人與目標(biāo)類別的距離小于0.5m則代表機(jī)器人已經(jīng)找到目標(biāo);[0093]S72:將融合特征向量Q輸入帶到初始權(quán)重的深層卷積神經(jīng)網(wǎng)絡(luò)中,機(jī)器模仿人類專家的導(dǎo)航策略獲得演示經(jīng)驗(yàn),并將演示經(jīng)驗(yàn)存入初始化的經(jīng)驗(yàn)池中,在利用隨機(jī)權(quán)重值初始化價(jià)值網(wǎng)絡(luò)J,將目標(biāo)價(jià)值網(wǎng)絡(luò)J’初始化為當(dāng)前價(jià)值網(wǎng)絡(luò),循環(huán)每次事件,得到最優(yōu)價(jià)值網(wǎng)絡(luò)J。[0094]本實(shí)施例中,如圖5所示,S72中的價(jià)值網(wǎng)絡(luò)的訓(xùn)練[0095]使用強(qiáng)化學(xué)習(xí)的時(shí)間差分法去訓(xùn)練價(jià)值網(wǎng)絡(luò)。將價(jià)值網(wǎng)絡(luò)J記作當(dāng)前價(jià)值網(wǎng)絡(luò),初始化訓(xùn)練次數(shù)為0,設(shè)計(jì)經(jīng)驗(yàn)回放容量為50000,取
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年南京中遠(yuǎn)海運(yùn)物流有限公司招聘?jìng)淇碱}庫(kù)及一套完整答案詳解
- 2026年云南三七科技有限公司招聘?jìng)淇碱}庫(kù)完整答案詳解
- 2026年中國(guó)華能甘肅能源開(kāi)發(fā)有限公司招聘?jìng)淇碱}庫(kù)及1套參考答案詳解
- 2026年廣新集團(tuán)所屬?gòu)V青科技高薪崗位熱招備考題庫(kù)及一套參考答案詳解
- 2026年扎賚特旗第二醫(yī)共體總醫(yī)院公開(kāi)招聘18名工作人員的備考題庫(kù)及參考答案詳解一套
- 2026年大涌醫(yī)院第四期公開(kāi)招聘工作人員備考題庫(kù)及一套參考答案詳解
- 器材采購(gòu)內(nèi)控制度
- 合同內(nèi)控控制制度
- 車間內(nèi)控制度
- 為何要建立內(nèi)控制度
- 2026年(馬年)學(xué)校慶元旦活動(dòng)方案:駿馬踏春?jiǎn)⑿鲁潭嗖驶顒?dòng)慶元旦
- 2026年廣東省春季高考模擬數(shù)學(xué)試卷試題(含答案解析)
- 微帶貼片天線基礎(chǔ)知識(shí)
- 部編版初三化學(xué)上冊(cè)期末真題試題含解析及答案
- GB/T 46561-2025能源管理體系能源管理體系審核及認(rèn)證機(jī)構(gòu)要求
- 光纖收發(fā)器培訓(xùn)
- 汽車減震器課件
- 物業(yè)保安主管年終述職報(bào)告
- 2025年國(guó)家開(kāi)放大學(xué)《市場(chǎng)調(diào)研方法與實(shí)踐》期末考試參考題庫(kù)及答案解析
- 兒童心肺復(fù)蘇操作要點(diǎn)與急救流程
- 水電解制氫設(shè)備運(yùn)行維護(hù)手冊(cè)
評(píng)論
0/150
提交評(píng)論