CN120103296B 一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法 (安徽隼波科技有限公司)_第1頁(yè)
CN120103296B 一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法 (安徽隼波科技有限公司)_第2頁(yè)
CN120103296B 一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法 (安徽隼波科技有限公司)_第3頁(yè)
CN120103296B 一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法 (安徽隼波科技有限公司)_第4頁(yè)
CN120103296B 一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法 (安徽隼波科技有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN120103296B(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)(73)專利權(quán)人安徽隼波科技有限公司地址230088安徽省合肥市高新區(qū)楊林路科技實(shí)業(yè)園B1棟4樓401室(72)發(fā)明人胡宗品李昂路同亞李開(kāi)文付昕男劉志勇任夢(mèng)奇葛晨晨(74)專利代理機(jī)構(gòu)合肥律眾知識(shí)產(chǎn)權(quán)代理有限公司34147專利代理師劉吉意(56)對(duì)比文件一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法(57)摘要本發(fā)明涉及自動(dòng)駕駛,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,通過(guò)發(fā)射和接收毫米波信號(hào)來(lái)探測(cè)車輛盲點(diǎn)區(qū)域的目標(biāo)信息;對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行濾波、聚類和目標(biāo)跟蹤,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù);基于盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù),通過(guò)改進(jìn)DQN算法進(jìn)行實(shí)時(shí)決策,判斷是否存在危險(xiǎn)情況并給出最佳應(yīng)對(duì)策略;根據(jù)改進(jìn)DQN算法輸出結(jié)果提供駕駛警報(bào)或完成自動(dòng)規(guī)避動(dòng)作;本發(fā)明提供的技術(shù)方案能夠有效克21.一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,其特征在于:包括以下步驟:S1、通過(guò)發(fā)射和接收毫米波信號(hào)來(lái)探測(cè)車輛盲點(diǎn)區(qū)域的目標(biāo)信息;S3、基于盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù),通過(guò)改進(jìn)DQN算法進(jìn)行實(shí)時(shí)決策,判斷是否存在危險(xiǎn)情況并給出最佳應(yīng)對(duì)策略;S4、根據(jù)改進(jìn)DQN算法輸出結(jié)果提供駕駛警報(bào)或完成自動(dòng)規(guī)避動(dòng)作;其中,改進(jìn)DQN算法通過(guò)考量多維度因素和動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)系數(shù)對(duì)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)進(jìn)行優(yōu)改進(jìn)DQN算法在訓(xùn)練過(guò)程中引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制,優(yōu)先選擇重要的經(jīng)驗(yàn)樣本進(jìn)行學(xué)習(xí),加快模型收斂速度;同時(shí),采用基于動(dòng)態(tài)權(quán)重分配與反饋調(diào)節(jié)的梯度下降算法更新評(píng)估網(wǎng)絡(luò)的參數(shù),并定期更新目標(biāo)網(wǎng)絡(luò)的參數(shù),以減少訓(xùn)練過(guò)程中的Q值估計(jì)偏差,更高效地作出實(shí)時(shí)決策,準(zhǔn)確判斷危險(xiǎn)情況并給出最佳應(yīng)對(duì)策略;S1中通過(guò)發(fā)射和接收毫米波信號(hào)來(lái)探測(cè)車輛盲點(diǎn)區(qū)域的目標(biāo)信息,包括:S11、采用混沌序列x對(duì)毫米波載波信號(hào)Acos(2πft)進(jìn)行混沌調(diào)制,經(jīng)過(guò)混沌調(diào)制后的毫米波信號(hào)s(t)為:S12、在實(shí)際的車輛行駛場(chǎng)景中,為更好地適應(yīng)不同環(huán)境因素對(duì)毫米波信號(hào)s(t)的傳播產(chǎn)生的影響,讓調(diào)制系數(shù)k隨事件或環(huán)境自適應(yīng)變化,記為k(t),同時(shí)考慮信道的多徑衰落特性,引入信道沖激響應(yīng)h(t)與毫米波信號(hào)s(t)進(jìn)行卷積,更新后的經(jīng)過(guò)混沌調(diào)制后的毫米波信號(hào)s'(t)為:2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,其特征在于:S2中對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行濾波、聚類和目標(biāo)跟蹤,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù),包括:S21、對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行卡爾曼濾波,以去除毫米波雷達(dá)數(shù)據(jù)中的噪聲干擾;S22、根據(jù)數(shù)據(jù)點(diǎn)之間的密度相連性,對(duì)具有相似特征的數(shù)據(jù)點(diǎn)進(jìn)行聚類,以便區(qū)分不同目標(biāo);S23、在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù)。3.根據(jù)權(quán)利要求2所述的基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,其特征在于:S21中對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行卡爾曼濾波,以去除毫米波雷達(dá)數(shù)據(jù)中的噪聲干擾,包括:卡爾曼濾波的狀態(tài)方程和觀測(cè)方程為:3S22中根據(jù)數(shù)據(jù)點(diǎn)之間的密度相連性,對(duì)具有相似特征的數(shù)據(jù)點(diǎn)進(jìn)行聚類,以便區(qū)分不根據(jù)數(shù)據(jù)點(diǎn)之間的密度相連性,采用DBSCAN算法對(duì)具有相似特征的數(shù)據(jù)點(diǎn)進(jìn)行聚類,以便區(qū)分不同目標(biāo);S23中在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù),包采用多目標(biāo)跟蹤MOT算法在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù)。4.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,其特征在于:所述改進(jìn)DQN算法通過(guò)考量多維度因素和動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)系數(shù)對(duì)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)進(jìn)行優(yōu)化,包其中,vre1為與目標(biāo)之間的相對(duì)速度,t為時(shí)間,dre?為與目標(biāo)之間的相對(duì)距離,2、2分別為速度變化權(quán)重系數(shù)、距離變化權(quán)重系數(shù),用于調(diào)節(jié)速度、距離變化率對(duì)獎(jiǎng)勵(lì)的影響程I為環(huán)境中的干擾強(qiáng)度,u為環(huán)境干擾獎(jiǎng)勵(lì)系數(shù),當(dāng)干擾強(qiáng)度較大且仍能準(zhǔn)確檢測(cè)目標(biāo)4R(s,a,s')=a(n)S?+β(n)S?-x(n)S-δ(n)S?-ε(n)5.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)所述改進(jìn)DQN算法在訓(xùn)練過(guò)程中引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制,優(yōu)先選擇重要的經(jīng)驗(yàn)樣本進(jìn)行學(xué)其中,Q(s,a)是參數(shù)為θ的評(píng)估網(wǎng)絡(luò)Q。在狀態(tài)s?下采取動(dòng)作a時(shí)的Q值估計(jì),級(jí)p?:隨機(jī)抽樣,當(dāng)α=1時(shí)完全按照優(yōu)先級(jí)對(duì)所有經(jīng)驗(yàn)樣本進(jìn)行抽樣,N為經(jīng)驗(yàn)回放緩沖區(qū)的大S325、根據(jù)每個(gè)經(jīng)驗(yàn)樣本的采樣概率P(i),采樣一批重要經(jīng)驗(yàn)樣本組成重要經(jīng)驗(yàn)樣本5的目標(biāo)值Yb:其中,Sbg為第b步的狀態(tài),a6?為在狀態(tài)Sb?下采取的動(dòng)作,B.為采取動(dòng)作a6后S332、計(jì)算評(píng)估網(wǎng)絡(luò)Q。在狀態(tài)Sb?下采取動(dòng)作a?時(shí)的Q值估計(jì)Q?(Sb?a%b),并計(jì)算損失函數(shù)L(θ):S333、采用基于動(dòng)態(tài)權(quán)重分配與反饋調(diào)節(jié)的梯度下降算法更新評(píng)估網(wǎng)絡(luò)Q的參數(shù)θ。7.根據(jù)權(quán)利要求6所述的基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,其特征在于:S333中采用基于動(dòng)態(tài)權(quán)重分配與反饋調(diào)節(jié)的梯度下降算法更新評(píng)估網(wǎng)絡(luò)Q的參數(shù)θ,包S3331、初始化階段:初始化學(xué)習(xí)率5o=0.001,動(dòng)態(tài)權(quán)重分配系數(shù)w=1,反饋調(diào)節(jié)系數(shù)ψ=0.5,構(gòu)建綜合敏感度S,用于記錄重要經(jīng)驗(yàn)樣本對(duì)參數(shù)θ的損失敏感度,初始值設(shè)為0;S3332、梯度計(jì)算階段:計(jì)算重要經(jīng)驗(yàn)樣本e=(Sb?,a6?,B,SB?+1,db)的目標(biāo)值Yb?與評(píng)估網(wǎng)絡(luò)Q。的Q值估計(jì)Qo(s?,a?)之間差值的平方關(guān)于參數(shù)θ的梯度V。(Vb-Q6(Ss?,a)):其中,Q。(Sa)為評(píng)估網(wǎng)絡(luò)Qo的Q值估計(jì)Q。(s,a)關(guān)于參數(shù)0的梯度;對(duì)重要經(jīng)驗(yàn)樣本集B={eB,e?…,eB}中所有重要經(jīng)驗(yàn)樣本的上述梯度計(jì)算平均值,得到損失函數(shù)L(θ)關(guān)于參數(shù)θ的梯度V。L(O):S3333、動(dòng)態(tài)權(quán)重分配階段:計(jì)算重要經(jīng)驗(yàn)樣本e=(Sn,aA??,??3b,+1,d6)對(duì)參數(shù)θ的損失敏感度δ,即對(duì)參數(shù)θ進(jìn)行微小擾動(dòng)△θ得到的損失函數(shù)變化量△L與該微小擾動(dòng)△θ之間的比值:計(jì)算重要經(jīng)驗(yàn)樣本集1B={e,eB?,…,eB}中所有重要經(jīng)驗(yàn)樣本對(duì)參數(shù)θ的綜合敏感度S:6w,即w=w(1-4);w,即w=w(1+ψ)。7一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及自動(dòng)駕駛,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方背景技術(shù)[0002]在智能交通與自動(dòng)駕駛領(lǐng)域,盲點(diǎn)檢測(cè)一直是保障交通安全的關(guān)鍵研究?jī)?nèi)容。隨著智能交通系統(tǒng)的快速發(fā)展以及自動(dòng)駕駛技術(shù)的逐步普及,車輛行駛過(guò)程中的安全問(wèn)題愈發(fā)受到關(guān)注??煽康拿c(diǎn)檢測(cè)技術(shù),對(duì)于提升車輛行駛安全性、降低交通事故發(fā)生率具有至關(guān)重要的影響,尤其在復(fù)雜多變的交通場(chǎng)景中,準(zhǔn)確的盲點(diǎn)檢測(cè)能夠及時(shí)提醒駕駛員潛在的危險(xiǎn),避免因視覺(jué)盲區(qū)而引發(fā)碰撞事故,為智能交通和自動(dòng)駕駛的安全運(yùn)行提供有力保[0003]在傳統(tǒng)的盲點(diǎn)檢測(cè)方法中,大多依賴于簡(jiǎn)單的傳感器技術(shù)或基于規(guī)則的算法,主要關(guān)注車輛周邊的部分環(huán)境信息。然而,這些方法容易受到天氣、光照等環(huán)境因素的顯著影對(duì)于復(fù)雜交通場(chǎng)景中的目標(biāo)檢測(cè)和識(shí)別能力有限,難以準(zhǔn)確區(qū)分不同類型的目標(biāo),無(wú)法滿足智能交通和自動(dòng)駕駛對(duì)于安全性的需求。[0004]目前,雖然毫米波雷達(dá)在盲點(diǎn)檢測(cè)中得到了一定應(yīng)用,但大多是基于其基本的測(cè)距和測(cè)速功能,缺乏對(duì)雷達(dá)數(shù)據(jù)的深度挖掘和有效利用。而且,現(xiàn)有基于毫米波雷達(dá)的盲點(diǎn)檢測(cè)系統(tǒng)往往采用固定的檢測(cè)策略,難以適應(yīng)不同的駕駛場(chǎng)景和環(huán)境變化。此外,在面對(duì)復(fù)雜的交通環(huán)境和動(dòng)態(tài)變化的目標(biāo)時(shí),系統(tǒng)的魯棒性和適應(yīng)性不足,無(wú)法及時(shí)準(zhǔn)確地作出決策,導(dǎo)致盲點(diǎn)檢測(cè)的效果不夠理想,使得駕駛員在駕駛過(guò)程中無(wú)法得到可靠的盲點(diǎn)監(jiān)測(cè)和規(guī)避信息,增大了交通事故發(fā)生的風(fēng)險(xiǎn),并且也限制了自動(dòng)駕駛技術(shù)的進(jìn)一步發(fā)展和應(yīng)用。發(fā)明內(nèi)容[0005]針對(duì)現(xiàn)有技術(shù)所存在的上述缺點(diǎn),本發(fā)明提供了一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,能夠有效克服現(xiàn)有技術(shù)所存在的難以在復(fù)雜多變的交通場(chǎng)景中及時(shí)準(zhǔn)確地作出實(shí)時(shí)決策的缺陷。[0006]為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):[0007]一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,包括以下步驟:[0008]S1、通過(guò)發(fā)射和接收毫米波信號(hào)來(lái)探測(cè)車輛盲點(diǎn)區(qū)域的目標(biāo)信息;[0010]S3、基于盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù),通過(guò)改進(jìn)DQN算法進(jìn)行實(shí)時(shí)決策,判斷是否存在危險(xiǎn)情況并給出最佳應(yīng)對(duì)策略;[0011]S4、根據(jù)改進(jìn)DQN算法輸出結(jié)果提供駕駛警報(bào)或完成自動(dòng)規(guī)避動(dòng)作;[0012]其中,改進(jìn)DQN算法通過(guò)考量多維度因素和動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)系數(shù)對(duì)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)進(jìn)行優(yōu)化,以適應(yīng)復(fù)雜多變的交通場(chǎng)景,高效作8[0013]改進(jìn)DQN算法在訓(xùn)練過(guò)程中引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制,優(yōu)先選擇重要的經(jīng)驗(yàn)樣本進(jìn)行學(xué)習(xí),加快模型收斂速度;同時(shí),采用基于動(dòng)態(tài)權(quán)重分配與反饋調(diào)節(jié)的梯度下降算法更新評(píng)估網(wǎng)絡(luò)的參數(shù),并定期更新目標(biāo)網(wǎng)絡(luò)的參數(shù),以減少訓(xùn)練過(guò)程中的Q值估計(jì)偏差,更高效地作出實(shí)時(shí)決策,準(zhǔn)確判斷危險(xiǎn)情況并給出最佳應(yīng)對(duì)策略。[0014]優(yōu)選地,S1中通過(guò)發(fā)射和接收毫米波信號(hào)來(lái)探測(cè)車輛盲點(diǎn)區(qū)域的目標(biāo)[0015]S11、采用混沌序列x,對(duì)毫米波載波信號(hào)Acos(2πft)進(jìn)行混沌調(diào)制,經(jīng)過(guò)混沌調(diào)制后的毫米波信號(hào)s(t)為:[0018]S12、在實(shí)際的車輛行駛場(chǎng)景中,為更好地適應(yīng)不同環(huán)境因素對(duì)毫米波信號(hào)s(t)的傳播產(chǎn)生的影響,讓調(diào)制系數(shù)k隨事件或環(huán)境自適應(yīng)變化,記為k(t),同時(shí)考慮信道的多徑衰落特性,引入信道沖激響應(yīng)h(t)與毫米波信號(hào)s(t)進(jìn)行卷積,更新后的經(jīng)過(guò)混沌調(diào)制后的毫米波信號(hào)s'(t)為:[0020]優(yōu)選地,S2中對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行濾波、聚類和目標(biāo)跟蹤,得到盲點(diǎn)區(qū)域的目標(biāo)[0021]S21、對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行卡爾曼濾波,以去除毫米波雷達(dá)數(shù)據(jù)中的噪聲干擾;[0022]S22、根據(jù)數(shù)據(jù)點(diǎn)之間的密度相連性,對(duì)具有相似特征的數(shù)據(jù)點(diǎn)進(jìn)行聚類,以便區(qū)分不同目標(biāo);[0023]S23、在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)[0024]優(yōu)選地,S21中對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行卡爾曼濾波,以去除毫米波雷達(dá)數(shù)據(jù)中的噪[0025]卡爾曼濾波的狀態(tài)方程和觀測(cè)方程為:[0029]S22中根據(jù)數(shù)據(jù)點(diǎn)之間的密度相連性,對(duì)具有相似特征的數(shù)據(jù)點(diǎn)進(jìn)行聚類,以便區(qū)[0030]根據(jù)數(shù)據(jù)點(diǎn)之間的密度相連性,采用DBSCAN算法對(duì)具有相似特征的數(shù)據(jù)點(diǎn)進(jìn)行聚9[0031]S23中在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)[0032]采用多目標(biāo)跟蹤MOT算法在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到[0033]優(yōu)選地,所述改進(jìn)DQN算法通過(guò)考量多維度因素和動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)系數(shù)對(duì)獎(jiǎng)勵(lì)函數(shù)度規(guī)避獎(jiǎng)勵(lì)項(xiàng)的獎(jiǎng)勵(lì)系數(shù)中的初始獎(jiǎng)勵(lì)值,且α%=10,β=20,Xo=5,δ?=20,c?=10,α、[0053]其中,&為一個(gè)很小的整數(shù),用于避免δ=0時(shí)優(yōu)先級(jí)為零的情況;值設(shè)為0;yb?與評(píng)估網(wǎng)絡(luò)Q。的Q值估計(jì)Q0(Sb?,ab)之間差值的平方關(guān)于參數(shù)θ的梯度[0074]計(jì)算重要經(jīng)驗(yàn)樣本集B={e,e?,…,eB}中所有重要經(jīng)驗(yàn)樣本對(duì)參數(shù)θ的綜合敏θ賦給目標(biāo)網(wǎng)絡(luò)Q,即θ'←θ。[0087]3)決策算法采用改進(jìn)DQN算法,通過(guò)考量多維度因素和動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)系數(shù)對(duì)獎(jiǎng)勵(lì)附圖說(shuō)明[0088]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0090]圖2為本發(fā)明中改進(jìn)DQN算法的流程示意圖。具體實(shí)施方式[0091]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0092]一種基于深度強(qiáng)化學(xué)習(xí)的毫米波雷達(dá)盲點(diǎn)檢測(cè)方法,如圖1和圖2所示,S1、通過(guò)發(fā)射和接收毫米波信號(hào)來(lái)探測(cè)車輛盲點(diǎn)區(qū)域的目標(biāo)信息,具體包括:[0093]S11、采用混沌序列x。(混沌信號(hào)具有非周期性、寬帶頻譜和對(duì)初始條件敏感等特性)對(duì)毫米波載波信號(hào)A.cos(2πft)進(jìn)行混沌調(diào)制,經(jīng)過(guò)混沌調(diào)制后的毫米波信號(hào)s(t)[0096]S12、在實(shí)際的車輛行駛場(chǎng)景中,為更好地適應(yīng)不同環(huán)境因素對(duì)毫米波信號(hào)s(t)的傳播產(chǎn)生的影響,讓調(diào)制系數(shù)k隨事件或環(huán)境自適應(yīng)變化,記為k(t),同時(shí)考慮信道的多徑衰落特性,引入信道沖激響應(yīng)h(t)與毫米波信號(hào)s(t)進(jìn)行卷積,更新后的經(jīng)過(guò)混沌調(diào)制后的毫米波信號(hào)s'(t)為:[0098]S2、對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行濾波、聚類和目標(biāo)跟蹤,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)據(jù),具[0099]S21、對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行卡爾曼濾波,以去除毫米波雷達(dá)數(shù)據(jù)中的噪聲干擾;[0100]S22、根據(jù)數(shù)據(jù)點(diǎn)之間的密度相連性,對(duì)具有相似特征的數(shù)據(jù)點(diǎn)進(jìn)行聚類,以便區(qū)分不同目標(biāo);[0101]S23、在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)[0102]具體地,S21中對(duì)毫米波雷達(dá)數(shù)據(jù)進(jìn)行卡爾曼濾波,以去除毫米波雷達(dá)數(shù)據(jù)中的噪[0109]S23中在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到盲點(diǎn)區(qū)域的目標(biāo)數(shù)[0110]采用多目標(biāo)跟蹤MOT算法在連續(xù)幀毫米波雷達(dá)數(shù)據(jù)中關(guān)聯(lián)同一目標(biāo)的軌跡,得到[0113]改進(jìn)DQN算法在訓(xùn)練過(guò)程中引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制,優(yōu)先選擇重要的經(jīng)驗(yàn)樣本進(jìn)[0114]1)改進(jìn)DQN算法通過(guò)考量多維度因素和動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)系數(shù)對(duì)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)進(jìn)行優(yōu)2、2分別為速度變化權(quán)重系數(shù)、距離變化權(quán)重系數(shù),用于調(diào)節(jié)速度、距離變化率對(duì)獎(jiǎng)勵(lì)[0125]2)改進(jìn)DQN算法在訓(xùn)練過(guò)程中引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制,優(yōu)先選擇重要的經(jīng)驗(yàn)樣本Qe(s;+1,a)是參數(shù)為θ'的目標(biāo)網(wǎng)絡(luò)Q.在狀態(tài)si+1下采取動(dòng)作a’時(shí)的Q值估計(jì),Y為折扣[0134]其中,8為一個(gè)很小的整數(shù),用于避免δ=0時(shí)優(yōu)先級(jí)為零的情況;時(shí)等價(jià)于隨機(jī)抽樣,當(dāng)α=1時(shí)完全按照優(yōu)先級(jí)對(duì)所有經(jīng)驗(yàn)樣本進(jìn)行抽樣,N為經(jīng)驗(yàn)回放緩[0139]3)采用基于動(dòng)態(tài)權(quán)重分配與反饋調(diào)節(jié)的梯度下降算法更新評(píng)估網(wǎng)絡(luò)的參數(shù),包eb=(%,ab?>FB→S,+1,d?算損失函數(shù)L(θ):[0145]S333、采用基于動(dòng)態(tài)權(quán)重分配與反饋數(shù)θ。節(jié)系數(shù)ψ=0.5,構(gòu)建綜合敏感度S,用于記錄重要經(jīng)驗(yàn)樣本對(duì)參數(shù)θ的損失敏感度,初始值設(shè)為0;[0148]S3332、梯度計(jì)算階段:計(jì)算重要經(jīng)驗(yàn)樣本的目標(biāo)值[0151]對(duì)重要經(jīng)驗(yàn)樣本集B={eB,e?,,e,}中所有重要經(jīng)驗(yàn)樣本的上述梯度計(jì)算平均值,得到損失函數(shù)L(θ)關(guān)于參數(shù)θ的梯度V?L(θ):[0153]S3333、動(dòng)態(tài)權(quán)重分配階段:計(jì)算重要經(jīng)驗(yàn)樣本eB=(s??,a??,7i,>S?+1,d?。)對(duì)參數(shù)θ的損失敏感度δ,即對(duì)參數(shù)θ進(jìn)行微小擾動(dòng)△θ得到的損失函數(shù)變化量△L與該微小擾動(dòng)[0155]計(jì)算重要經(jīng)驗(yàn)樣本集B={e,e?,,e}中所有重要經(jīng)驗(yàn)樣本對(duì)參數(shù)θ的綜合敏感度S:[0157]根據(jù)綜合敏感度S對(duì)動(dòng)態(tài)權(quán)重分配系數(shù)w進(jìn)行更新:[0159]S3334、參數(shù)更新階段:根據(jù)動(dòng)態(tài)權(quán)重分配系數(shù)w調(diào)整學(xué)習(xí)率S=SoW,并更新參數(shù)θQ。的性能進(jìn)行評(píng)估,若驗(yàn)證集平均損失Lva較上一輪下降幅度超過(guò)預(yù)設(shè)閾值(0.1),則認(rèn)為當(dāng)前權(quán)重分配策略有效,保持動(dòng)態(tài)權(quán)重分配系數(shù)w不變;否則,對(duì)動(dòng)態(tài)權(quán)重分配系數(shù)w進(jìn)行反饋調(diào)節(jié):[0161]對(duì)于綜合敏感度S較高,但參數(shù)更新后性能未提升的情況,適當(dāng)降低動(dòng)態(tài)權(quán)重分配[0162]對(duì)于綜合敏感度S較低,但參數(shù)更新后性能未下降的情況,適當(dāng)提高動(dòng)態(tài)權(quán)重分配系數(shù)w,即w=w(1+ψ)。[0164]判斷當(dāng)前步數(shù)是否為目標(biāo)網(wǎng)絡(luò)更新間隔C的倍數(shù),若是,則將評(píng)估網(wǎng)絡(luò)Q。的參數(shù)θ賦給目標(biāo)網(wǎng)絡(luò)Qg,即θ'←θ.1:經(jīng)驗(yàn)回放緩沖區(qū)大小N、總訓(xùn)練步數(shù)T、目標(biāo)網(wǎng)絡(luò)更新間隔C、折扣因子γ2:優(yōu)先經(jīng)驗(yàn)回放參數(shù)α,ε、批量大小n、經(jīng)驗(yàn)回放緩沖區(qū)D、當(dāng)前步數(shù)t=03:評(píng)估網(wǎng)絡(luò)Q、目標(biāo)網(wǎng)絡(luò)Qα、網(wǎng)絡(luò)參數(shù)θ=θ'5:獲取當(dāng)前狀態(tài)s,7:a=隨機(jī)選擇一個(gè)動(dòng)作9:a=根據(jù)評(píng)估網(wǎng)絡(luò)Q。選擇動(dòng)作11:r,s+,d,=執(zhí)行動(dòng)作a,并獲取獎(jiǎng)勵(lì)、下一個(gè)狀態(tài)和結(jié)束標(biāo)志12:將e=(s,a,P?,S+1,d.)存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū)D中14:continue#繼續(xù)進(jìn)行環(huán)境交互和存儲(chǔ)經(jīng)驗(yàn)17:計(jì)算TD誤差δ,和優(yōu)先級(jí)pi18:計(jì)算采樣概率P(i)19:根據(jù)采樣概率P(i)從D中采樣一批經(jīng)驗(yàn)樣本B,大小為n21:計(jì)算目標(biāo)值yb以及評(píng)估網(wǎng)絡(luò)預(yù)測(cè)值Q(s,a)22:計(jì)算損失L(θ)24:使用基于動(dòng)態(tài)權(quán)重分配與反饋調(diào)節(jié)的梯度下降算法更新評(píng)估網(wǎng)絡(luò)Q。的參數(shù)26:θ'=θ#將評(píng)估網(wǎng)絡(luò)參數(shù)賦給目標(biāo)網(wǎng)絡(luò)13/14頁(yè)13/14頁(yè)基于動(dòng)態(tài)權(quán)重分配與反饋調(diào)節(jié)的梯度下降算法的偽代碼如表2所示:表2基于動(dòng)態(tài)權(quán)重分配與反饋調(diào)節(jié)的梯度下降算法的偽代碼1:網(wǎng)絡(luò)參數(shù)θ、學(xué)習(xí)率so、動(dòng)態(tài)權(quán)重w、反饋調(diào)節(jié)系數(shù)ψ、敏感度矩陣S2:計(jì)算損失函數(shù)L(θ)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論