版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
討論新銳大語言模型deepseek如何助力自動駕駛是車輛行業(yè)當(dāng)前的熱點(diǎn)問題。按照一個自然合理的討論過程,本文首先討論自動駕駛(AD)有哪些環(huán)節(jié)構(gòu)成,其次討論deepseek的來龍去脈,再討論自動駕駛哪些環(huán)節(jié)可以用到deepseek,最后總結(jié)和展望。一、自動駕駛的技術(shù)棧自動駕駛的技術(shù)棧涵蓋了多個領(lǐng)域,包括感知、決策、控制和系統(tǒng)集成等。自動駕駛技術(shù)棧中的主要組成部分如下:1.傳感器:自動駕駛系統(tǒng)使用多種傳感器來獲取環(huán)境信息,如雷達(dá)、攝像頭、激光雷達(dá)、超聲波傳感器等。這些傳感器提供關(guān)于周圍物體、道路狀況和其他交通參與者的數(shù)據(jù)。2.感知與感知融合:感知模塊使用傳感器數(shù)據(jù)進(jìn)行物體檢測、分類、跟蹤和場景理解等任務(wù)。感知融合將來自不同傳感器的數(shù)據(jù)進(jìn)行整合,提供對環(huán)境的全局感知和理解。3.地圖和定位:地圖和定位模塊為自動駕駛系統(tǒng)提供定位和地圖信息。高精度地圖用于提供車輛所處位置、車道信息、交通標(biāo)志和交通規(guī)則等,以幫助車輛進(jìn)行路徑規(guī)劃和決策。4.路徑規(guī)劃與決策:路徑規(guī)劃模塊使用感知和地圖數(shù)據(jù),為車輛規(guī)劃安全和高效的行駛路徑。決策模塊基于感知和路徑規(guī)劃的結(jié)果,制定實時決策策略,如車輛的轉(zhuǎn)向、加減速和避讓行為等。5.控制系統(tǒng):控制系統(tǒng)模塊將決策結(jié)果轉(zhuǎn)化為車輛的具體控制指令。它涵蓋了車輛的轉(zhuǎn)向、加減速、制動和穩(wěn)定控制等,以確保車輛按照決策模塊的指令進(jìn)行安全、平穩(wěn)的行駛。6.人機(jī)交互:人機(jī)交互模塊負(fù)責(zé)與駕駛員或乘客進(jìn)行交互,如語音指令、觸摸屏界面、圖形顯示等。它使駕駛員能夠與自動駕駛系統(tǒng)進(jìn)行溝通、了解當(dāng)前狀態(tài)和提供輸入。7.安全和監(jiān)控系統(tǒng):安全和監(jiān)控系統(tǒng)用于監(jiān)測自動駕駛系統(tǒng)的狀態(tài),檢測故障、異常和緊急情況,以確保系統(tǒng)的安全性和可靠性。它還可以提供實時監(jiān)控、數(shù)據(jù)記錄和故障排查等功能。8.數(shù)據(jù)處理和機(jī)器學(xué)習(xí):大數(shù)據(jù)處理和機(jī)器學(xué)習(xí)在自動駕駛中起著重要作用。通過對大量數(shù)據(jù)進(jìn)行處理和分析,可以提高感知、決策和預(yù)測的準(zhǔn)確性和魯棒性。9.算法開發(fā)和優(yōu)化:算法開發(fā)和優(yōu)化涉及開發(fā)和改進(jìn)自動駕駛系統(tǒng)的核心算法,包括感知、路徑規(guī)劃、決策和控制等。不斷改進(jìn)算法可以提高系統(tǒng)性能和駕駛體驗。
10.系統(tǒng)集成和測試:自動駕駛技術(shù)棧的最后一個環(huán)節(jié)是系統(tǒng)集成和測試。這包括將各個模塊整合到一個完整的系統(tǒng)中,并進(jìn)行功能驗證、安全性測試和實地路測等,以確保系統(tǒng)的穩(wěn)定性和安全性。雖然自動駕駛技術(shù)異常復(fù)雜和龐大,但概括言之,運(yùn)行階段的自動駕駛就是三大塊:第一塊感知:感知到自身的位置速度和其它障礙物的位置速度,把它們的實時位置標(biāo)注在地圖上。特別注意,感知包括定位,也就是感知自身的真實位置。這一塊最重要的技術(shù)是廣義的計算機(jī)視覺(CV,computervision)。廣義是指不僅處理攝像頭數(shù)據(jù),還會處理點(diǎn)云數(shù)據(jù)。點(diǎn)云數(shù)據(jù)一般是四元組(x,y,z,u),xyz是點(diǎn)云像素點(diǎn)的三維坐標(biāo),u是信號反射強(qiáng)度。AD車輛的感知第二塊決策或者叫規(guī)劃?,F(xiàn)在車輛已經(jīng)知道自己的位置和所有潛在障礙物的位置,并且還可以根據(jù)障礙物的速度方向(如果是動態(tài)的話)預(yù)測障礙物短期新的位置。又知道自己要去的位置,那么就可以在地圖上用圖論算法規(guī)劃路徑,路徑連接本車當(dāng)前位置和目標(biāo)位置,中途避開所有障礙物。這一塊核心技術(shù)是路徑的圖論規(guī)劃,包括:a、圖論算路算法b、路徑平滑(不能光有連線,還得光滑)c、速度規(guī)劃(不光有光滑連線,還有連線上每一個點(diǎn)的行車速度)
為了理解算路技術(shù)棧和大語言模型之間的技術(shù)差異,我們詳述一下圖論中的算路算法。它是一種在圖結(jié)構(gòu)數(shù)據(jù)上進(jìn)行路徑計算和搜索的重要方法。它主要研究如何在圖中的節(jié)點(diǎn)與節(jié)點(diǎn)之間找到一條或多條有效的路徑,以滿足特定的需求,比如最短路徑、最快路徑或者最小成本路徑等,而且所有路徑可以指定避開的節(jié)點(diǎn)(避障)。在圖論中,一個圖由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)代表對象或者事件,而邊則表示節(jié)點(diǎn)之間的關(guān)系或者連接。算路算法就是通過對這些節(jié)點(diǎn)和邊的分析,來尋找滿足特定條件的路徑。常見的圖論算路算法包括迪杰斯特拉算法(Dijkstra'salgorithm),它用于計算一個節(jié)點(diǎn)到其他所有節(jié)點(diǎn)的最短路徑;貝爾曼-福特算法(Bellman-Fordalgorithm),它可以處理帶有負(fù)權(quán)重邊的圖,并且能夠檢測負(fù)權(quán)重環(huán);弗洛伊德-沃沙爾算法(Floyd-Warshallalgorithm),它用于計算圖中所有節(jié)點(diǎn)對之間的最短路徑;以及A*搜索算法,它是一種啟發(fā)式搜索算法,常用于路徑尋找和圖遍歷等問題。這些算法在網(wǎng)絡(luò)路由、地圖導(dǎo)航、社交網(wǎng)絡(luò)分析、運(yùn)輸系統(tǒng)優(yōu)化等多個領(lǐng)域都有廣泛的應(yīng)用。例如,在網(wǎng)絡(luò)路由中,路由器使用算路算法來確定數(shù)據(jù)包從源頭到目的地的最佳路徑;在地圖導(dǎo)航系統(tǒng)中,算路算法幫助用戶找到從一個地點(diǎn)到另一個地點(diǎn)的最快或者最短路線。AD車輛算路AD車輛算第三塊是控制。路徑已經(jīng)決定,但還得沿著路經(jīng)精確地開過去??刂频暮诵脑~是”精確地“執(zhí)行。車輛是一個復(fù)雜的機(jī)械系統(tǒng),每一個執(zhí)行環(huán)節(jié)都有自己的動態(tài)誤差和靜態(tài)誤差。道路行車同樣復(fù)雜,哪怕左輪不小心壓到一個小石子,都會對控制造成隨機(jī)干擾??刂频暮诵募夹g(shù)在于各種濾波算法,其中最為著名的當(dāng)屬卡爾曼濾波??柭鼮V波是一種高效的遞歸濾波器,它能夠在存在噪聲的情況下,通過系統(tǒng)的動態(tài)模型和觀測數(shù)據(jù),估計出系統(tǒng)的狀態(tài)。這種算法在導(dǎo)航、自動控制、信號處理等領(lǐng)域有著廣泛的應(yīng)用。除了濾波算法,控制技術(shù)還涉及到多種控制算法,其中最為常用的是比例-積分-微分控制器,簡稱PID控制器。PID控制器因其結(jié)構(gòu)簡單、易于實現(xiàn)而被廣泛應(yīng)用于工業(yè)自動化領(lǐng)域。它通過比例(P)、積分(I)和微分(D)三個環(huán)節(jié)來調(diào)節(jié)系統(tǒng)的輸出,以達(dá)到預(yù)期的控制效果。比例環(huán)節(jié)能夠快速響應(yīng)偏差,積分環(huán)節(jié)可以消除穩(wěn)態(tài)誤差,而微分環(huán)節(jié)則有助于抑制系統(tǒng)的超調(diào)和振蕩。通過合理調(diào)整這三個參數(shù),PID控制器能夠?qū)崿F(xiàn)對系統(tǒng)穩(wěn)定性和響應(yīng)速度的良好控制。
機(jī)器人在濾波算法和pid控制下前往指定地點(diǎn)除了上面三大塊外,還有比較獨(dú)立的SLAM技術(shù)。SLAM(SimultaneousLocalizationandMapping,同時定位與地圖構(gòu)建)技術(shù)已經(jīng)成為機(jī)器人領(lǐng)域的研究熱點(diǎn)。通過融合激光雷達(dá)、攝像頭、IMU等多種傳感器數(shù)據(jù),SLAM技術(shù)賦予了機(jī)器人(無人駕駛車船無人機(jī)都屬于廣義的機(jī)器人)自主導(dǎo)航與環(huán)境感知的能力。由上可見,感知階段的主要處理對象是像素點(diǎn)(包括圖像和點(diǎn)云);規(guī)劃階段的主要處理對象是離散的圖論節(jié)點(diǎn);控制階段的主要處理對象是反映車輛運(yùn)動狀態(tài)的浮點(diǎn)數(shù)。那么何為deepseek?deepseek的主要處理對象又是什么?二、何為deepseek?deepseek對標(biāo)openAI的GPT系列大語言模型,和chatGPT一樣,它的主要處理對象是token。那么何為token?在自然語言處理(NLP)領(lǐng)域,token是一個極為重要的概念。它通常指代文本數(shù)據(jù)中的最小意義單位。一個token可以是單詞、標(biāo)點(diǎn)符號、數(shù)字,甚至是單個字符。在處理諸如句子、段落乃至整篇文章等文本內(nèi)容時,將文本劃分成一個個token是一種常見的預(yù)處理步驟。Tokenization(分詞)的過程就是將文本轉(zhuǎn)化為token序列的過程。這個過程可以通過不同的方法和技術(shù)來實現(xiàn),例如基于規(guī)則的分詞、基于統(tǒng)計的分詞以及深度學(xué)習(xí)模型等。通過精確的tokenization,計算機(jī)能夠更好地理解和分析人類語言,從而為后續(xù)的自然語言理解和生成任務(wù)奠定基礎(chǔ)。此外,token在自然語言處理中的應(yīng)用非常廣泛,包括但不限于機(jī)器翻譯、情感分析、問答系統(tǒng)、文本摘要等。在這些應(yīng)用中,token不僅作為輸入數(shù)據(jù)的基本單元,還在特征提取、模型訓(xùn)練等環(huán)節(jié)發(fā)揮著關(guān)鍵作用。因此,對token的深入理解和合理運(yùn)用,對于提升自然語言處理系統(tǒng)的性能具有重要意義。
我們舉一個例子,將句子“Thenon-autonomousvehiclecan'tsafelynavigatedthroughthebusycitytraffic.”分解為tokens,可以按照空格和標(biāo)點(diǎn)符號進(jìn)行分詞。下面是可能的一種分詞方式:["The","non","-","autonomous","vehicle","can","'t","safely","navigated","through","the","busy","city","traffic","."]可見token是比word更小的最小語言單元。請注意到can't這個詞,被分解為了can和‘t兩個token。deepseek架構(gòu)圖下面我們列出openAI和Deepseek兩家公司的對比:公司OpenAIDeepSeek成立年份20152023總部加利福尼亞州舊金山中國杭州發(fā)展重點(diǎn)廣泛的AI能力高效、開源模型主要模型GPT-4o,o1DeepSeek-V3,DeepSeek-R1專用模型DALL·E(圖像生成),Whisper(語音識別)DeepSeekCoder(編碼),JanusPro(視覺模型)API定價每百萬tokenso1:$15(輸入),$60(輸出)每百萬tokensDeepSeek-R1:$0.55(輸入),$2.19(輸出)開源政策有限大部分開源訓(xùn)練方法監(jiān)督和基于指令的微調(diào)強(qiáng)化學(xué)習(xí)開發(fā)成本估計為數(shù)億美元(o1)據(jù)該公司不到600萬美元(DeepSeek-R1)在以上deepseek與openAI的量化對比中,可以清晰看到DeepSeek的主要處理對象是token,并且無論在輸入還是輸出,deepseek每一個token的處理成本遠(yuǎn)低于openAI。三、自動駕駛中應(yīng)用多模態(tài)的deepseek
自動駕駛感知階段的主要處理對象是像素點(diǎn)(包括圖像和點(diǎn)云);規(guī)劃階段的主要處理對象是離散的圖論節(jié)點(diǎn);控制階段的主要處理對象是反映車輛運(yùn)動狀態(tài)的浮點(diǎn)數(shù)。而deepseek的主要處理對象是作為語言原子單元的token。二者似乎并不一致。如何處理這一點(diǎn),好為自動駕駛車輛用上最新的AI科技?秘訣在于大語言模型的多模態(tài)擴(kuò)展。大語言模型的多模態(tài)擴(kuò)展是指將語言模型的能力從僅處理文本數(shù)據(jù)擴(kuò)展到能夠理解和生成多種類型的數(shù)據(jù),包括圖像、音頻、視頻等多種形式的信息。這種擴(kuò)展使得大語言模型能夠更好地模擬人類的認(rèn)知能力,從而在更廣泛的場景中發(fā)揮作用。以下是幾種常見的多模態(tài)擴(kuò)展方法和技術(shù):
1.多模態(tài)輸入處理:這種方法允許模型同時處理文本和其他類型的輸入數(shù)據(jù)(如圖像、音頻)。例如,一個模型可能需要理解一張圖片并根據(jù)圖片內(nèi)容生成描述性的文本。為了實現(xiàn)這一點(diǎn),模型通常會使用特定的架構(gòu)來分別處理不同類型的輸入,并將它們?nèi)诤显谝黄疬M(jìn)行最終的輸出。2.跨模態(tài)理解與生成:這涉及到在不同模態(tài)之間建立聯(lián)系,比如通過文本描述生成圖像或根據(jù)圖像生成描述性文本。這要求模型具備跨模態(tài)的知識表示學(xué)習(xí)能力,以便在不同的數(shù)據(jù)類型之間建立有效的映射關(guān)系。3.注意力機(jī)制:注意力機(jī)制可以幫助模型在處理多模態(tài)數(shù)據(jù)時關(guān)注最重要的部分。例如,在處理圖文混排的輸入時,模型可以通過注意力機(jī)制決定是更多地關(guān)注圖像還是文本,或者兩者之間的相互作用。有了多模態(tài)技術(shù)加持,大語言模型才能高效增強(qiáng)自動駕駛技術(shù)。Deepseek產(chǎn)品家族中的deepseekV3就是一種多模態(tài)大語言模型。我們在此羅列一些已知的自動駕駛中應(yīng)用多模態(tài)的deepseek的場景,而且這些場景還在持續(xù)增加中:1.多模態(tài)環(huán)境感知增強(qiáng)
技術(shù)實現(xiàn):傳感器融合:將攝像頭圖像、激光雷達(dá)點(diǎn)云、毫米波雷達(dá)信號等輸入DeepSeek-V3,通過跨模態(tài)對齊技術(shù)(如注意力機(jī)制)實現(xiàn)數(shù)據(jù)融合。例如,模型可將圖像中的紅綠燈識別與雷達(dá)的測距數(shù)據(jù)進(jìn)行時空對齊。開放世界理解:利用大模型的開放域知識,識別訓(xùn)練數(shù)據(jù)中未覆蓋的罕見物體(如特殊工程車輛、動物),彌補(bǔ)傳統(tǒng)感知模型的長尾問題。
語義場景分割:通過視覺-語言聯(lián)合建模,生成道路場景的語義描述(如“濕滑路面”“臨時施工區(qū)域”),為決策提供上下文信息。工程挑戰(zhàn):實時性優(yōu)化:需通過模型輕量化(如知識蒸餾)或邊緣計算部署,將推理延遲壓縮至毫秒級。不確定度校準(zhǔn):對模型輸出的置信度進(jìn)行量化,避免錯誤感知引發(fā)連鎖風(fēng)險。2.可解釋決策與因果推理
技術(shù)實現(xiàn):因果決策樹:將駕駛策略分解為“IF-THEN”規(guī)則鏈,由DeepSeek生成決策邏輯的自然語言解釋(如“減速因為前方行人正在看手機(jī)可能闖入車道”)。博弈建模:模擬其他交通參與者(車輛、行人)的意圖預(yù)測,構(gòu)建博弈論框架下的交互決策。倫理權(quán)衡框架:針對“電車難題”類極端場景,利用大模型的社會常識生成符合倫理的優(yōu)先級判斷。工程挑戰(zhàn):邏輯可驗證性:需將自然語言決策轉(zhuǎn)化為形式化驗證框架(如時序邏輯),確保符合ISO26262功能安全標(biāo)準(zhǔn)。
實時推理成本:復(fù)雜因果鏈推理需設(shè)計分層決策機(jī)制,高頻操作(如跟車)由傳統(tǒng)控制算法處理,低頻復(fù)雜場景觸發(fā)大模型介入。3.動態(tài)高精地圖構(gòu)建
技術(shù)實現(xiàn):在線語義建圖:通過視覺SLAM+大模型實時生成道路拓?fù)浣Y(jié)構(gòu)的語義描述(如“第三車道因施工封閉”),替代預(yù)加載高精地圖。眾包地圖更新:車輛群將局部感知結(jié)果上傳至云端,DeepSeek-V3整合多源數(shù)據(jù)生成動態(tài)地圖更新包。長尾場景標(biāo)注:自動識別道路異常(如塌陷、遺落貨物),通過Few-shot學(xué)習(xí)快速生成標(biāo)注數(shù)據(jù)。工程挑戰(zhàn):數(shù)據(jù)一致性:需解決多車感知結(jié)果的時空對齊和沖突消解。通信延遲容忍:設(shè)計去中心化地圖更新協(xié)議,在弱網(wǎng)環(huán)境下仍能保障基礎(chǔ)功能。4.人機(jī)協(xié)同駕駛
技術(shù)實現(xiàn):意圖理解與接管預(yù)測:通過車內(nèi)攝像頭和語音輸入,實時分析駕駛員狀態(tài)(如疲勞、分心),預(yù)測接管需求時機(jī)。自然語言交互:支持語音指令細(xì)粒度控制(如“在下個便利店停車”),同時解釋自動駕駛系統(tǒng)的行為(如“即將變道超車因為當(dāng)前車速低于限速”)。個性化策略適配:學(xué)習(xí)駕駛員習(xí)慣(如跟車距離偏好、變道激進(jìn)程度),調(diào)整自動駕駛策略參數(shù)。工程挑戰(zhàn):多模態(tài)信號融合:需同步處理語音、手勢、生物傳感器等多通道輸入。隱私保護(hù):駕駛員行為數(shù)據(jù)需本地化處理,避免云端泄露風(fēng)險。5.仿真與影子模式迭代
自動駕駛的影子模式(shadowmode)是一種后臺優(yōu)化自動駕駛算法的方法。當(dāng)車輛處于有人駕駛狀態(tài)時,自動駕駛系統(tǒng)的傳感器會不斷采集路況信息,包括道路狀況、車輛位置、行人動態(tài)等。同時,自動駕駛算法會根據(jù)這些信息模擬出相應(yīng)的駕駛決策。然而,這些決策并不會直接控制車輛,而是與駕駛員的實際操作進(jìn)行對比。如果自動駕駛算法的模擬決策與駕駛員的操作一致,說明算法在該場景下表現(xiàn)良好;如果存在差異,特別是當(dāng)算法決策與駕駛員操作差異超過閾值時,系統(tǒng)觸發(fā)數(shù)據(jù)回傳機(jī)制。這些高價值數(shù)據(jù)(包括路況和駕駛員對應(yīng)操作,作為feature-label對應(yīng)的訓(xùn)練數(shù)據(jù))將被上傳到云端,用于持續(xù)優(yōu)化自動駕駛算法。影子模式可以簡單理解為自動駕駛世界的”虛擬炒股“。技術(shù)實現(xiàn):
場景生成引擎:利用DeepSeek-V3生成涵蓋極端天氣、事故場景的虛擬測試用例,加速CornerCase覆蓋。自動標(biāo)注工具:對實車采集的未標(biāo)注數(shù)據(jù),通過提示工程(PromptEngineering)生成高質(zhì)量訓(xùn)練標(biāo)簽。在線持續(xù)學(xué)習(xí):在影子模式下對比人類駕駛與AI決策差異,自動生成強(qiáng)化學(xué)習(xí)獎勵函數(shù)。工程挑戰(zhàn):仿真保真度:需物理引擎與大模型生成場景的耦合優(yōu)化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 墻面保修合同范本
- 擬定合作合同范本
- 挪用公款合同協(xié)議
- 排土工程合同范本
- 教師租用合同范本
- 旅行團(tuán)費(fèi)用協(xié)議書
- 搬家運(yùn)輸協(xié)議合同
- 2025年企業(yè)文化傳播與創(chuàng)新項目可行性研究報告
- 2025年智能安全監(jiān)控系統(tǒng)應(yīng)用可行性研究報告
- 2025年新一代信息技術(shù)與制造業(yè)融合可行性研究報告
- 2025年四級營養(yǎng)師考試題庫(含答案)
- 2025貴州銅仁市千名英才·智匯銅仁赴西安引才151人(公共基礎(chǔ)知識)測試題附答案解析
- 復(fù)腎寧膠囊質(zhì)量標(biāo)準(zhǔn)研究
- 2025團(tuán)員教育評議大會
- 2025年10月自考14462小學(xué)綜合性學(xué)習(xí)與跨學(xué)科教學(xué).試題及答案
- 七年級歷史上冊第三次月考卷新教材統(tǒng)編版
- 德國風(fēng)俗文化概述
- 糖尿病足潰瘍VSD治療創(chuàng)面負(fù)壓參數(shù)優(yōu)化方案
- 英語專業(yè)畢業(yè)論文完整版
- 鐵路客運(yùn)規(guī)章應(yīng)用課件 1-2 鐵路旅客票價計算
- 三類醫(yī)療器械經(jīng)營企業(yè)負(fù)責(zé)人試題卷(附答案)
評論
0/150
提交評論