汽車行業(yè)深度報(bào)告:當(dāng)自動駕駛與機(jī)器人共振:詳解VLA與世界模型_第1頁
汽車行業(yè)深度報(bào)告:當(dāng)自動駕駛與機(jī)器人共振:詳解VLA與世界模型_第2頁
汽車行業(yè)深度報(bào)告:當(dāng)自動駕駛與機(jī)器人共振:詳解VLA與世界模型_第3頁
汽車行業(yè)深度報(bào)告:當(dāng)自動駕駛與機(jī)器人共振:詳解VLA與世界模型_第4頁
汽車行業(yè)深度報(bào)告:當(dāng)自動駕駛與機(jī)器人共振:詳解VLA與世界模型_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

證券分析師證券分析師聯(lián)系人聯(lián)系人板塊表現(xiàn):VLA模型具備成為具身智能基礎(chǔ)模型潛力。視覺-語言-動作模型(VLA)代表一類旨在處理多模態(tài)輸入與輸出的模型,通用性是VLA模型的核心特點(diǎn)之一,體現(xiàn)在其以多模態(tài)大語言模型為底座,具備“理解萬物”的能力,VLA模型的理解能力和多任務(wù)泛化能力讓模型在不同的應(yīng)用場景中具備出色表現(xiàn),展現(xiàn)出超越自動駕駛乃至機(jī)器人等單獨(dú)垂域應(yīng)用的潛力,有望成為廣義具身智能基礎(chǔ)模型范式。VLA模型是自動駕駛向知識驅(qū)動、體驗(yàn)優(yōu)先升級的技術(shù)基礎(chǔ)。我們認(rèn)為汽車領(lǐng)域智能化的最終形式是實(shí)現(xiàn)駕駛領(lǐng)域的通用人工智能,而非簡單的汽車電子軟件智能化,這使得汽車從第三人稱智能化向第一人稱智能化、由數(shù)據(jù)驅(qū)動向知識驅(qū)動進(jìn)化成為自動駕駛進(jìn)化的未來趨勢,而VLA模型特別是其中語言類大模型的成功引入則奠定了范式轉(zhuǎn)變的技術(shù)基礎(chǔ)。底層技術(shù)邏輯升維也帶動了車端應(yīng)用焦點(diǎn)由基本功能實(shí)現(xiàn)向人車交互性、極端場景通過性等體驗(yàn)提升轉(zhuǎn)變,中期維度看,不同車企自動駕駛的模型性能領(lǐng)先、功能領(lǐng)先將轉(zhuǎn)化為體驗(yàn)領(lǐng)先并重塑汽車行業(yè)產(chǎn)品生態(tài),知識驅(qū)動范式的智能化模型也將重新定義自動駕駛,行業(yè)將真正開啟電動智能化下半場角逐。工程化部署能力是當(dāng)前車端VLA核心矛盾?,F(xiàn)有車端VLA技術(shù)路線尚未收斂且工程部署較少,但由于汽車面臨的結(jié)構(gòu)場景和任務(wù)單一、硬件結(jié)構(gòu)較統(tǒng)一、數(shù)據(jù)和汽車保有量高、車端算力相對充足等因素,車端VLA范式落地前景已經(jīng)較為明朗。我們認(rèn)為:1)在汽車VLA模型的數(shù)據(jù)閉環(huán)構(gòu)建過程中,獲取良好3D中間表征、強(qiáng)化模型長時(shí)序記憶能力與端側(cè)計(jì)算效率、優(yōu)化模型架構(gòu)、構(gòu)建高保真的云端模擬環(huán)境等環(huán)節(jié)是VLA端側(cè)工程部署的關(guān)鍵。2)在模型訓(xùn)練方法上,行為克?。ǔ醪接?xùn)練端到端模型)+逆強(qiáng)化學(xué)習(xí)(從專家數(shù)據(jù)中初始化獎勵函數(shù))+強(qiáng)化學(xué)習(xí)(通過與環(huán)境交互改善模型和獎勵函數(shù))方案或?qū)⒊蔀槲磥碜择{模型訓(xùn)練主流方案。具身智能本質(zhì)是自動駕駛的升維問題,構(gòu)建數(shù)據(jù)閉環(huán)是關(guān)鍵。具身智能的場景、任務(wù)復(fù)雜度更高、本體自由度更高、感知方式更靈活、硬件構(gòu)型更差異化等因素決定了具身VLA模型的數(shù)據(jù)閉環(huán)構(gòu)建難度遠(yuǎn)超自動駕駛;但同時(shí)智能汽車實(shí)質(zhì)上是物理智能體的具體形式之一,自動駕駛與具身智能在核心的智能化能力即模型構(gòu)建方法論以及具體的硬件零部件領(lǐng)域有諸多可遷移之處,因此具身智能本質(zhì)是自動駕駛的升維問題。我們認(rèn)為,當(dāng)前以人形機(jī)器人為代表的具身智能關(guān)鍵問題在于還無法進(jìn)行有效的數(shù)據(jù)采集進(jìn)而實(shí)現(xiàn)數(shù)據(jù)閉環(huán),而無法Scaling的具身模型就無從實(shí)現(xiàn)智能化。在當(dāng)前階段,標(biāo)準(zhǔn)化與模型性能優(yōu)化是破局的關(guān)鍵點(diǎn):1)首先需要標(biāo)準(zhǔn)化,尤其是底層硬件、通信協(xié)議的標(biāo)準(zhǔn)化,底層零部件和軟件基礎(chǔ)標(biāo)準(zhǔn)化是機(jī)器人統(tǒng)一構(gòu)型以進(jìn)行規(guī)?;瘮?shù)據(jù)收集破局?jǐn)?shù)據(jù)-模型能力的雞生蛋問題以及壯大行業(yè)供應(yīng)鏈的關(guān)鍵;2)模型優(yōu)化核心在于閉環(huán)模型構(gòu)建以及模型物理交互能力建設(shè),其中物理交互能力的引入或是未來人形機(jī)器人向真正具身智能體轉(zhuǎn)化的關(guān)鍵。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明投資建議:建議關(guān)注本輪智能化進(jìn)展較快的整車企業(yè)理想汽車、小鵬汽車風(fēng)險(xiǎn)提示:1)新技術(shù)迭代風(fēng)險(xiǎn)、2)市場競爭加劇風(fēng)險(xiǎn)、3)宏觀經(jīng)濟(jì)環(huán)境波動風(fēng)險(xiǎn)請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明1.自動駕駛模型范式由數(shù)據(jù)驅(qū)動向知識驅(qū)動升維 71.1.自動駕駛兩大趨勢:模型數(shù)據(jù)驅(qū)動轉(zhuǎn)向知識驅(qū)動、模型功能至上邁向駕乘體驗(yàn)優(yōu)先71.2.傳統(tǒng)基于規(guī)則的模塊化算法核心缺陷在于無法Scaling 71.3.端到端模型:自動駕駛從數(shù)據(jù)驅(qū)動向知識驅(qū)動演進(jìn) 91.3.1.數(shù)據(jù)驅(qū)動的端到端模型面臨數(shù)據(jù)瓶頸 91.3.2.多模態(tài)大語言模型引入是端到端模型實(shí)現(xiàn)知識驅(qū)動的關(guān)鍵 2.VLA模型是自動駕駛端到端架構(gòu)的演進(jìn)方向 122.1.VLA推動自動駕駛從功能邁向體驗(yàn) 122.2.自動駕駛VLA模型構(gòu)建與工程部署面臨的主要問題及解決方法 2.2.1.3DGS或是車端實(shí)時(shí)獲取良好3D中間特征的途徑 142.2.2.強(qiáng)化長時(shí)序記憶能力將提升VLA模型長程任務(wù)規(guī)劃與解決能力 2.2.3.優(yōu)化模型架構(gòu)與推理機(jī)制可以提高端側(cè)計(jì)算效率 162.2.4.利用世界模型構(gòu)建云端仿真環(huán)境是模型閉環(huán)測試、強(qiáng)化學(xué)習(xí)的關(guān)鍵 2.3.自動駕駛典型VLA架構(gòu) 2.3.1.WaymoEMMA:開創(chuàng)性的端到端多模態(tài)自動駕駛模型 252.3.2.OpenDriveVLA框架的貢獻(xiàn)在于模型3D環(huán)境感知和交互 2.3.3.小米ORION框架引入QT-Former模塊實(shí)現(xiàn)了長時(shí)序記憶 2.3.4.理想MindVLA:深度融合空間、語言及行為智能 3.具身智能本質(zhì)是自動駕駛的升維問題,構(gòu)建數(shù)據(jù)閉環(huán)是關(guān)鍵 313.1.機(jī)器人VLA架構(gòu)的發(fā)展歷程 313.2.應(yīng)用場景與任務(wù)的差異決定了車端VLA與機(jī)器人VLA的核心差異 323.2.1.機(jī)器人VLA訓(xùn)練所需的數(shù)據(jù)規(guī)?;蜻h(yuǎn)超車端 3.2.2.硬件方案未收斂與本體高自由度限制了真實(shí)數(shù)據(jù)收集 3.2.3.算力解放是技術(shù)進(jìn)步的前提 3.2.4.構(gòu)建可供機(jī)器人使用的仿真環(huán)境需要注重可交互性建設(shè) 353.2.5.關(guān)于機(jī)器人VLA落地可能面臨問題的總結(jié) 3.3.人形機(jī)器人典型VLA架構(gòu) 3.3.1.OpenVLA:首個(gè)開源且具備商業(yè)潛力的機(jī)器人VLA模型 3.3.2.Helix:首個(gè)人形機(jī)器人上半身高速連續(xù)控制的開源模型 39請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明3.3.3.智元ViLLA:實(shí)現(xiàn)大規(guī)?;ヂ?lián)網(wǎng)異構(gòu)視頻數(shù)據(jù)高效利用 4.受益公司梳理 434.1.理想汽車:從汽車到AI,VLA范式引領(lǐng)汽車智能化升級 4.2.小鵬汽車:底層自研、全鏈自主打造“智駕端到端四部曲” 5.風(fēng)險(xiǎn)提示 請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表目錄圖表1:百度Apollo算法架構(gòu)具備典型感知、預(yù)測、規(guī)劃、控制模塊化特征 8圖表2:不同階段的自動駕駛算法演進(jìn) 8圖表3:端到端方案與傳統(tǒng)模塊化方案的對比 9圖表4:模仿學(xué)習(xí)導(dǎo)致因果混淆 圖表5:模型學(xué)習(xí)的魯棒性挑戰(zhàn)(長尾問題、數(shù)據(jù)分布偏移、數(shù)據(jù)遷移問題) 圖表6:LLM模型在自動駕駛流程中的應(yīng)用 圖表7:典型的MLLM模型架構(gòu),包含編碼器、連接器(對齊模塊)、LLM、生成器 圖表8:VLA模型的總體架構(gòu),包含編碼器、解碼器和輸出動作 圖表9:3DGS與其余三維重建技術(shù)的區(qū)別 14圖表10:3DGS場景重建效果更優(yōu) 15 圖表12:模型量化使模型計(jì)算效率翻倍 圖表14:自動駕駛模型開環(huán)評估與閉環(huán)評估的結(jié)構(gòu)對比 19圖表15:自動駕駛中的世界模型綜述 20圖表16:理想世界模型相關(guān)論文方案總結(jié) 22 圖表19:理想ReconDreamer模型長距離街景生成效果與傳統(tǒng)方法的比較 圖表20:理想相關(guān)生成模型場景刻畫與場景實(shí)時(shí)編輯 27圖表23:引入條件車輛運(yùn)動預(yù)測任務(wù)后,預(yù)測通過時(shí)延更低 圖表26:理想MindVLA后訓(xùn)練環(huán)節(jié) 31圖表27:具身智能VLA模型發(fā)展歷程 圖表28:機(jī)器人智能化模型數(shù)據(jù)金字塔 圖表29:人形機(jī)器人與汽車所面臨的場景、任務(wù)豐富度不同 請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表30:不同人形機(jī)器人本體構(gòu)型尚未確定 圖表31:PartRM模型框架,通過觀察預(yù)測形變與真實(shí)形變的差值進(jìn)行隱式學(xué)習(xí) 圖表32:不同機(jī)器人傳感器的優(yōu)缺點(diǎn)比較 圖表34:OpenVLA模型在多項(xiàng)任務(wù)測評中相較于前代模型取得了更好的效果 39 圖表36:搭載Helix模型的機(jī)器人實(shí)現(xiàn)上半身連續(xù)控制與雙機(jī)器人任務(wù)協(xié)作 圖表37:Helix模型的泛化性能與抽象概念理解能力 圖表38:智元GO-1機(jī)器人ViLLA模型架構(gòu) 42心組件 圖表40:理想汽車、小鵬汽車盈利預(yù)測 請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明1.自動駕駛模型范式由數(shù)據(jù)驅(qū)動向知識驅(qū)動升維隨著自動駕駛從單一感知任務(wù)向感知-決策-執(zhí)行的綜合任務(wù)轉(zhuǎn)化,自動駕駛不僅對于所收集數(shù)據(jù)的模態(tài)多樣性與豐富度要求提升,對于模型本身的思考、理解能力要求也愈發(fā)提高。僅僅依靠大量收集自動駕駛數(shù)據(jù)訓(xùn)練的模型(數(shù)據(jù)驅(qū)動)只能是第三人稱智能,即從旁觀者角度學(xué)習(xí)、模仿人類行為卻無法具備自我思考能力。我們認(rèn)為汽車領(lǐng)域智能化的最終目標(biāo)是實(shí)現(xiàn)車端的通用人工智能,而非簡單的汽車電子軟件智能化,這要求汽車具備第一人稱智能,即依靠自身思考能力探索環(huán)境、獲取一般知識,而不是執(zhí)行預(yù)先定義的人類規(guī)則或從收集的數(shù)據(jù)中描繪抽象特征,這使得從數(shù)據(jù)驅(qū)動范式向知識驅(qū)動范式的轉(zhuǎn)變成為自動駕駛進(jìn)化的未來趨勢,而LLM等語言類大模型的成功引入則奠定了范式轉(zhuǎn)變的技術(shù)基礎(chǔ)。數(shù)據(jù)驅(qū)動轉(zhuǎn)化為知識驅(qū)動是自動駕駛由功能實(shí)現(xiàn)邁向體驗(yàn)升級的底層技術(shù)邏輯。知識驅(qū)動范式并非完全跳脫數(shù)據(jù)驅(qū)動方法,而是在原有基礎(chǔ)上增加了知識框架設(shè)計(jì),知識驅(qū)動本身也需要不斷從數(shù)據(jù)中進(jìn)行總結(jié)提煉以獲得涌現(xiàn)能力,數(shù)據(jù)驅(qū)動向知識驅(qū)動轉(zhuǎn)化的過程即是焦點(diǎn)從自駕基本功能實(shí)現(xiàn)向人車交互性、極端場景通過性等體驗(yàn)提升轉(zhuǎn)化的過程。知識驅(qū)動的方法更為關(guān)注模型類人性、泛化性與通識能力的實(shí)現(xiàn),使汽車不再是單純的駕駛工具而是成為一個(gè)能夠與用戶進(jìn)行溝通,能理解用戶意圖甚至提供情緒價(jià)值的物理智能體。我們認(rèn)為,在不久的將來,不同企業(yè)自動駕駛的模型性能領(lǐng)先、功能領(lǐng)先將轉(zhuǎn)化為體驗(yàn)領(lǐng)先并重塑汽車行業(yè)產(chǎn)品生態(tài),知識驅(qū)動范式的智能化模型也將重新定義自動駕駛,行業(yè)預(yù)計(jì)將迎來智能化“iphone4時(shí)刻”并真正開啟電動智能化下半場角逐。傳統(tǒng)規(guī)則驅(qū)動的模塊化算法多衍生自機(jī)器人算法,該模式下通常將自動駕駛功能拆分為獨(dú)立模塊,這些模塊通常包括地圖構(gòu)建、環(huán)境感知、目標(biāo)檢測、定位、決策規(guī)劃、車輛控制等,每個(gè)模塊有自己獨(dú)立的算法和處理流程,不同模塊間采用人為定義的接口進(jìn)行連接,各個(gè)模塊之間進(jìn)行相對獨(dú)立的開發(fā)和測試,最后將它們集成實(shí)現(xiàn)自動駕駛功能。模塊化算法很大程度上依賴人工定義的規(guī)則和先驗(yàn)知識,其核心優(yōu)勢在于模型的可解釋性,在出現(xiàn)系統(tǒng)問題或部署失敗時(shí)容易調(diào)試。例如豐田TSS、百度Apollo3等早期模型都是模塊化算法代表。傳統(tǒng)的規(guī)則式模塊化算法存在固有問題,核心缺陷在于無法Scaling:1)模塊之間獨(dú)立研發(fā)與人為定義接口導(dǎo)致信息傳遞損失,無法達(dá)到全局最優(yōu),且最終結(jié)果無法反向傳播以優(yōu)化模型性能;2)基于人為定義的規(guī)則驅(qū)動,陌生環(huán)境魯棒性差,長尾問題難以解決;3)模塊間的累積誤差會影響最終結(jié)果;4)成本問題,實(shí)現(xiàn)一個(gè)較為穩(wěn)定的傳統(tǒng)規(guī)則式自駕系統(tǒng)約需要數(shù)萬條各類人工輸入規(guī)則,而一個(gè)無限接近人類司機(jī)的自動駕駛系統(tǒng)等效于數(shù)億條規(guī)則,在實(shí)際工程落地中幾乎是不可能事件。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表1:百度Apollo算法架構(gòu)具備典型感知、預(yù)測、規(guī)劃、控制模塊化特征數(shù)據(jù)驅(qū)動方法開始在部分子模塊應(yīng)用,但整體仍未跳脫規(guī)則式范疇。由于傳統(tǒng)規(guī)則算法存在諸多問題,2019年以后特斯拉逐步在子模塊中引入神經(jīng)網(wǎng)絡(luò)算法,逐步實(shí)現(xiàn)感知、規(guī)控模塊模型化并引起諸多自駕公司效仿,形成了“兩段式”、“多段式”等多種“偽端到端”模型。例如此時(shí)典型的兩段式模型中感知模塊采用多傳感器融合的BEV技術(shù)實(shí)現(xiàn)模塊級端到端,并應(yīng)用transformer等方法提升感知精度;規(guī)劃模塊則被集成在另一個(gè)神經(jīng)網(wǎng)絡(luò)中。該階段處于規(guī)則驅(qū)動到端到端模型數(shù)據(jù)驅(qū)動的中間態(tài),一方面該階段感知、決策等子模塊都由基于數(shù)據(jù)驅(qū)動的方法實(shí)現(xiàn);另一方面,從接口定義和聯(lián)合優(yōu)化角度,此時(shí)兩個(gè)模塊間的接口仍表現(xiàn)為人為定義的顯式形式,同時(shí)各模塊的優(yōu)化仍然局限在模塊內(nèi)部,可以分別做到局部最優(yōu), 但難以實(shí)現(xiàn)全局最優(yōu),因此從嚴(yán)格定義看,該階段仍屬于基于規(guī)則的模塊化算法。圖表2:不同階段的自動駕駛算法演進(jìn)資料來源:九章AI產(chǎn)業(yè)管理咨詢,華源證券研究所繪制請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明端到端是一種模型的組織框架而非具體的技術(shù)范式,其相對于模塊化的模型組織形式如同“連續(xù)”相較于“離散”的區(qū)別,或者汽車分布式架構(gòu)向域集中再到中央集中架構(gòu)升級的過程。具體而言,端到端模型可以被定義為一種基于學(xué)習(xí)的、完全可微分的算法思路,它將原始傳感器數(shù)據(jù)作為輸入,并生成軌跡規(guī)劃或低級控制動作作為輸出,其中不包含任何人為設(shè)計(jì)的模塊或接口。需要指出的是:1)自動駕駛端到端模型可以依賴不同的具體技術(shù)方法實(shí)現(xiàn),即可以利用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)架構(gòu)(數(shù)據(jù)驅(qū)動式的概率輸出)、也可以利用VLA方案(知方案。不同端到端實(shí)現(xiàn)方案會給模型構(gòu)建與性能發(fā)揮、芯片等硬件要求帶來不同影響。2)端到端模型并不一定是黑盒模式,它可以像規(guī)則算法一樣進(jìn)行模塊化設(shè)計(jì)并加入大語言模型以增強(qiáng)模型可解釋性和分部優(yōu)化,其核心在于不同模塊間傳播的是隱式特征而非具體輸出結(jié)果,不同模塊間可以聯(lián)合優(yōu)化以實(shí)現(xiàn)全局最優(yōu)性能(信息損失最小化與聯(lián)合優(yōu)化)。圖表3:端到端方案與傳統(tǒng)模塊化方案的對比注b)中灰色箭頭代表正向隱式特征傳遞,紅色箭頭代表輸出結(jié)果的反向傳播以優(yōu)化模型性能數(shù)據(jù)驅(qū)動的本質(zhì)是模型進(jìn)行模仿學(xué)習(xí),其“窮舉+歸納”的方法使模型發(fā)展面臨數(shù)據(jù)瓶頸。數(shù)據(jù)驅(qū)動范式即是從大量具體數(shù)據(jù)中抽象出統(tǒng)計(jì)規(guī)律進(jìn)行學(xué)習(xí)和決策,模型通過對大量標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練獲得相對的泛化能力,強(qiáng)調(diào)“數(shù)據(jù)即知識”,但模型本身基本不具備推理能力,想要獲得更好的模型能力,即需要窮舉更多的場景以獲得數(shù)據(jù)養(yǎng)料,數(shù)據(jù)驅(qū)動范式的具體弊端包括:1)數(shù)據(jù)量與數(shù)據(jù)質(zhì)量要求較高,且難以窮舉所有長尾場景。數(shù)據(jù)數(shù)量方面,以特斯拉為例,其FSD訓(xùn)練依賴于上千萬個(gè)視頻片段,累計(jì)時(shí)長達(dá)到幾萬小時(shí),但起初在中國落地過程中由于本地?cái)?shù)據(jù)量不足模型性能發(fā)揮仍然受到了限制,可能原因之一即是數(shù)據(jù)驅(qū)動方法無法窮舉所有長尾場景導(dǎo)致模型零樣本泛化能力較差;數(shù)據(jù)質(zhì)量方面,自駕模型的質(zhì)量很大程度上取決于所使用的訓(xùn)練數(shù)據(jù)的類型、多樣性和高質(zhì)量,但符合“老司機(jī)”標(biāo)準(zhǔn)的可模仿視頻片段和極端場景片段并不易得。2)模仿學(xué)習(xí)存在因果混淆、數(shù)據(jù)分布偏移、專家依賴性等問題。因果混淆是指模型學(xué)習(xí)到數(shù)據(jù)間的關(guān)聯(lián)性而非確定正確的因果關(guān)系,例如在十字路口停車,不能確定是因?yàn)榧t綠燈停車還是因?yàn)榕赃叺能嚋p速而停車,模型無法自主理清邏輯;數(shù)據(jù)分布偏移是指訓(xùn)練數(shù)據(jù)與實(shí)際環(huán)境之間的概率分布不同時(shí),模型性能可能急劇下降,即極端場景泛化能力有限,容易造成模型下限極低;3)專家依賴性。由于當(dāng)前模仿學(xué)習(xí)主要采取行為克隆模式,這類學(xué)習(xí)方法下專家數(shù)據(jù)質(zhì)量直接決定模型性能上限,模型通過模仿學(xué)習(xí)無法超越專家水平。圖表4:模仿學(xué)習(xí)導(dǎo)致因果混淆圖表5:模型學(xué)習(xí)的魯棒性挑戰(zhàn)(長尾問題、數(shù)據(jù)分布偏移、數(shù)據(jù)遷移問題)1.3.2.多模態(tài)大語言模型引入是端到端模型實(shí)現(xiàn)知識驅(qū)動的大語言模型引入奠定了知識驅(qū)動技術(shù)基礎(chǔ)。近年來,如GPT-4等大語言模型(LLMs)在語義理解、答案生成和處理復(fù)雜任務(wù)方面展現(xiàn)出卓越的能力,其與多種編碼器集成后形成的多模態(tài)模型實(shí)現(xiàn)了文本、圖像、視頻、點(diǎn)云等信息的統(tǒng)一特征空間映射,顯著增強(qiáng)了模型的泛化能力,使其能夠以零樣本或少樣本的方式快速適應(yīng)新場景。而將多模態(tài)大語言模型與傳統(tǒng)端到端模型進(jìn)行有機(jī)結(jié)合形成VLA模型,能夠憑借大語言模型豐富的知識庫、強(qiáng)大情景理解能力更輕松地學(xué)習(xí)復(fù)雜的駕駛行為,強(qiáng)調(diào)“理解即知識”,使得解決自動駕駛的長尾問題、規(guī)劃決策以及為決策提供直觀的解釋成為可能,進(jìn)而推動端到端模型由數(shù)據(jù)驅(qū)動范式向知識驅(qū)動范式的升級。圖表6:LLM模型在自動駕駛流程中的應(yīng)用多模態(tài)性是當(dāng)前自動駕駛VLA模型的典型特征。大語言模型(LLM)在大多數(shù)自然語言處理(NLP)任務(wù)上具有極佳推理能力,但在視覺處理上(例如理解3D空間)表現(xiàn)較差;同時(shí)例如大視覺模型(LVMs)可以輕易地處理圖像與視頻信息,但推理能力落后。因此將LLM與其他模態(tài)信息(如圖像、視頻、音頻等)結(jié)合形成多模態(tài)大語言模型(MLLMS,例如將LLM與視覺編碼器集成形成VLM)使得自動駕駛系統(tǒng)能像人類一樣理解多模態(tài)信息,甚至在具身領(lǐng)域還能依靠機(jī)器人觸覺、嗅覺等模態(tài)信息進(jìn)一步理解物理世界,同時(shí)還能依賴LLM的能力進(jìn)行深度思考與推理并做出相應(yīng)決策。自動駕駛領(lǐng)域VLA模型即是一類以大語言模型為基礎(chǔ)的多模態(tài)模型,它主要關(guān)注自動駕駛中的視覺、語言、動作三種模態(tài)信息及其之間的語義連接,其多模態(tài)屬性天然與自動駕駛的輸入輸出、人類駕駛行為的多模態(tài)性吻合,使之成為當(dāng)前自動駕駛主流基座模型。常見MLLMs的架構(gòu)組成與訓(xùn)練:常見的MLLMs架構(gòu)一般可分為4個(gè)模塊,即預(yù)訓(xùn)練的多模態(tài)編碼器、對齊模塊、預(yù)訓(xùn)練的LLM、解碼器(生成器)。以理想VLA架構(gòu)(詳見圖表25)為例,其空間智能部分集成了多模態(tài)編碼器和對齊模塊,使用一個(gè)3DEnconder編碼圖像和激光雷達(dá)信息并輸出3D特征,一個(gè)普通Encoder編碼位置、導(dǎo)航信息等文字信息,一個(gè)3D投影儀(對齊模塊)將編碼器信息投射對齊至語言空間;語言智能部分為從零訓(xùn)練的MindGPT語言大模型,用于理解場景和輸出高層次決策規(guī)劃;行為智能部分為一個(gè)擴(kuò)散模型解碼器,用于將語言模塊輸出的高層次指令(視作語言prompt)精細(xì)化為低層次的具體車端執(zhí)行動作,完成“抽象到具體”的映射。整體而言,MLLMs模型的訓(xùn)練過程主要包括模型預(yù)訓(xùn)練、垂域數(shù)據(jù)微調(diào)、對齊調(diào)優(yōu)(例如自動駕駛中的人類行為對齊)、模型強(qiáng)化學(xué)習(xí)等環(huán)節(jié)。圖表7:典型的MLLM模型架構(gòu),包含編碼器、連接器(對齊模塊)、LLM、生成器2.VLA模型是自動駕駛端到端架構(gòu)的演進(jìn)方向視覺-語言-動作模型(VLA)是一種多模態(tài)的機(jī)器學(xué)習(xí)模型,由VLM模型演變而來,它結(jié)合了視覺、語言和動作三種能力,旨在實(shí)現(xiàn)從感知輸入直接映射到控制輸出的完整閉環(huán)能力,其不僅關(guān)注環(huán)境感知,也關(guān)注規(guī)劃與控制問題。VLA模型最初被開發(fā)用于解決具身智能中的指令跟隨任務(wù),其后這一理念快速應(yīng)用于自動駕駛領(lǐng)域,相較于“VLM+E2E”的中間態(tài)架構(gòu),VLA深度整合了空間感知、邏輯推理、行為規(guī)劃等多模態(tài)信息進(jìn)行端到端訓(xùn)練,從根本上解決了模型信息傳遞損耗和不同模型聯(lián)合優(yōu)化訓(xùn)練問題,顯著提升了模型極端環(huán)境下泛化能力和決策能力,推動自動駕駛從端到端模型“自駕功能實(shí)現(xiàn)”邁向VLA模型“交互性、類人性、泛化性體驗(yàn)優(yōu)先”。一般而言,VLA模型架構(gòu)具有三個(gè)核心組成:多模態(tài)編碼器(動作、文本、圖像等)、大語言模型用以接收信息和進(jìn)行推理、解碼器用于輸出軌跡和動作。但也有部分模型只含有兩個(gè)模塊,如OpenVLA使用LLM主干直接輸出action指令。圖表8:VLA模型的總體架構(gòu),包含編碼器、解碼器和輸出動作VLA模型具有強(qiáng)大通用能力,具備成為具身智能基礎(chǔ)模型的潛力。VLA通用性體現(xiàn)在其以多模態(tài)大語言模型為底座,具備“理解萬物”的能力,針對不同的使用場景和任務(wù),理論上只需要使用特定數(shù)據(jù)對模型進(jìn)行大規(guī)模預(yù)訓(xùn)練并適配相應(yīng)的解碼模塊,即能輸出相應(yīng)的動作指令,相當(dāng)于給一個(gè)足夠聰明的大腦匹配不同的軀干和感知器官以適應(yīng)不同的任務(wù)需求。其高度的場景推理能力和泛化能力讓模型在不同的應(yīng)用場景中都能表現(xiàn)出色,展現(xiàn)出超越自動駕駛乃至機(jī)器人等單獨(dú)垂域應(yīng)用的潛力,有望成為廣義具身智能基礎(chǔ)模型范式。2.2.自動駕駛VLA模型構(gòu)建與工程部署面臨的主要問題及解自動駕駛VLA模型更多是一個(gè)工程化而非技術(shù)性問題。實(shí)現(xiàn)VLA模型的工程落地至少需要三個(gè)前提:即一個(gè)足夠聰明的模型(大腦)在一個(gè)足夠擬真的空間中(仿真環(huán)境)進(jìn)行訓(xùn)練,并利用足夠優(yōu)秀的映射對齊算法實(shí)現(xiàn)數(shù)據(jù)、模型能力的real2sim、sim2real遷移。在自動駕駛領(lǐng)域,主要面臨的是模型與環(huán)境問題,模型層面突出表現(xiàn)為模型的多模態(tài)性、3D空間感知能力、計(jì)算速度與計(jì)算開銷平衡、長時(shí)序記憶能力等問題;環(huán)境問題主要是如何構(gòu)建優(yōu)秀的仿真環(huán)境。雖然現(xiàn)有的車端VLA技術(shù)路線尚未收斂且工程部署較少,但我們認(rèn)為由于汽車面臨的結(jié)構(gòu)化場景、任務(wù)單一、汽車自由度低且結(jié)構(gòu)較為統(tǒng)一、數(shù)據(jù)和車隊(duì)保有量高、各種數(shù)據(jù)遷移方式迭代完善、算力充足等因素,車端VLA技術(shù)路線已經(jīng)較為明朗,其更多是一個(gè)工程化問題而非技術(shù)性問題,有望支撐汽車由L2+走向L3甚至L4級自動駕駛,目前不同廠商都進(jìn)行了模型方案在理論層面的改進(jìn),國內(nèi)元戎啟行、理想、小米、小鵬等已有了相關(guān)進(jìn)展,其中小鵬VLA-OL、理想MindVLA工程化落地進(jìn)展較快,預(yù)計(jì)年內(nèi)將實(shí)現(xiàn)車端部署。多段式VLA模型云端訓(xùn)練和端側(cè)部署都需要良好的3D中間特征。自動駕駛中間特征指用于連接感知層與推理決策層的抽象表示,是由原始傳感器數(shù)據(jù)經(jīng)過處理后的高層次特征,通常包含場景障礙物、道路語義、行人等靜態(tài)信息,速度方向等動態(tài)信息,可以理解為包含自車周圍所有隱式、顯示信息的統(tǒng)一場景表達(dá),獲取良好的3D中間特征,無論是在端側(cè)服務(wù)下游如路徑規(guī)劃、行為預(yù)測等駕駛?cè)蝿?wù),還是云端構(gòu)建良好的訓(xùn)練環(huán)境供模型迭代訓(xùn)練都有重要意義。傳統(tǒng)的端側(cè)構(gòu)建中間表達(dá)的方式有高精地圖、BEV鳥瞰圖、占用網(wǎng)絡(luò)、實(shí)時(shí)高精地圖等方式,云端一般為NeRF場景重建算法+素材庫+游戲引擎重建環(huán)境,但傳統(tǒng)的方法或多或少皆有缺陷,如端側(cè)通過稀疏查詢(如實(shí)例框、地圖元素)描述周圍場景無法精細(xì)捕捉3D環(huán)境的細(xì)節(jié)導(dǎo)致決策過程信息不足、OCC算法將場景表示為3D占用以獲取更全面的細(xì)節(jié),但稠密計(jì)算導(dǎo)致計(jì)算開銷較大擠壓了推理決策的資源,云端也存在重建速度緩慢、重建真實(shí)性、豐富度不足等缺陷。而3DGS作為一種全面且稀疏的中間特征獲取方式,在場景精細(xì)度和構(gòu)建效率方面取得了較好的權(quán)衡效果。圖表9:3DGS與其余三維重建技術(shù)的區(qū)別3DGS3DGS是一種基于高斯分布的點(diǎn)云表示與渲染技術(shù),有效權(quán)衡了場景重建真實(shí)性與重建效率的矛盾。3DGS的重建過程可理解為:1)將多視角圖像或點(diǎn)云數(shù)據(jù)(如LiDAR)經(jīng)過運(yùn)動結(jié)構(gòu)恢復(fù)(Sfm)處理生成稀疏點(diǎn)云;2)將點(diǎn)云轉(zhuǎn)化為3D高斯點(diǎn),并添加位置、顏色、形狀分布、不透明度等信息形成場景的初步表示;3)通過可微分渲染技術(shù)和自適應(yīng)密度控制進(jìn)行優(yōu)化,最小化渲染圖像和真實(shí)場景差異;4)最后利用GPU生成最終圖像并做到實(shí)時(shí)渲染。3DGS的優(yōu)異性能使其能夠應(yīng)用于自動駕駛仿真環(huán)境重建、實(shí)時(shí)渲染建圖、動態(tài)障礙物檢測跟蹤等任務(wù)。與傳統(tǒng)場景重建技術(shù)NeRF相比,3DGS具有計(jì)算效率較高、自監(jiān)督、渲染實(shí)時(shí)性等優(yōu)勢,為端側(cè)應(yīng)用提供可能。1)渲染實(shí)時(shí)性高,3DGS能通過GPU并行化實(shí)現(xiàn)實(shí)時(shí)渲染30FPS而NeRF渲染一幀需數(shù)秒至數(shù)分鐘,相較之下NeRF更像一位精細(xì)的畫家,注重寫實(shí),而3DGS則是一位潑墨藝術(shù)家,注重寫意,潑灑的速度會顯著快于精細(xì)繪畫;2)數(shù)據(jù)需求較少,僅需少量多視角圖像即可生成高保真模型,存儲空間需求比NeRF減少50%以上;3)動態(tài)適應(yīng)性,3DGS可通過調(diào)整高斯分布的位置直接建模動態(tài)物體(如移動車輛而NeRF需重新訓(xùn)練或引入額外動態(tài)建模模塊,效率較低;4)自監(jiān)督學(xué)習(xí),3DGS可利用原圖RGB信息進(jìn)行自監(jiān)督學(xué)習(xí),使重建模型利用海量數(shù)據(jù)進(jìn)行自我訓(xùn)練成為可能。圖表10:3DGS場景重建效果更優(yōu)資料來源:特斯拉AIday20222.2.2.強(qiáng)化長時(shí)序記憶能力將提升VLA模型長程任務(wù)規(guī)劃與缺乏長時(shí)序記憶機(jī)制導(dǎo)致模型性能下降。長時(shí)序問題是指大語言模型的輸入窗口能夠保留的信息有限,難以關(guān)聯(lián)長時(shí)間范圍內(nèi)的內(nèi)容,因此VLA模型由于主干語言模塊缺乏長時(shí)序記憶機(jī)制,導(dǎo)致模型語義跟隨性較差,難以處理需多步規(guī)劃的任務(wù)和行車過程中的長時(shí)序遮擋問題,在長流程任務(wù)中易出現(xiàn)步驟遺漏或邏輯混亂,導(dǎo)致駕駛行為停滯或無法正確識別目標(biāo)的現(xiàn)象。LLM模型實(shí)現(xiàn)長時(shí)序記憶的技術(shù)難點(diǎn)在于:1)Transformer架構(gòu)固有缺陷,標(biāo)準(zhǔn)Self-Attention的計(jì)算復(fù)雜度為O(N2),其中N為序列長度,導(dǎo)致實(shí)際模型能夠同時(shí)處理的信息有限,造成歷史信息丟失;2)即使在同一文本窗口內(nèi),也會面臨記憶稀釋問題,即在長文本輸入中,早期的信息可能被賦予較低的注意力分?jǐn)?shù)而被“遺忘”;3)長時(shí)記憶不僅要存儲過去的信息,還需要動態(tài)地更新和清理“過時(shí)”或“無關(guān)”的內(nèi)容,對模型的架構(gòu)設(shè)計(jì)和訓(xùn)練提出了更高的要求;4)單純增加輸入窗口長度需要更大的顯存和更高的計(jì)算成本,對于車端模型而言并不經(jīng)濟(jì)。針對上述問題,業(yè)界提出了多樣化的解決辦法,諸如拓展文本窗口、緩存與檢索機(jī)制、生成段落摘要、動態(tài)記憶模塊、稀疏注意力等。我們認(rèn)為“稀疏注意力機(jī)制+動態(tài)記憶模塊”組合或是較好的車端方案,使模型能在“記憶能力”和“大腦容量”上獲得提升:1)稀疏注意力機(jī)制通過選擇性關(guān)注輸入序列中的關(guān)鍵部分來降低計(jì)算復(fù)雜度和內(nèi)存消耗,尤其適用于處理長序列數(shù)據(jù)(如文本、圖像、音頻其核心原理是通過引入稀疏連接規(guī)則,限制每個(gè)查2)降低到接近線性。例如谷歌BigBird模型通過引入稀疏注意力機(jī)制展現(xiàn)了較好的性能,使模型能夠處理的序列長度較傳統(tǒng)模型提升至約8倍,同時(shí)顯著減少了GPU/TPU的內(nèi)存占用,提高了模型計(jì)算效率,國內(nèi)理想汽車MindVLA架構(gòu)中也引入了相似的處理方法。2)動態(tài)記憶模塊通過顯示存儲、動態(tài)更新與歷史信息檢索改善傳統(tǒng)模型的記憶能力,記憶模塊相當(dāng)于給模型外掛一個(gè)存儲U盤,同時(shí)通過學(xué)習(xí)的方式,模塊還能自主識別重要信息以進(jìn)行選擇性存儲,并根據(jù)輸入動態(tài)地調(diào)整存儲的記憶數(shù)據(jù),小米QT-Former、理想早期雙系統(tǒng)架構(gòu)中的記憶模塊都是該方法的代表。圖表11:小米QT-Former模型架構(gòu)資料來源:《ORION:AHolisticEnd-注:Long-termMemoryBank為動態(tài)記憶模塊,其通過交叉注意力機(jī)制接收感知信息和查詢信息作為輸入,動態(tài)更新信息并輸出歷史記憶;MLP模塊將更新后的歷史記憶與當(dāng)前的場景特征轉(zhuǎn)化為LLM推理空間中的歷史標(biāo)記和場景標(biāo)記。端側(cè)模型需在較小參數(shù)規(guī)模前提下盡可能提高計(jì)算效率,“稀疏化”是模型設(shè)計(jì)的關(guān)鍵。一般而言,模型參數(shù)與模型性能正相關(guān),但由于汽車端側(cè)芯片算力不足、帶寬較低等因素以及端側(cè)運(yùn)行實(shí)時(shí)性需求,云端大模型在端側(cè)部署時(shí)需要縮小參數(shù)規(guī)模和盡可能提升計(jì)算效率。除去常見的模型蒸餾、裁剪等縮小參數(shù)規(guī)模的方式外,模型量化的壓縮方式,模型架構(gòu)優(yōu)化、推理機(jī)制改善等效率提升方式對于端側(cè)部署也同樣重要,本段以理想雙系統(tǒng)和MindVLA架構(gòu)的相關(guān)技術(shù)為例探討該過程。模型量化可以降低模型內(nèi)存空間占用并提升推理速度。模型量化核心思想是降低運(yùn)算精度,即將模型中的浮點(diǎn)數(shù)(通常是FP32)表示的權(quán)重和激活值轉(zhuǎn)換為低精度整數(shù)(如INT8、INT4)或半精度浮點(diǎn)數(shù)(FP16從而實(shí)現(xiàn)模型壓縮和加速的技術(shù),其主要具有兩大優(yōu)勢:1)降低模型內(nèi)存空間占用,如將FP32模型量化為INT8模型,理論上模型的存儲空間需求可以減少為原來的四分之一;2)加速推理,低精度計(jì)算通常具有更高的計(jì)算吞吐量,目前許多硬件平臺(如CPU、GPU)對低精度整數(shù)運(yùn)算有專門優(yōu)化,可以實(shí)現(xiàn)比高精度浮點(diǎn)運(yùn)算更高的并行度和更低計(jì)算時(shí)延。量化后更小的模型規(guī)模和低精度計(jì)算使模型端側(cè)部署算力消耗更小,例如理想LLM模型GPTQ技術(shù)(后訓(xùn)練量化)大幅提升了模型計(jì)算效率,使模型時(shí)延從4.1秒大幅降低至1.9秒,輸出頻率從0.24Hz上升至0.52Hz。圖表12:模型量化使模型計(jì)算效率翻倍MOE架構(gòu)在保持算力消耗相對穩(wěn)定的同時(shí)實(shí)現(xiàn)模型擴(kuò)容,進(jìn)而提高模型性能?;旌蠈<夷P停∕OE)是一種“分而治之”的模型策略,核心思想在于將一個(gè)大的任務(wù)分拆交由對應(yīng)專家(子模型)處理。例如在Transformer架構(gòu)中將前饋網(wǎng)絡(luò)層(FNN)替換為一個(gè)MOE層,MOE層通常由多個(gè)專家模型和一個(gè)門控網(wǎng)絡(luò)(一般是router)構(gòu)成,當(dāng)模型需要解決任務(wù)時(shí)由學(xué)習(xí)后的門控網(wǎng)絡(luò)將任務(wù)輸送給對應(yīng)專家,從而實(shí)現(xiàn)在整體模型擴(kuò)容的同時(shí)(更多的專家網(wǎng)絡(luò)加入)其整體的計(jì)算消耗與傳統(tǒng)稠密計(jì)算相當(dāng)(同時(shí)間僅有部分專家被激活,相當(dāng)于一種稀疏化機(jī)制)。例如理想的MindGPT模型中引入了8位“專家”做相關(guān)計(jì)算,每個(gè)專家單獨(dú)訓(xùn)練可以負(fù)責(zé)其擅長的部分,如圖像分割、處理輸入的語音指令、動作規(guī)劃等。圖表13:理想MindGPT模型中MOE網(wǎng)絡(luò)有E1-E88個(gè)專家推理效率提升包括稀疏注意力機(jī)制(見前文)、投機(jī)推理+并行解碼等方法。由于LLM模型的并行計(jì)算能力,可以近似理解其處理一個(gè)token和一批token的效率一致,在此前提下,投機(jī)推理機(jī)制通過引入一個(gè)或多個(gè)預(yù)訓(xùn)練的、參數(shù)較小的模型(draftmodel)預(yù)測生成多個(gè)候選token,然后再利用標(biāo)準(zhǔn)模型對候選詞進(jìn)行批量驗(yàn)證,從而避免了標(biāo)準(zhǔn)模型的重復(fù)調(diào)用以提升推理效率,該方式的難點(diǎn)在于如何提高小模型采樣準(zhǔn)確性以避免標(biāo)準(zhǔn)模型驗(yàn)證次數(shù)較多;并行解碼主要指在transformer中加入兩種推理模型,如規(guī)劃決策實(shí)時(shí)性要求較高的actiontoken采用雙向注意力機(jī)制,通過單次計(jì)算即可輸出所有信息;對于時(shí)效要求較低的語言token(如對自車行為的解釋)則采用因果注意力機(jī)制逐字輸出,投機(jī)推理+并行解碼的方法對模型輸入和輸出兩端計(jì)算效率提升都起到一定作用。構(gòu)建高保真的仿真環(huán)境有利于VLA模型實(shí)現(xiàn)閉環(huán)測試驗(yàn)證。自動駕駛模型測評分為開環(huán)評估和閉環(huán)評估兩類,二者核心區(qū)別在于模型輸出是否有反饋與循環(huán)。目前大多數(shù)模型采用的公開數(shù)據(jù)集開環(huán)測試為一個(gè)單項(xiàng)流程,即傳感器信息輸入→算法處理→輸出結(jié)果,最終結(jié)果不會產(chǎn)生后續(xù)反饋,一般基于預(yù)錄制的數(shù)據(jù)對模型某些基礎(chǔ)功能(如感知功能)進(jìn)行測試,適用于初步驗(yàn)證;閉環(huán)測試則是一個(gè)循環(huán)流程,即傳感器信息輸入→算法處理→輸出結(jié)果→執(zhí)行動作和車輛反饋→將反饋?zhàn)鳛橄乱粫r(shí)刻新的信息輸入,閉環(huán)測試涉及自車與整個(gè)外部環(huán)境的交互驗(yàn)證、實(shí)時(shí)的數(shù)據(jù)處理和決策,更能體現(xiàn)模型在整個(gè)行駛過程中的規(guī)劃決策性能。初步的開環(huán)測評與模型實(shí)際落地需要的交互性驗(yàn)證、真實(shí)測試環(huán)境等要求并不匹配,而直接進(jìn)行大規(guī)模實(shí)車閉環(huán)驗(yàn)證與強(qiáng)化學(xué)習(xí)的測評成本和安全性要求難以滿足,因此構(gòu)建逼真的仿真測試環(huán)境成為VLA模型閉環(huán)的關(guān)鍵。優(yōu)秀的仿真模擬環(huán)境可以使車端VLA模型進(jìn)行強(qiáng)化學(xué)習(xí)以達(dá)到甚至超越人類駕駛水平。傳統(tǒng)的模仿學(xué)習(xí)中,行為克隆會學(xué)習(xí)從駕駛環(huán)境狀態(tài)映射到人類專家采取的駕駛動作,核心目標(biāo)是讓模型通過監(jiān)督學(xué)習(xí)的方式復(fù)制專家行為并逐步改善模型性能,但模仿學(xué)習(xí)問題在于模型上限較低(嚴(yán)重依賴專家數(shù)據(jù))和泛化能力差(cornercase難以處理)。強(qiáng)化學(xué)習(xí)旨在讓智能體與環(huán)境不斷交互,通過嘗試不同的行動來最大化累積的獎勵,在自動駕駛領(lǐng)域通過強(qiáng)化學(xué)習(xí)可以使車輛感知、規(guī)控能力進(jìn)一步優(yōu)化以達(dá)到甚至超越人類專家水平。強(qiáng)化學(xué)習(xí)方案主要包含智能體、交互環(huán)境、獎勵函數(shù)、動作策略等內(nèi)容,出于與閉環(huán)驗(yàn)證同樣的原因,優(yōu)秀的仿真模擬器對于實(shí)現(xiàn)模型強(qiáng)化學(xué)習(xí)至關(guān)重要(提供“真實(shí)”交互環(huán)境)。我們認(rèn)為,未來在具有一個(gè)優(yōu)秀仿真模擬器的基礎(chǔ)上,行為克?。ǔ醪接?xùn)練端到端模型)+逆強(qiáng)化學(xué)習(xí)(從專家數(shù)據(jù)中初始化獎勵函數(shù))+強(qiáng)化學(xué)習(xí)(通過與環(huán)境交互改善模型和獎勵函數(shù))方案或?qū)⒊蔀樽詣玉{駛模型訓(xùn)練主流方案。圖表14:自動駕駛模型開環(huán)評估與閉環(huán)評估的結(jié)構(gòu)對比注:開環(huán)評估通過將輸出值與專家數(shù)據(jù)對比能實(shí)現(xiàn)單一功能測試仿真環(huán)境構(gòu)建方法多樣,世界模型是未來潛力方向。目前學(xué)界對于世界模型沒有明確的定義,我們認(rèn)為通用的世界模型應(yīng)具有幾個(gè)特點(diǎn):1)能夠認(rèn)識物理世界的表象并理解背后的運(yùn)行規(guī)律(因果、物理規(guī)律等并能夠基于對物理世界的認(rèn)識來預(yù)測世界的演化;2)能夠進(jìn)行反事實(shí)推理,即對于數(shù)據(jù)中沒見過的決策也能推測出結(jié)果,具備泛化到樣本數(shù)據(jù)以外的能力;3)具備基于長時(shí)記憶進(jìn)行自我演進(jìn)的能力。自動駕駛領(lǐng)域的世界模型即利用歷史場景觀測信息加上預(yù)設(shè)條件預(yù)測未來智能駕駛場景變化(靜態(tài)場景、動態(tài)交互的變化)和自車響應(yīng)的模型,其核心任務(wù)有三大類:1)生成未來的物理世界(場景理解、運(yùn)動預(yù)測、場景仿真2)生成智能體的場景決策與動作規(guī)劃(決策規(guī)劃3)將二者合二為一并增加虛擬場景中智能體數(shù)量,讓智能體之間產(chǎn)生交互從而從單一的物理模擬環(huán)境變?yōu)榻换バ缘慕煌▓鼍拔锢硎澜纾ǘ说蕉笋{駛)。需要指出的是,由于當(dāng)前世界模型生成方案尚不成熟,我們認(rèn)為當(dāng)前自動駕駛仿真環(huán)境的構(gòu)建中,基于部分真實(shí)數(shù)據(jù)重建+世界模型生成或是工程部署可行性較大的方案。目前世界模型在業(yè)界的應(yīng)用主要是場景生成,即作為數(shù)據(jù)生成器進(jìn)行仿真環(huán)境構(gòu)建,其可以看作VLM模型的逆向工程,構(gòu)建方案本質(zhì)上是Prompt控制+視頻場景生成。1)從視頻生成的具體步驟,世界模型場景構(gòu)建的步驟主要可分為:1)場景初始化,即收集真實(shí)的多模態(tài)數(shù)據(jù)并對數(shù)據(jù)進(jìn)行標(biāo)注以形成真實(shí)數(shù)據(jù)的結(jié)構(gòu)化表示;2)控制條件經(jīng)編碼器輸入并生成帶噪潛在空間表示;3)擴(kuò)散模型訓(xùn)練與結(jié)果輸出;4)對生成場景進(jìn)行優(yōu)化和后處理。生成式世界模型方案中控制條件的獲取是其中的關(guān)鍵,因?yàn)樯墒绞澜缒P鸵蕾嚳刂茥l件(初始幀、相機(jī)軌跡、動靜態(tài)結(jié)構(gòu)化信息)來保證生成場景的環(huán)境合理性、資產(chǎn)可控性、物理一致性以及提升渲染效率,這些條件本質(zhì)上是將人類先驗(yàn)知識注入生成過程,彌補(bǔ)純數(shù)據(jù)驅(qū)動方法的不足。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明型等不同技術(shù)路線,其中擴(kuò)散模型相較于其余幾種模型具備生成質(zhì)量高且細(xì)節(jié)豐富、訓(xùn)練穩(wěn)定性較強(qiáng)、生成結(jié)果多樣、生成過程可控等諸多優(yōu)點(diǎn),成為當(dāng)前生成式方案的主流。3)從視頻生成方向角度,當(dāng)前的視頻生成方向主要有三個(gè):1)更多視角、更高分辨率,過2分鐘的片段;3)高保真、時(shí)空一致的3D渲染,例如理想《DriveDreamer4D》和《ReconDreamer》,未來融合以上三種能力是世界模型視頻生成發(fā)展方向。4)從視頻生成優(yōu)勢角度,相較于通常的重建或生成方案,世界模型方案至少具備三項(xiàng)優(yōu)勢:1)擺脫對于特定的、分布受限的數(shù)據(jù)來源的依賴,能夠渲染復(fù)雜操作并保持圖像的時(shí)空連貫性;2)基于世界模型集成的物理引擎對物理規(guī)律的認(rèn)知,生成的仿真環(huán)境除了解決VisionGap,還具備物理交互屬性,為方案增廣至廣義具身智能(如機(jī)器人領(lǐng)域)提供可能;3)生成方案實(shí)現(xiàn)的場景靈活多樣,且生成成本較低。圖表15:自動駕駛中的世界模型綜述第一、二行為世界模型的背景和關(guān)鍵組件,即未來物理世界的生成、智第三行為自動駕駛中訓(xùn)練世界模型的各類方法,即自監(jiān)督學(xué)習(xí)范式、預(yù)訓(xùn)第四行為時(shí)間模型在自動駕駛中的四個(gè)應(yīng)用,即場景理解、我們以理想汽車世界模型相關(guān)論文和方案為例,探討世界模型在自動駕駛領(lǐng)域場景生成方向的落地進(jìn)展。從整體思路看,理想汽車云端場景構(gòu)建遵循重建+世界模型生成的思路并發(fā)表了9篇相關(guān)工作論文,其中2篇分別介紹3DGS的重建及其改進(jìn)方法,其余7篇為生成式世界模型相關(guān)工作,整體而言其生成方案大致有以下趨勢:請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明DrivingSphere、GeoDrive方案中占用網(wǎng)絡(luò)、點(diǎn)云信息引入,方案從單純RGB信息到3D點(diǎn)云結(jié)構(gòu)渲染的RGB圖像、從靜態(tài)場景到動態(tài)目標(biāo)、從主要目標(biāo)到樹枝、房屋等細(xì)節(jié)再到潛在擴(kuò)散模型對細(xì)節(jié)的補(bǔ)足,對于初始場景的刻畫更加豐富飽滿。初始場景(布局、光照、幾何結(jié)構(gòu)等)是后續(xù)生成渲然的基礎(chǔ),愈加完善的初始場景可以避免生成完全隨機(jī),確保場景生成符合基本物理邏輯也為后續(xù)的場景交互編輯提供了更好的基礎(chǔ);2)生成控制條件升維。方案的控制條件從最初二維道路結(jié)構(gòu)、相機(jī)位姿、車輛軌跡等靜態(tài)信息向場景3D點(diǎn)云、占用網(wǎng)絡(luò)等立體結(jié)構(gòu)再向車輛可控運(yùn)動等動態(tài)信息,最后升級到利用視頻輸入作為模型生成的指導(dǎo),利用3D渲染、動態(tài)信息替代數(shù)值控制信號。愈加豐富的控制信息一方面能夠顯著提升生成場景的真實(shí)性,另一方面也為精確的場景控制提供入口,更便于閉環(huán)測驗(yàn)中的場景編輯。3)更為重視閉環(huán)反饋機(jī)制構(gòu)建,實(shí)現(xiàn)場景實(shí)時(shí)編輯與模型訓(xùn)練協(xié)同規(guī)劃。在《DrivingSphere》論文中通過智能體協(xié)調(diào)模塊引入,首次實(shí)現(xiàn)了自駕模型與環(huán)境交互的閉環(huán)反饋機(jī)制;GeoDrive模型更進(jìn)一步,首次在駕駛世界模型中實(shí)現(xiàn)場景實(shí)時(shí)編輯與VLA協(xié)同規(guī)劃。圖表16:理想世界模型相關(guān)論文方案總結(jié)除以上模型構(gòu)建的整體趨勢外,理想的生成式世界模型還可按實(shí)際應(yīng)用方向歸類,我們總結(jié)如下:一是作為數(shù)據(jù)機(jī)器用以生成簡單的環(huán)境數(shù)據(jù)以彌補(bǔ)真實(shí)重建數(shù)據(jù)的不足,是較基礎(chǔ)的數(shù)據(jù)生成模型。例如Dive模型關(guān)注視頻數(shù)據(jù)生成,其利用原始BEV構(gòu)圖的RoadSketch(道路結(jié)構(gòu))和LayoutEntries(布局條目)進(jìn)行多視圖視頻生成;OLiDM模型則主要解決請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明激光雷達(dá)數(shù)據(jù)缺乏問題,根據(jù)文本描述和3D邊界框進(jìn)行從前景目標(biāo)到環(huán)境背景的漸進(jìn)式生成,并且對生成的前景目標(biāo)進(jìn)行初步標(biāo)注并利用OSA模塊進(jìn)行目標(biāo)-空間語義對齊(例如解決1毫米像素空間對應(yīng)50m現(xiàn)實(shí)距離的不合理問題解決了自動駕駛中LiDAR數(shù)據(jù)規(guī)模小、標(biāo)注難、場景多樣性不足等問題。圖表17:理想OLiDM模型LiDAR數(shù)據(jù)生成流程二是在視頻生成的基礎(chǔ)上,進(jìn)行大范圍、多視角、高保真的場景渲染。理想在DriveRestorer+PDUS兩個(gè)技術(shù)集,差異核心在于DriveDreamer4D方案使用公開的世界模型,且在復(fù)雜渲染中表現(xiàn)還不盡人意;而ReconDreamer方案中的DriveRestorer實(shí)際上是一個(gè)經(jīng)過微調(diào)的世界模型,并利用PDUS方法使得模型在復(fù)雜渲染(如多車道變換)中的性能更強(qiáng)。DriveDreamer4D模型主要利用世界模型解決NeRF和3DGS等重建方案的訓(xùn)練數(shù)據(jù)依賴性問題,即利用先驗(yàn)世界模型作為數(shù)據(jù)機(jī)器來合成新穎的軌跡視頻、利用結(jié)構(gòu)化條件來控制要素的時(shí)空一致性以增強(qiáng)4D駕駛場景表示。具體而言,DriveDreamer4D使用軌跡生成模塊(NTGM)調(diào)整原始軌跡動作(如轉(zhuǎn)向角度和速度)以生成新的軌跡;新軌跡生成以后即可獲取新軌跡視角下的道路結(jié)構(gòu)、3D邊界框等結(jié)構(gòu)性信息;最后將結(jié)構(gòu)化信息、新軌跡初始幀、文本控制信息等輸入到世界模型以生成跟隨新軌跡的視頻;除數(shù)據(jù)生成外,DriveDreamer4D也關(guān)注生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的對齊問題,即利用CDTS在每個(gè)時(shí)間步上利用提取的結(jié)構(gòu)化信息作為約束,將真實(shí)數(shù)據(jù)與生成數(shù)據(jù)進(jìn)行對齊以減輕4DGS訓(xùn)練中的數(shù)據(jù)差異,具體表現(xiàn)為消除最終生成視頻中的“鬼影”、“重影”現(xiàn)象。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表18:理想DriveDreamer4D模型生成效果與傳統(tǒng)方式的比較ReconDreamer框架通過引入DriveRestorer模型和PDUS策略來解決大范圍機(jī)動下的“鬼影”問題,本質(zhì)是經(jīng)過自動駕駛數(shù)據(jù)微調(diào)后世界模型方案能力的進(jìn)一步提升。DriveRestorer實(shí)質(zhì)上是一個(gè)擴(kuò)散生成模型,理想利用未充分訓(xùn)練的重建模型沿自車原始軌跡渲染低質(zhì)量視頻并與真實(shí)視頻對比形成渲染恢復(fù)數(shù)據(jù)集,以真實(shí)視頻數(shù)據(jù)為監(jiān)督訓(xùn)練DriveRestorer恢復(fù)渲染視頻中的鬼影,并且為了增強(qiáng)模型能力,還對天空、圖像邊界等重點(diǎn)區(qū)域進(jìn)行了掩碼操作。PDUS是一種漸進(jìn)式數(shù)據(jù)更新策略,其作用類似于自駕模型的動態(tài)記憶模塊,即在新軌跡生成過程中對于初始的渲染恢復(fù)數(shù)據(jù)集進(jìn)行動態(tài)、分部的更新,再由DriveRestorer處理得到新軌跡視頻,以此迭代直到模型收斂并最終提升模型在大范圍機(jī)動復(fù)雜條件下的場景生成能力(即將長距離生成分解為逐步更新生成問題)。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表19:理想ReconDreamer模型長距離街景生成效果與傳統(tǒng)方法的比較注:第一行為場景真值,最后一行為ReconDreamer生成效果圖,在3米級車道變化中,其生成效果更三是進(jìn)一步提升對初始化場景的精細(xì)刻畫與場景編輯能力。如前所述,初始化場景的精細(xì)刻畫對于后續(xù)視頻生成具有基礎(chǔ)性作用,《DrivingSphere》中通過BEV條件擴(kuò)散模型OccDreamer生成城市級靜態(tài)場景,結(jié)合動態(tài)交通參與者的時(shí)空位置管理,能夠構(gòu)建包含靜態(tài)背景和動態(tài)對象的精細(xì)化4D世界表示;GeoDrive模型則以單幀RGB圖像為輸入,借助MonST3R網(wǎng)絡(luò)精準(zhǔn)估計(jì)點(diǎn)云和相機(jī)位姿,并結(jié)合用戶提供的軌跡信息構(gòu)建具有三維一致性的條件序列,確保場景結(jié)構(gòu)連貫真實(shí)。同時(shí)得益于場景刻畫中點(diǎn)云信息的引入,使得部分生成模型可以在多幀點(diǎn)云聚合期間調(diào)整物體邊界框的屬性,以提供經(jīng)修改的LiDAR條件用于視頻擴(kuò)散模型,而無需對每個(gè)物體分別建模且逐場景優(yōu)化,即實(shí)現(xiàn)場景動態(tài)編輯功能,動態(tài)場景編輯的實(shí)現(xiàn)奠定了模型高效訓(xùn)練閉環(huán)反饋的基礎(chǔ),例如GeoDrive模型首次在駕駛世界模型中實(shí)現(xiàn)實(shí)時(shí)場景編輯與VLA協(xié)同規(guī)劃。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表20:理想相關(guān)生成模型場景刻畫與場景實(shí)時(shí)編輯《StreetCrafter:StreetViewSynthesiswithCo作為早期開創(chuàng)性模型,EMMA模型架構(gòu)較為簡單,主要由編碼器+大語言模型構(gòu)成。感知部分,EMMA模型開創(chuàng)性的同時(shí)處理文本(導(dǎo)航指令、自車歷史狀態(tài))、圖像(攝像頭視頻感知)等多模態(tài)輸入,并利用視覺-語言框架將所有的輸入和輸出表示為普通文本,將駕駛?cè)蝿?wù)轉(zhuǎn)化為視覺問答(VQA)問題,充分利用其Gemini大語言模型儲備的大量知識,更好的理解駕駛?cè)蝿?wù)中的動態(tài)變化;推理輸出方面,為了增強(qiáng)模型的推理能力使之更符合自駕需求,EMMA對原有大語言模型進(jìn)行了微調(diào),通過混合訓(xùn)練來實(shí)現(xiàn)更多自駕能力,具體而言,其將感知任務(wù)拆分為空間推理、道路圖估計(jì)、場景理解等多個(gè)子任務(wù),使微調(diào)的LLM模型能夠更好的生成各種運(yùn)動規(guī)劃和駕駛控制信號。EMMA框架具有三大特性。1)EMMA將所有的輸入和輸出表示為自然語言文本形式,所有任務(wù)共享統(tǒng)一文本表示空間,可以最大限度的調(diào)用語言模型的知識儲備并提供了將其余駕駛?cè)蝿?wù)繼續(xù)融入系統(tǒng)的拓展性;2)引入CoT增強(qiáng)模型的可解釋性,EMMA將CoT融入到軌跡生成中,要求模型在預(yù)測時(shí)闡明相關(guān)理由,例如將推理過程結(jié)構(gòu)化為場景描述、關(guān)鍵物體描述、關(guān)鍵物體行為描述、駕駛決策輸出四個(gè)子任務(wù),數(shù)據(jù)集測試結(jié)果顯示,引入CoT的模型相較于基準(zhǔn)模型整體性能提升了6.7%,在駕駛決策和關(guān)鍵物體識別的能力上分別提升3.0%和1.5%;3)自監(jiān)督模型,模型訓(xùn)練唯一需要監(jiān)督數(shù)據(jù)的是自車未來位置,其余數(shù)據(jù)不需要專門人工標(biāo)簽,提高了數(shù)據(jù)來源的可拓展性。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表21:EMMA模型架構(gòu)EMMA在公開數(shù)據(jù)集的開環(huán)測試取得了較好效果。EMMA采用最小尺寸基座模型Gemini1.0Nano-1分別在WOMD和nuscens數(shù)據(jù)集上進(jìn)行了端到端軌跡預(yù)測的測試。在WOMD數(shù)據(jù)集中,經(jīng)過內(nèi)部預(yù)訓(xùn)練的EMMA+模型在短時(shí)間窗口上的ADE(平均位移誤差)性能超越了基準(zhǔn)模型,但在較長時(shí)間窗口表現(xiàn)較差,主要是EMMA只有攝像頭輸入,基準(zhǔn)模型結(jié)合了激光雷達(dá),深度感知能力更好;在nuscens數(shù)據(jù)集中,自監(jiān)督的EMMA+取得了SOTA效果,比參與測評的監(jiān)督基準(zhǔn)模型平均性能提高6.4%,比自監(jiān)督的基準(zhǔn)模型性能提高17.1%。作為自動駕駛VLA的初步嘗試,EMMA距離工程部署尚有距離:1)模型僅能處理有限幀數(shù),難以捕獲駕駛?cè)蝿?wù)所需的長時(shí)間依賴關(guān)系,自動駕駛性能較差;2)依賴預(yù)訓(xùn)練的多模態(tài)模型,但該模型未集成與點(diǎn)云相關(guān)的編碼器,3D空間感知和多模態(tài)能力受到限制;3)當(dāng)前測評基于公共數(shù)據(jù)集上的開環(huán)測試,模型閉環(huán)性能不清晰,距離工程部署尚有距離;4)參數(shù)規(guī)模龐大的語言模型在車端部署對端側(cè)芯片算力、帶寬帶來挑戰(zhàn),車端推理實(shí)時(shí)性不足,需要在模型大小、推理質(zhì)量、推理效率之間實(shí)現(xiàn)平衡。OpenDriveVLA是專為自動駕駛設(shè)計(jì)的端到端VLA模型,主要包含一個(gè)預(yù)訓(xùn)練的視覺編碼器和一個(gè)開源VLM模型。模型首先利用預(yù)訓(xùn)練的編碼器從多視圖圖像中提取中間特征;然后分層視覺語言特征對齊模塊將圖像token對齊到文本域;其次在VLM推理空間中進(jìn)行車輛-環(huán)境-自車交互推理和輸出高層次的駕駛指令,最后根據(jù)高層次指令給出自車的未來軌跡。架構(gòu)的創(chuàng)新在于1)引入以視覺為中心的查詢模塊和分層視覺-語言特征對齊模塊,提升模型3D感知能力;2)引入條件車輛運(yùn)動預(yù)測任務(wù),提升自車復(fù)雜環(huán)境下交互能力。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表22:OpenDriveVLA模型架構(gòu)ActionModel》_Xingcheng3D環(huán)境感知與對齊:傳統(tǒng)的VLM模型通常依賴于2D視覺編碼器,視覺token的選擇和注意力權(quán)重通過語言監(jiān)督間接引導(dǎo),模型缺乏足夠的3D空間感知能力會造成嚴(yán)重的多模態(tài)輸出幻覺(即語言模型的反應(yīng)與圖像輸入內(nèi)容不一致)。針對此問題,OpenDriveVLA在感知環(huán)節(jié)采用了以視覺為中心的查詢模塊,使模型重點(diǎn)關(guān)注與駕駛相關(guān)的物體和3D地圖信息,具體而言在模型獲得BEV特征表示后,會用三個(gè)視覺查詢模塊(Track、Map、Scence)以空間定位的方式捕捉動態(tài)車輛行為和靜態(tài)地圖結(jié)構(gòu),以獲得3D中間特征表示。并利用分層視覺-語言對齊機(jī)制彌補(bǔ)不同空間的模態(tài)差距,即指針對三個(gè)特定的查詢模塊引入三個(gè)特定的可訓(xùn)練投影機(jī)制進(jìn)行視覺嵌入,使得不同模塊的視覺信息都有詳細(xì)的語言描述與之對應(yīng),達(dá)到對齊視覺和語言模態(tài)的效果,例如對于Map信息,以真實(shí)標(biāo)注數(shù)據(jù)訓(xùn)練的文本轉(zhuǎn)化機(jī)制可以將車道分隔線、人行橫道和道路邊界等地圖元素都轉(zhuǎn)化為描述性文本。軌跡生成與環(huán)境交互:OpenDriveVLA引入了條件車輛運(yùn)動預(yù)測任務(wù),作為3D車輛-環(huán)境-自車交互建模的代理任務(wù),使模型能夠?qū)W習(xí)不同物體在空間中的運(yùn)動模式,即模型能夠在給定場景描述、地圖結(jié)構(gòu)以及自車狀態(tài)后,在推理空間中直接預(yù)測每個(gè)實(shí)體相對于自車的未來位移,并給出自車在此條件下的未來運(yùn)動軌跡預(yù)測。該任務(wù)的引入增強(qiáng)了模型軌跡生成能力,并改善了復(fù)雜交通場景中的決策能力。從開環(huán)評測效果模型,OpenDriveVLA對環(huán)境的感知能力更強(qiáng),沒有對周遭車輛的過度反應(yīng),生成的軌跡更為平滑。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表23:引入條件車輛運(yùn)動預(yù)測任務(wù)后,預(yù)測通過時(shí)延更低ActionModel》_Xingcheng注:下圖為OpenDriveVLA模型效果圖,上圖UniAD對周遭環(huán)境有過度反應(yīng)(顏色更多,預(yù)測阻礙時(shí)長越長而OpenDriveVLA有效保持了軌跡平滑性和環(huán)境感知能力,展現(xiàn)出其在處理復(fù)雜駕駛場景時(shí)更強(qiáng)的能力OpenDriveVLA仍面臨諸多問題。1)為了平衡模型推理速度和計(jì)算開銷,LLM模型采用隱式推理,缺乏明確的CoT過程,導(dǎo)致模型在復(fù)雜場景中的推理能力和模型的可解釋性較差;2)目前的測評仍是開環(huán)評測,后續(xù)的閉環(huán)測試和仿真場景搭建預(yù)計(jì)仍然存在困難;3)模型的自回歸特性阻礙了高速場景中的實(shí)時(shí)推理。2.3.3.小米ORION框架引入QT-Former模塊實(shí)現(xiàn)了長時(shí)序記憶小米ORION架構(gòu)是典型三段式VLA架構(gòu),主要由三個(gè)關(guān)鍵組件構(gòu)成:QT-Former、LLM及生成式規(guī)劃器。首先通過視覺編碼器對圖像編碼;其次QT-Former實(shí)現(xiàn)長期上下文提取并連接視覺空間與LLM模型的推理空間;LLM將場景特征、歷史視覺信息、用戶指令等多模態(tài)信息結(jié)合執(zhí)行推理任務(wù)并預(yù)測一個(gè)規(guī)劃標(biāo)記;最后生成式規(guī)劃器生成由規(guī)劃標(biāo)記條件約束的多模態(tài)軌跡。該框架利用QT-Former和生成式規(guī)劃器分別連接了視覺-推理、推理-動作空間,實(shí)現(xiàn)了從圖像感知到視覺問答再到動作規(guī)劃的統(tǒng)一端到端優(yōu)化,模型創(chuàng)新之處在于QT-Former動態(tài)記憶模塊的引進(jìn)一定程度解決了長時(shí)序記憶問題以及VAE模塊優(yōu)化了軌跡生成。QT-Former模塊實(shí)現(xiàn)圖像壓縮和長時(shí)序建模。通常VLM模型要求輸入的都是高分辨率圖像,但高分辨率圖像token化后計(jì)算量較高,不能保證端側(cè)模型輸出的實(shí)時(shí)性,因此小米引入了QT-Former,其類似一個(gè)信息篩選機(jī)制,負(fù)責(zé)提取對語言文本生成最有用的圖像特征并壓縮轉(zhuǎn)化為LLM可以理解的token。長時(shí)序建模層面,傳統(tǒng)VLM模型一般利用拼接多幀圖像進(jìn)行時(shí)序記憶,這種方法受制于Token長度,QT-Former引入了動態(tài)記憶模塊和歷史查詢機(jī)制一定程度上解決了長時(shí)序記憶的問題。其運(yùn)作機(jī)理為初始化感知Query與場景Query,首先原始感知Query與場景Query先通過自注意力模塊交換信息;然后與帶有3D位置編碼的圖像特征執(zhí)行交叉注意力并分別獲得感知結(jié)果及新的場景Query,其中感知結(jié)果被輸入至請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明再執(zhí)行交叉注意力以不斷地更新歷史Query并按照先進(jìn)先出的替換原則再存儲到記憶庫中。其創(chuàng)新之處在于,不同于以往記憶模塊只簡單存儲壓縮后信息而不關(guān)注提取當(dāng)前場景信息的機(jī)械機(jī)制,小米通過初始化少量歷史Query,能夠進(jìn)一步提取與歷史信息最密切相關(guān)的當(dāng)前場景特征,增強(qiáng)了模型的長期記憶能力。圖表24:小米ORION模型架構(gòu)資料來源:《ORION:AHolisticEnd-Bench2Drive數(shù)據(jù)集上獲得了較好的閉環(huán)測試性能,獲得了77.74的駕駛分?jǐn)?shù)和54.62%的成功率,相較于SOTA方法分別增長14.28分和19.61pct的成功率。但我們認(rèn)為其距離商用落地仍有較多工作:1)基座模型使用開源模型Vicunav1.5,沒有針對自動駕駛做微調(diào),不同模塊間的配合及針對自駕任務(wù)的性能可能不足;2)LLM模型參數(shù)規(guī)模龐大,端側(cè)推理實(shí)時(shí)性難以保證。目前可行的路徑之一是將QT-Former與VAE模型連接,將LLM模型用作輔助推理,形成實(shí)質(zhì)的雙系統(tǒng)模式,在端側(cè)芯片能力足夠和模型運(yùn)算效率優(yōu)化以后再部署全局端到端;3)圖像編碼器或仍沿用傳統(tǒng)的2D網(wǎng)絡(luò),模型的3D空間理解能力較弱影響模型性能。MindVLA六大關(guān)鍵技術(shù),構(gòu)建自駕模型新范式。24年10月理想汽車雙系統(tǒng)架構(gòu)正式推送,但彼時(shí)的模型架構(gòu)尚存在諸多問題,例如雙系統(tǒng)聯(lián)合優(yōu)化困難、基于開源的VLM模型在3D空間理解能力上仍然不足、模型的多模態(tài)性處理不足(輸出方式為Transformer回歸建模,難以處理駕駛行為多模態(tài)性)、人類價(jià)值觀對齊不足等。基于雙系統(tǒng)實(shí)踐和對前沿技術(shù)的吸收,理想汽車推出了自研MindVLA模型,提出了6大關(guān)鍵技術(shù):3D空間理解能力構(gòu)建、基礎(chǔ)語言模型構(gòu)建、語言模型推理效率優(yōu)化、Diffuison軌跡生成、RLHF、云端worldmodel強(qiáng)化學(xué)習(xí)。其模型方案可以理解為:利用3D空間編碼器編碼環(huán)境特征輸入至語言空間,語言空間利用邏輯推理能力和空間理解能力將輸入信息處理后給出合理的高層級actiontoken,然后通過diffusion模型進(jìn)一步優(yōu)化出最佳的駕駛軌跡,實(shí)現(xiàn)空間智能、語言智能、行為智能的統(tǒng)一。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表25:理想MindVLA模型架構(gòu)基礎(chǔ)語言模型重構(gòu)、RLHF、云端worldmodel強(qiáng)化學(xué)習(xí)主要解決模型計(jì)算效率與類人性問題。除了從算法優(yōu)化的角度提升模型計(jì)算效率,從模型自身構(gòu)建角度是更為根本的解決方法,當(dāng)前VLM一般是由開源LLM+預(yù)訓(xùn)練Visionencoder構(gòu)建,這類方法簡便易行,但基于互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練卻限制了模型VL部分的實(shí)現(xiàn)效果,一方面是開源LLM雖經(jīng)過微調(diào)與后訓(xùn)練,但模型構(gòu)成中仍有大量與自駕無關(guān)的參數(shù)占用硬件資源;另一方面是基于開源數(shù)據(jù)訓(xùn)練的Visionencoder無法充分利用自駕領(lǐng)域成熟的感知網(wǎng)絡(luò)。理想重新配比了3D數(shù)據(jù)、自動駕駛相關(guān)圖文數(shù)據(jù)與文史類數(shù)據(jù)的比例,從零訓(xùn)練語言模型并自定義自駕專用LLMinputtokenizer,根本上選擇了更為困難但上限更高的路徑以解決模型效率問題。RLHF與云端世界模型強(qiáng)化訓(xùn)練是模型后訓(xùn)練環(huán)節(jié),主要解決模型類人性問題。RLHF方法是通過篩選大量NOA接管數(shù)據(jù)(不符合人類預(yù)期的表現(xiàn))以建立人類偏好數(shù)據(jù)集,使模型從特定的偏好數(shù)據(jù)中學(xué)習(xí)對齊人類行為,提升模型的安全下限。同時(shí)MindVLA基于自研的重建+生成云端統(tǒng)一世界模型,深度融合重建模型的三維場景還原能力與生成模型的新視角補(bǔ)全,以及未見視角預(yù)測能力,構(gòu)建接近真實(shí)世界的仿真環(huán)境實(shí)現(xiàn)了基于仿真環(huán)境的大規(guī)模閉環(huán)強(qiáng)化學(xué)習(xí),并利用工程化能力將3DGS的訓(xùn)練速度提升了7倍以上。通過創(chuàng)新性的預(yù)訓(xùn)練與后訓(xùn)練方式,MindVLA實(shí)現(xiàn)了優(yōu)秀的模型表現(xiàn)與泛化能力,預(yù)計(jì)將成為部署與量產(chǎn)最快的車端VLA模型。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表26:理想MindVLA后訓(xùn)練環(huán)節(jié)世界模型框架3.具身智能本質(zhì)是自動駕駛的升維問題,構(gòu)建數(shù)據(jù)機(jī)器人智能化的嘗試由來已久,VLA方案或是未來通解。1966-1972年,斯坦福研究院開發(fā)出“Shakey”,它可以理解簡單的英文指令并自主避障,被視為機(jī)器人“有思考能力”的開端;2013年,DeepMind的DQN算法讓學(xué)術(shù)界第一次意識到深度學(xué)習(xí)可以將機(jī)器人視覺與動作用同一張神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),并由此催生了一批“專用”機(jī)器人,但彼時(shí)機(jī)器人泛化性能極差,常因?yàn)楣庹諚l件變化或物體的稍微形態(tài)變化就宕機(jī);2021年OpenAI的CLIP、Google的ALIGN將海量圖片與文字對齊至同一嵌入空間,具身智能進(jìn)入VLM時(shí)代,但仍缺等工作,使模型既能看圖、又能理解指令并生成動作軌跡成為可能;2023年,DeepMind在此前基礎(chǔ)之上,正式推出RT-2模型,使機(jī)器人可以從給定的語言指令和視覺信號,直接生得準(zhǔn)”的第三階段。近年來對于機(jī)器人VLA的探索主要集中于如何進(jìn)行高效數(shù)據(jù)采集與模型架構(gòu)優(yōu)化兩個(gè)方向(本文中機(jī)器人更多代指人形機(jī)器人方案)。架構(gòu)層面,從谷歌無預(yù)訓(xùn)練的RT系列到OpenVLA到Helix、ViLLA等,模型發(fā)展依托于VLM進(jìn)步,隨著開源VLM架構(gòu)優(yōu)化與訓(xùn)練方法革新,相關(guān)成果拓展至VLA,同時(shí)FlowMatching、Diffusion等技術(shù)提升了機(jī)器人動作生成能力,模型整體架構(gòu)呈現(xiàn)出多模態(tài)能力更強(qiáng)、動作生成更精細(xì)化、泛化能力更優(yōu)秀、一段式向雙系統(tǒng)演變等發(fā)展趨勢。數(shù)據(jù)層面,從谷歌私有數(shù)據(jù)集,到OpenX-Embodiment、AgiBotWorld開源真機(jī)數(shù)據(jù),再到仿真數(shù)據(jù)和互聯(lián)網(wǎng)人類視頻數(shù)據(jù)的引入,國內(nèi)外機(jī)構(gòu)積極探索,通過新采集、歷史數(shù)據(jù)處理、合成數(shù)據(jù)等方式豐富數(shù)據(jù)源。數(shù)據(jù)質(zhì)量決定模型上限,數(shù)據(jù)是VLA模型發(fā)展最根本、持久的驅(qū)動力。請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明圖表27:具身智能VLA模型發(fā)展歷程注:左側(cè)由上至下分別為計(jì)算機(jī)視覺、自然語言處理、強(qiáng)化學(xué)習(xí);右側(cè)由上至下分別為VLA主干模型、控制策略、任務(wù)規(guī)劃器圖表28:機(jī)器人智能化模型數(shù)據(jù)金字塔我們通過對機(jī)器人VLA與汽車VLA進(jìn)行對比分析以探究機(jī)器人VLA數(shù)據(jù)閉環(huán)構(gòu)建中面臨的突出問題,本質(zhì)上汽車VLA與機(jī)器人VLA所面臨的應(yīng)用場景與任務(wù)的不同決定了二者擁有不同的商品屬性和標(biāo)準(zhǔn)化程度。汽車可以被視為一種低自由度的特殊機(jī)器人,所面臨的場景和任務(wù)是結(jié)構(gòu)化場景下的單一任務(wù),根本上決定了汽車是感知方式、輸出控制、自由度、本體結(jié)構(gòu)都相對標(biāo)準(zhǔn)化的耐用消費(fèi)品,底層硬件結(jié)構(gòu)的統(tǒng)一性和場景、任務(wù)單一性決定了其數(shù)據(jù)采集方式、所采集的數(shù)據(jù)、模型設(shè)計(jì)的標(biāo)準(zhǔn)化;而廣義的機(jī)器人由于所面臨的場景與任請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明務(wù)需求多樣化,更多偏向于非標(biāo)的可選消費(fèi)電子類產(chǎn)品,更需要在模型設(shè)計(jì)、本體結(jié)構(gòu)標(biāo)準(zhǔn)化、數(shù)據(jù)采集效率、任務(wù)覆蓋范圍等多個(gè)條件中進(jìn)行權(quán)衡。二者場景、任務(wù)的不同,決定了二者商品屬性和標(biāo)準(zhǔn)化程度不同進(jìn)而決定了二者上層結(jié)構(gòu)的差異。我們嘗試從數(shù)據(jù)、仿真環(huán)境、端側(cè)算力等具體角度對比汽車VLA與機(jī)器人VLA的差異性。整體來看,機(jī)器人的數(shù)據(jù)閉環(huán)構(gòu)建難度遠(yuǎn)超車端,其工程部署還需要解決標(biāo)準(zhǔn)化、本體交互能力、模型閉環(huán)等重要問題,機(jī)器人VLA所面臨的各種問題匯集在一起突出表現(xiàn)為當(dāng)前還無法進(jìn)行有效的數(shù)據(jù)收集進(jìn)而構(gòu)建完整數(shù)據(jù)閉環(huán),而無法Scaling的具身就無從談起智能化,因此我們認(rèn)為機(jī)器人VLA模型或智能化當(dāng)前還處于前期探索階段,相較于汽車VLA專注于工程化,機(jī)器人VLA更是一個(gè)科研問題。機(jī)器人VLA模型所需的數(shù)據(jù)更為復(fù)雜多樣,核心原因在于機(jī)器人所面臨的場景和任務(wù)更為多樣化,泛化能力要求遠(yuǎn)高于汽車。1)應(yīng)用場景與任務(wù)不同,自動駕駛的汽車可以被理解為一個(gè)特殊的機(jī)器人,其所面臨的結(jié)構(gòu)化道路場景和執(zhí)行的駕駛?cè)蝿?wù)都較為單一;機(jī)器人如人形機(jī)器人所面臨的場景和任務(wù)非常豐富,部署場景從家庭、工廠等封閉式場合到公共服務(wù)場合等開放式場景,任務(wù)從家政服務(wù)到工廠務(wù)工,幾乎能囊括人類日常生活的各方面,因此從訓(xùn)練數(shù)據(jù)的多樣性角度,其數(shù)據(jù)需求遠(yuǎn)超汽車;2)模型能力要求不同,從應(yīng)用場景和任務(wù)出發(fā),車端VLA重點(diǎn)在于提升端側(cè)推理效率以增強(qiáng)模型的動態(tài)博弈能力,更加注重感知數(shù)據(jù)輸入和2D軌跡規(guī)劃輸出以及模型實(shí)時(shí)決策,其數(shù)據(jù)維度較低(可以理解為一個(gè)動作專用模型利用同構(gòu)低維數(shù)據(jù),強(qiáng)化學(xué)習(xí)反復(fù)迭代提升性能機(jī)器人VLA則更為注重模型的泛化性,其所需求的數(shù)據(jù)除感知數(shù)據(jù)以外,更為關(guān)注本體與真實(shí)世界的物理交互數(shù)據(jù)(如力反饋、摩擦力數(shù)據(jù)等且更多輸出3D空間動作規(guī)劃,所需數(shù)據(jù)的維度、復(fù)雜度更高。因此在假設(shè)完美完成一類任務(wù)所需數(shù)據(jù)規(guī)模差異不大的前提下,機(jī)器人所需的數(shù)據(jù)從多樣性到復(fù)雜度相較于車端都有較大提升。圖表29:人形機(jī)器人與汽車所面臨的場景、任務(wù)豐富度不同請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明現(xiàn)有公開機(jī)器人數(shù)據(jù)集相較于車端數(shù)據(jù)非常匱乏。以特斯拉為例,其在多個(gè)場合提到FSD訓(xùn)練依賴于上千萬個(gè)視頻片段,累計(jì)時(shí)長達(dá)到幾萬小時(shí),相較而言,目前人形機(jī)器人領(lǐng)域較大的公開數(shù)據(jù)集如X-Embodiment、AgiBotWorld等,視頻片段多在百萬級規(guī)模。機(jī)器人硬件方案未收斂和本體高自由度導(dǎo)致了真實(shí)數(shù)據(jù)采集困難。1)硬件方案未收斂導(dǎo)致數(shù)據(jù)孤島。目前廣義的人形機(jī)器人硬件結(jié)構(gòu)尚存在不確定性,例如本體存在輪式方案與雙足方案,手部結(jié)構(gòu)如夾爪、靈巧手、三爪等機(jī)械結(jié)構(gòu)尚未確定;傳感器方案中視觸覺、磁變傳感器的方案選擇與具體排布位置也未有定論。且當(dāng)前人形機(jī)器人數(shù)據(jù)采集方法多數(shù)集中在關(guān)節(jié)層數(shù)據(jù),如各自由度的角度、速度、力矩等,硬件不統(tǒng)一導(dǎo)致不同機(jī)器人關(guān)節(jié)結(jié)構(gòu)差異較大,采集的數(shù)據(jù)具有極強(qiáng)的平臺依賴性,可復(fù)用性低,數(shù)據(jù)孤島問題極大提高了數(shù)據(jù)采集成本,使得產(chǎn)業(yè)端難以通過規(guī)模化降低數(shù)據(jù)成本。2)高自由度導(dǎo)致數(shù)據(jù)采集效率低下。人形機(jī)器人與自動駕駛在自由度上差異最為顯著,汽車僅有前后、速度等兩三個(gè)自由度,而人形機(jī)器人靈巧手+單臂自由度可達(dá)20+,若雙臂操作+全身控制,其自由度很容易達(dá)到四五十個(gè)。高自由度帶來諸多問題:1)本體高自由度的累計(jì)傳遞誤差帶來的本體精度問題以及機(jī)器人本體-人體自由度不匹配導(dǎo)致映射算法構(gòu)建困難,進(jìn)而導(dǎo)致真實(shí)數(shù)據(jù)采集精度不夠,有效數(shù)據(jù)比例較低;2)較高的自由度對于當(dāng)前主流的遙操、動捕等真實(shí)數(shù)據(jù)采集方式的人員及設(shè)備提出了很高的要求,提高了數(shù)據(jù)采集的成本。圖表30:不同人形機(jī)器人本體構(gòu)型尚未確定資料來源:智元機(jī)器人、中關(guān)村在線、Rai請務(wù)必仔細(xì)閱讀正文之后的評級說明和重要聲明1)模型發(fā)展需要與底層算力匹配,算力解放是技術(shù)進(jìn)步并應(yīng)用的基礎(chǔ)。車端以理想汽車VLA為例,經(jīng)過權(quán)衡端側(cè)算力與計(jì)算效率,理想率先推出了雙系統(tǒng)架構(gòu),其后Orin-X向Thor的迭代為雙系統(tǒng)向VLA的迭代創(chuàng)造了算力基礎(chǔ),人形機(jī)器人目前較為流行的雙系統(tǒng)架構(gòu)也是行業(yè)權(quán)衡端側(cè)算力與推理效率之后的選擇。2)機(jī)器人VLA模型算力需求更多但端側(cè)部署環(huán)境更為嚴(yán)苛。一方面機(jī)器人面臨的任務(wù)和場景更多,云端模型訓(xùn)練面臨的數(shù)據(jù)處理需求和所需的算力需求更多;另一方面,機(jī)器人端側(cè)相較于汽車,芯片運(yùn)行工況更為惡劣,需同時(shí)處理的交互任務(wù)、自由度計(jì)算更多,散熱、體積、功耗等要求更為嚴(yán)格。目前行業(yè)多采取高芯低頻、部分計(jì)算核睿頻的方式進(jìn)行端側(cè)計(jì)算,我們認(rèn)為背后核心原因是行業(yè)不成熟導(dǎo)致供應(yīng)鏈不成熟所致,即缺乏一款專為機(jī)器人設(shè)計(jì)的芯片以適應(yīng)機(jī)器人的工況和算力需求,目前機(jī)器人芯片更多是其余行業(yè)芯片改制而來(如英偉達(dá)Jetson平臺未來尖端制程下放和專用芯片研發(fā)成功或?yàn)闄C(jī)器人技術(shù)的快速迭代提供算力基礎(chǔ)。3.2.4.構(gòu)建可供機(jī)器人使用的仿真環(huán)境需要注重可交互性建機(jī)器人VLA對于仿真環(huán)境的要求比車端更高,需要更注重交互能力建設(shè)。構(gòu)建優(yōu)秀的仿真環(huán)境對于機(jī)器人智能化非常重要,一方面,仿真模擬器可以提供仿真數(shù)據(jù)供模型進(jìn)行基礎(chǔ)預(yù)訓(xùn)練,一定程度彌補(bǔ)真實(shí)數(shù)據(jù)不足;另一方面,優(yōu)秀的仿真模擬器也能提供相對多樣化、低成本、可拓展的強(qiáng)化學(xué)習(xí)環(huán)境。構(gòu)建優(yōu)秀的機(jī)器人仿真環(huán)境需要解決三個(gè)問題:視覺差異、資產(chǎn)可微分、物理動力學(xué),對于汽車環(huán)境的構(gòu)建,視覺差異是主要矛盾點(diǎn)(較少的涉及物理交互,一旦交互可大致判定為出現(xiàn)cornercase,策略失敗而機(jī)器人因?yàn)樘烊坏慕换傩?,需要更為注重交互能力建設(shè)。目前在機(jī)器人仿真領(lǐng)域已有英偉達(dá)Issac、清華DISCOVERSE等不同的仿真平臺,但存在仿真數(shù)據(jù)簡單、底層物理規(guī)律與物體材質(zhì)仿真困難等問題,如何解決物理規(guī)律問題是仿真領(lǐng)域即將面臨的核心矛盾,我們認(rèn)為從模型和數(shù)據(jù)角度,未來世界模型+多模態(tài)數(shù)據(jù)或是實(shí)現(xiàn)可交互仿真環(huán)境建設(shè)進(jìn)而實(shí)現(xiàn)機(jī)器人物理可交互性的兩條路徑。世界模型仿真路線尚未有確切的實(shí)現(xiàn)路徑和定義,4DGS(3DGS+時(shí)間軌跡)+生成式方法或是潛在方案,例如理想ReconDreamer、GeoDrive模型、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論