2025大模型及機(jī)器人算法- VLA技術(shù)分解

上傳人：策*** IP屬地：河北上傳時(shí)間：2026-02-01 格式：PPTX 頁數(shù)：51 大?。?.46MB 積分：19.9 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩46頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大模型及機(jī)器人算法-VLA技術(shù)分解01機(jī)器人整機(jī)系統(tǒng)架構(gòu)VLA

（左）

被視為“全程可求導(dǎo)”的統(tǒng)一架構(gòu)，

“全程可求導(dǎo)

”（

Fully

Differentiable

）

而傳統(tǒng)的E2E+VLM

（右）

則被視為“非全程可求導(dǎo)”的雙系統(tǒng)拼湊VLM的“非”端到端本質(zhì)其核心問題在于：

VLM的輸出端是文本

（Text）

，

而非軌跡

（Trajectory）VLA的“真”端到端在算法形式上

，

回歸并堅(jiān)守了從

（傳感輸入）

到

（軌跡輸出）

的端到端神經(jīng)網(wǎng)絡(luò)形式；“全程

可求導(dǎo)”（Fully

Differentiable）VLA將兩個(gè)并行的

、解耦的系統(tǒng)

（3D編碼器->動(dòng)作解碼器和2D編碼器->LLM）

，

重構(gòu)為一個(gè)統(tǒng)一的

、

串行的“V

->A”單一模型

（空間智能->

語言智能->

行動(dòng)策略)VLM模型與VLA模型VLA的通用技術(shù)棧：

積木是如何搭建的？VLA：

視覺編碼器

（V）

、語言編碼器

（

L）

和動(dòng)作解碼器

（A）VLA的三大核心組件：

視覺編碼器

（Visual

Encoder）

、大型語言模型

（

LargeLanguage

Model，

即L模塊）

和動(dòng)作解碼器

（Action

Decoder）VLA領(lǐng)域最受青睞的ViT主要有兩種：

CLIP/SigLIP

和

NOv21.

CLIP

SigLIP：

提供“

內(nèi)容識(shí)別

”能力

(

“What

it?

”).核心功能：

CLIP（及其優(yōu)化版SigLIP

）

的核心是

強(qiáng)大的視覺-文本對齊（visual-text

alignment）

能力

。它擅長

將圖像中的像素與描述這些像素的自然語言單詞聯(lián)系起來

。.訓(xùn)練方式：它們通過海量的

“

圖像-文本

”配對數(shù)據(jù)進(jìn)行“對比學(xué)習(xí)

”（

Contrastive

Learning

）

。簡單來說，

它們學(xué)習(xí)到了

“這段文字描述的就是這張圖片

”。.SigLIP的優(yōu)勢：

SigLIP是CLIP的直接升級版

。它用更簡單

、擴(kuò)展性更好的Sigmoid損失函數(shù)

，

取代了CLIP復(fù)雜的Softmax損失函數(shù)，

訓(xùn)練過程更高效，

且在更大規(guī)模數(shù)

據(jù)集上表現(xiàn)更好，

從而實(shí)現(xiàn)了

“

更簡單，

效果更好

”。.VLA中的角色：

SigLIP主要為VLA提供了

“識(shí)別和描述圖

像內(nèi)容”

的能力

。它負(fù)責(zé)告訴

“

大腦”：

“

我看到了一

個(gè)紅色的瓶子

”或

“這是一條狗，

脖子上有牽引繩

”。2.D

NOv2：

提供“空

間理解

”

能力

(

“Where

it?

How

positioned?

”)核心功能：

NOv2

的核心是強(qiáng)大的空間理解和高級視覺語義能力

。訓(xùn)練方式：

它是一種自監(jiān)督學(xué)習(xí)（

Self-Supervised

Learning

）模型

。它不需要文本標(biāo)簽，

而是通過一種名為

“

自蒸餾

”（

self-distillation

）

的方式進(jìn)行訓(xùn)練

。這種方式強(qiáng)迫模型去理解圖像的內(nèi)在空間結(jié)構(gòu)（例如，

一張貓的左耳和右耳在空間上的關(guān)系

，即使沒有任何文字告訴它這是

“

貓”或

“

耳朵

”

）

。VLA中的角色：

NOv2主要為VLA提供了“

空間推理能力”

。它負(fù)責(zé)告訴

“

大腦”

：

“那個(gè)紅色的瓶子在碗的左邊，

并且是豎立著的

”，

或者

“那只狗正坐著，

它的牽引繩延伸到了草地上

”。視覺編碼器

(V)：

VLA的“

眼睛

”在當(dāng)今的技術(shù)棧中，

這個(gè)角色的最佳選擇，

幾乎被ViT

（Vision

Transformer）

及其變體所壟斷

。而ViT的強(qiáng)大，又來自于其特定的“預(yù)訓(xùn)練”方式。視覺編碼器

(V)：

VLA的“

眼睛

”VLA領(lǐng)域最受青睞的ViT主要有兩種：

CLIP/SigLIP

和

NOv23.

頂尖方案：

SigLIP

NOv2

雙編碼器既然SigLIP擅長“識(shí)別內(nèi)容

”（

What

），

而DI

NOv2擅長“理解空間

”（

Where/How）

，

那么最強(qiáng)大的VLA視覺系統(tǒng)，

自然是將兩者互補(bǔ)的優(yōu)勢結(jié)合起來

。OpenVLA的視覺編碼器架構(gòu)

。它同時(shí)并聯(lián)使用了Di

noV2和SigLIP，

將兩者的特征（features

）融合后，再送入MLP

Projector（MLP投影器）這正是OpenVLA

、Prismatic-7B

等頂尖VLA模型所采用的“雙編碼器

”策略：視覺編碼器

(V)：

VLA的“

眼睛

”VLA領(lǐng)域最受青睞的ViT主要有兩種：

CLIP/SigLIP

和

NOv23.

頂尖方案：

SigLIP

NOv2

雙編碼器1.并行編碼：

原始圖像被同時(shí)輸入到SigLIP和Di

noV2兩個(gè)獨(dú)立的視覺編碼器中

。2.特征提?。?/p>

SigLIP輸出包含豐富

“

內(nèi)容

”信息的特征向量，

noV2輸出包含精確

“

空間

”

信息的特征向量

。3.特征融合：

這兩種不同類型的特征向量在通道維度上被

“

連接

”（

Concatenated）

在一

起

，

形

成

一

個(gè)同時(shí)

包

含

“

是

什

么”和

“

在哪

里

怎

么

樣”

的

“

綜

合

性的

視

覺

表

示”

（

comprehensive

visual

representation

）

。4.模態(tài)對齊-關(guān)鍵步驟：

最后，

這個(gè)

“綜合視覺特征

”必須被

“翻譯

”成

“

大腦

”（L模塊

，

即LLM）

能夠理解的

“

語言

”

。這個(gè)關(guān)鍵的

“翻譯

”步驟由一個(gè)MLP

Projector（多層感

知機(jī)投影器）

完成

。該投影器負(fù)責(zé)將高維的視覺特征向量，

投影（映射）

到與LLM處理文

本時(shí)使用的相同的

“令牌

”（

Token

）嵌入空間中

。通過這種“雙編碼器+

MLP投影器

”的精密設(shè)計(jì)

，VLA的“

眼睛

”就為“大腦

”提供了最完美的輸入：

一個(gè)既知道“是什么

”（來自SigLIP

），

也知道“在哪里/怎么樣

”（來自Di

noV2）

的

、且“大腦

”能夠直接理解的視覺信息流

。理想汽車MindVLA的實(shí)現(xiàn)方式：

擁抱3D高斯建模

(3DGS)MindVLA的V模塊核心是：1.3

D高斯建模-3D

Gaussian

Splatting,

DGS：

它沒有使用SigLIP或DI

NOv2，

而是直接采用了基于3D高斯球的場景表示方法

。這種方法旨在從多視圖2D圖像中，

重建出更精細(xì)

、更連續(xù)的3D場景

。2.自監(jiān)督3D編碼器預(yù)訓(xùn)練-Self-Supervised

Encoder

Pretraining：

其V模塊通過自監(jiān)督的方式

，直接從傳感器數(shù)據(jù)（包括攝像頭Cameras,

激光雷達(dá)Lidar等）

通過3D

Encoder

生成統(tǒng)一的SceneRepresentation（場景表示）

。3D

Tokenizer

Projector：

最終，

這個(gè)基于3DGS的場景表示，

通過3D

Projector（3D投影器）或3D

Tokenizer

被轉(zhuǎn)換為Mind

GPT（L模塊）

可以理解的Token

。對比總結(jié)：.通用方案-SigLIP

NOv2：

更側(cè)重于從2D圖像中提取內(nèi)容和空間語義，

并通過MLP投影器與LLM對齊

。.MindVLA方案-3DGS：

更側(cè)重于直接進(jìn)行高保真的3D場景重建，

為

“從零預(yù)訓(xùn)練

”的L模塊提供更原生

、更豐富的3D空間輸入

。這兩種不同的V模塊實(shí)現(xiàn)路徑，

也反映了VLA架構(gòu)仍在快速發(fā)展，

不同的團(tuán)隊(duì)在根據(jù)自身的技術(shù)積累和目標(biāo)進(jìn)行著不同的探索

。.LLaMA家族（核心主導(dǎo)）

：

這是目前VLA領(lǐng)域的絕對主流

。.LLaMA

：

被廣泛認(rèn)為是開源V

模型的

“

標(biāo)

配”

。例

如

，

Open

LA和Prismatic

7B都

明

確

使

用了

Llama27

B作

為

其

語

言

主

干（backbone）

。.Vicuna

：作為LLaMA最著名的微調(diào)變體之一，Vicuna因其強(qiáng)大的對話和推理能力而被廣泛采用

。ORION

架構(gòu)的LLM就是Vicuna

1.5

。.Qwen系列（重要力量）

：

阿里巴巴的Qwen系列也在VLA領(lǐng)域扮演著重要角色

。.OpenDriveVLA使用了Qwen-2.5

。.SimLingo使用了Qwen-2

。.Impromptu

VLA和AutoVLA則都采用了Qwen-2.5VL

。理想汽車早期IM系統(tǒng)也使用了基于Qwen（千問）

的VLM

。.其他家族（展現(xiàn)多樣性）

：

當(dāng)然，

GPT系列和Gemma等也在VLA模型中占有一席之地

，驗(yàn)證了VLA架構(gòu)的靈活性

。.EMMA使用了Gemini

。.LangCoop使用了GPT-4o

。.

VaVIM使用了GPT-2

。.Pi-0和FAST模型使用了Gemma-2B

。語言編碼器

(L)：

VLA的“大腦

”接收來自“眼睛”（V模塊）

的視覺令牌

（Visual

Token）

和來自用戶的文本令牌

（Text

Token）

，

在模型內(nèi)部將這兩者“融合”（Fuse）

，

并進(jìn)行復(fù)雜的跨模態(tài)推理

（Cross-modal

Reasoning）

?！按竽X”的主流選擇：

LLaMA家族與Qwen等本指令

”，另一路是來自MLP

Projector的“視覺特征

”。1.融合（Fusion

）：

L模塊（LLM）

的輸入是一個(gè)組合序列

。這個(gè)序列的前半部分是來自

“

眼

睛

”（

V模塊）

的視覺Token（即被MLP

Projector

“翻譯

”過的視覺特征）

，

后半部分是來

自

“用戶

”的文本Token（例如

“

Put

eggplant

bowl

”，

即

“把茄子放進(jìn)碗里

”

）

。2.推理（Reasoning

）

：

一旦輸入融合，

LLM就會(huì)像處理普通文本一樣，

在

“

視覺”和

“

文

本

”Token之間進(jìn)行復(fù)雜的

“

自注意力

”（

Self-Attention

）計(jì)算

。.在ORION

這樣的高級架構(gòu)中，

L模塊的輸入甚至還包括了來自QT-Former

的

“歷史Token

”。.此時(shí)，

LLM會(huì)執(zhí)行后續(xù)的高級推理任務(wù)，

如

“場景分析

”（

Scene

Analysis

）

、“

動(dòng)作推理

”

（

Action

Reasoning）和

“歷史回顧

”（History

Review

）

。語言編碼器

(L)：

VLA的“大腦

”“大腦”是如何工作的？——融合與推理OpenVLA的L模塊（

Llama

）接收兩路輸入：一路是來自LlamaTokenizer的“文語言編碼器

(L)：

VLA的“大腦

”“大腦”的輸出：

從“思考”到“指令”VLA“大腦

”的革命性在于它的輸出

。它輸出的不是用于聊天的文本，

而是一個(gè)（或一系列）

高度濃縮的

、機(jī)器可讀的“動(dòng)作令牌

”（

ActionToken

）或“規(guī)劃令牌

”（

Planning

Token

）

。這個(gè)

“Token

”就是L模塊（大腦）

“

思考

”的最終結(jié)晶

。它代表了一個(gè)明確的

“

意圖

”或

“

決策

”

（例如“抓取紅色物體

”或“執(zhí)行減速讓行策略

”

）

。這個(gè)“意圖

”將被傳遞給A模塊（

“手腳

”

）

，

由A模塊去解碼和執(zhí)行

?！按竽X”的優(yōu)化：

LoRA與MoE在車端或機(jī)器人上部署一個(gè)70億（7B

）參數(shù)的LLM是一個(gè)巨大的工程挑戰(zhàn)

。為了讓“大腦

”既聰明又

高效，

業(yè)界采用了兩種主流的優(yōu)化策略：.LoRA-Low-Rank

Adaptation：

這是ORION(小米的實(shí)現(xiàn))

采取的策略

。即凍結(jié)（Frozen

）

龐

大的Vicuna

主體參數(shù)，

只在旁邊

“

外掛

”一個(gè)極小的

、可訓(xùn)練的LoRA適配器

。這使得VLA的微

調(diào)成本和部署靈活性大大降低，

是一種

“輕量化

”的改裝方案

。這里面理想汽車MindVLA的與ORION

等模型采用開源LLM（如Vicuna

）+

LoRA輕量化微調(diào)的“

改裝

”路線不同，

理想汽車的MindVLA選擇了更徹底的“從零開始打造LLM

”的“

自研

”路線，

其L模塊被稱

為Mind

GPT

。理想汽車的L模塊稱為Mind

GPTMind

GPT

的核心特點(diǎn)在于其針對3D駕駛場景的原生設(shè)計(jì)：1.原生3D輸入：

Mind

GPT的輸入不是經(jīng)過MLP

Projector

“翻譯

”的2D圖像特征，

而是來自V模塊

的

、通過3D

Projector

或3D

Tokenizer

處理的

“

3D高斯特征

”（3D

Gaussian

Features

）

。它的

“母語

”就是3D空間

。2.面向駕駛的預(yù)訓(xùn)練：

Mind

GPT在預(yù)訓(xùn)練階段就學(xué)習(xí)駕駛相關(guān)的物理因果律

，

例如通過

“

未來幀預(yù)測”

（

Frame

Prediction

）

和

“CoT（條件輸出）”等任務(wù)進(jìn)行訓(xùn)練

。3.為車端優(yōu)化的架構(gòu)：

為了在車端芯片上實(shí)現(xiàn)實(shí)時(shí)推理，

Mind

GPT內(nèi)部采用了MoE（混合專家）

稀疏注意力（Sparse

Attention

）

架構(gòu)，

通過Router（路由器）

實(shí)現(xiàn)稀疏激活，

大幅降低了計(jì)算量

。4.高效動(dòng)作輸出：

在輸出

“Action

Tokens

”（動(dòng)作令牌）時(shí)，

Mind

GPT采用了

“

并行解碼

”（ParallelDecoding

）技術(shù)，

在一個(gè)步驟內(nèi)同時(shí)生成所有動(dòng)作指令（如轉(zhuǎn)向

、油門等）

，

滿足了實(shí)時(shí)性要求

。對比總結(jié)：.通用方案-如小米ORION：

通常采用開源LLM

LoRA微調(diào)

。優(yōu)點(diǎn)是開發(fā)速度快，

可利用社區(qū)成果；

缺點(diǎn)是LLM底層可能缺乏對3D物理世界的原生理解

。.Mind

VLA方案-Mind

GPT：

采用從零預(yù)訓(xùn)練

。優(yōu)點(diǎn)是模型天生為3D駕駛設(shè)計(jì)，

與V模塊（3DGS）

結(jié)合更緊密，

性能潛力可能更高；

缺點(diǎn)是研發(fā)投入巨大

。動(dòng)作解碼器

(A)：

VLA的“手腳

”“動(dòng)作解碼器

”（

Action

Decoder,A模塊）

的核心任務(wù)，

就是接收來自“大腦

”（

L模塊）

的那個(gè)高

度濃縮的

“意圖

”Token，

并將其

“解碼

”（

Decode

）成一系列真實(shí)

、物理

、可執(zhí)行的控制信號(hào)

，

例如機(jī)器人的[Δx,Δθ

,ΔGrip]（7D動(dòng)作）

或自動(dòng)駕駛的“Trajectories

”（軌跡）

?！包S金標(biāo)準(zhǔn)

”：

基于擴(kuò)散的Transformer（DiffusionTransformer

）在所有技術(shù)中，“基于擴(kuò)散的Transformer

”（

Diffusion-based

Transformer

）是目前VLA模型中“最受青睞

”（

most

favored）

的動(dòng)作解碼器方案

。.代表模型：

Octo

、理想汽車的MindVLA（其A-Action

Policy核心就是一個(gè)“

Diffusion

Decoder

”）

以及小米/華科的ORION（它也將Diffusion作為一個(gè)核心的“Generative

Planner

”選項(xiàng)）

都采用了這一思路

。.為何是它？

因?yàn)镈iffusion模型（

GC繪畫的核心技術(shù)）

極其擅長“建模復(fù)雜多模態(tài)動(dòng)作分布

”。.解釋：

駕駛或機(jī)器人操作往往不是一個(gè)“

唯一解

”。面對一個(gè)障礙物

，你可以“

向左繞一點(diǎn)

”、“

向左繞很多

”或者“

減速等待

”。Diffusion模型天生就能理解并生成這種“

多模態(tài)

”的概率分布，

而不是只給出一個(gè)僵硬的單一答案

。.如何工作？

它通過一種名為“

迭代去噪

”（

Iterative

Denoising）

的方式工作

。.流程：

從一堆隨機(jī)的“

噪聲

”（Noise）

出發(fā)

，在“

大腦

”（L模塊）

輸出的“Action

Token

”或“

Planning

Token

”的約束和引導(dǎo)下

，逐步將噪聲“還原

”成一條（或多條）

符合意圖的

、最優(yōu)的軌跡

。.核心優(yōu)勢：

這種“

生成式

”的軌跡

，具有無與倫比的“細(xì)粒度

”和“

平滑控制

”（fine-grained,

smooth

control）

能力

。.“

擬人化

”軌跡：

這完美地呼應(yīng)了MindVLA的目標(biāo)——生成“

擬人化

”的

、“

如絲般順滑

”的“

黃金軌跡

”。正如理想工程師所比喻的“

旋輪線

”，

Diffusion尋找的是物理上最優(yōu)

、最舒適的“

變分函數(shù)

”解，

而不是簡單的代數(shù)曲線

。.工程挑戰(zhàn)：

Diffusion雖然強(qiáng)大

，但“

迭代去噪

”天生就很慢

。為了解決這個(gè)問題，

MindVLA等架構(gòu)采用了ODE

Sampler（常微分方程采樣器）

等技術(shù)

，將“

去噪

”步驟從幾百步壓縮到“

2到3步

”，從而滿足了實(shí)時(shí)控制的需求

。.解決方案

(以MindVLA為例)：

為了解決這個(gè)速度瓶頸，

MindVLA等架構(gòu)采用了ODE

Sampler（常微分方程采樣器）

等先進(jìn)的采樣技術(shù)

。.效果：

這些技術(shù)極大地加速了Diffusion的生成過程

。它們不再需要“成百上千步

”，

而是可以將軌跡的“

收斂

”壓縮到“

大概2到3步內(nèi)完成

”。這個(gè)工程上的突破

，才使得Diffusion這個(gè)強(qiáng)大的生成模型

，終于得以被應(yīng)用于需要實(shí)時(shí)控制的自動(dòng)駕駛和機(jī)器人領(lǐng)域

。動(dòng)作解碼器

(A)：

VLA的“手腳

”其他主流方案雖然Diffusion是“頂配

”，但在不同的VLA模型中，也存在其他更簡潔

、更高效的解碼器方案：.自回歸Transformer頭（

Autoregressive

Transformer

Head）

：.代表模型：

Gato

。.工作方式：

這種解碼器就像LLM“

寫作文

”一樣，

一個(gè)Token一個(gè)Token地“

逐步生成動(dòng)作序列

”。例如，

它會(huì)先生成“

轉(zhuǎn)向Token

”，再生成“油門Token

”…

….核心優(yōu)勢

：這種方式非常適合“優(yōu)化實(shí)時(shí)響應(yīng)

”。.MLP預(yù)測器頭（MLP

Predictor

Head）

：.代表模型：

OpenVLA

。.工作方式：

這是最簡單直接的方案

。L模塊輸出的“Action

Token

”，

被直接送入一個(gè)簡單的MLP（多層感知機(jī)，

即ActionDe-Tokenizer

），

由這個(gè)MLP直接“

映射

”出最終的[Δx,

ΔGrip]

等控制數(shù)值

。.核心優(yōu)勢：“

實(shí)現(xiàn)高效低級控制

”。它極其輕量

，計(jì)算速度飛快

。ORION的消融實(shí)驗(yàn)也將“

MLP

with

Planning

Token

”作為了一個(gè)重要的對比基線

。.嵌入式MPC/規(guī)劃頭（Embedded

MPC

Planning

Head）

：.代表模型：VoxPoser

。.工作方式：

VLA的L模塊（大腦）

不輸出具體動(dòng)作，

而是輸出一個(gè)“

目標(biāo)狀態(tài)

”，然后由一個(gè)經(jīng)典的“模型預(yù)測控制

”（

MPC

）或“規(guī)劃頭

”來解算這個(gè)目標(biāo)

。.核心優(yōu)勢：“支持動(dòng)態(tài)決策

”，

能很好地與傳統(tǒng)的

、經(jīng)過安全驗(yàn)證的控制理論相結(jié)合

。VLA的“積木

”V+L+A小結(jié)從簡單的MLP，

到實(shí)時(shí)的自回歸，

再到最強(qiáng)大

、最受青睞的Diffusion

Transformer，

“動(dòng)作解碼器

”

（

A模塊）

是VLA的最終執(zhí)行者，

負(fù)責(zé)將

“

大腦

”的意圖轉(zhuǎn)化為物理世界的精確動(dòng)作

。理想汽車MindVLA通過采用先進(jìn)的Diffusion

Transformer

并結(jié)合ODE

Sampler加速技術(shù)，

力求在生成質(zhì)

量和實(shí)時(shí)性之間達(dá)到最佳平衡

。至此

，VLA的“積木

”已全部分解完畢：V:

它用強(qiáng)大的視覺編碼器（如3DGS

或SigLIP+DI

NOv2）

作為“

眼睛

”，L:

用LLaMA

或自研模型（如Mind

GPT）

作為“大腦

”，A:

用先進(jìn)的動(dòng)作解碼器（如Diffusion

Transformer

）作為“手腳

”。這些最強(qiáng)組件的融合，

構(gòu)建出了這個(gè)革命性的“統(tǒng)一大腦

”。階段一

：語言模型作為“解釋器”

(Pre-VLA:LanguageModelasExplainer)典型架構(gòu)：

這一階段的系統(tǒng)通常采用一個(gè)凍結(jié)的視覺模型

（如

CLIP）

和一個(gè)LLM解碼器

（如

LLaMA-2）階段二：模塊化VLA模型(ModularVLAModelsforAD)典型架構(gòu)：

如第二幅圖所示

，系統(tǒng)接收多模態(tài)視覺輸入（

Multi

modal

Vision

），VLM（視覺語言模型）

不再只是對外輸出文本

，而是生成一個(gè)

“

中間表示”（Intermediate

Representation）

。這個(gè)中間表示隨后被送入一個(gè)獨(dú)立的

“

動(dòng)作頭”（

ActionHead）

，最終由動(dòng)作頭輸出“軌跡

”（

Trajectory

）或“控制

”（

Control）

信號(hào)

。階段三：統(tǒng)一的端到端VLA模型(Unified

End-to-EndVLAModelsforAD)典型架構(gòu)：

如第三幅圖所示，

階段二的“VLM”和“動(dòng)作頭”這兩個(gè)分離的模塊被合并成了一個(gè)單一的“VLMs”大模型。階段四：推理增強(qiáng)的VLA模型(Reasoning-AugmentedVLAModelsforAD)典型架構(gòu)：

如第四幅圖所示，

這一階段的架構(gòu)演變?yōu)椤巴评鞻LM與工具使用代理

”（Reasoning

VLMs

Tool-use

Agents）

。

VLM不再只是一個(gè)模型，

而是一個(gè)可以調(diào)用“工具

”（如記憶庫

、規(guī)劃器）

的“智能代理

”（Agent）

。VLA的四個(gè)進(jìn)化階段：

從“駕駛解釋器

”到“決策核心

”02理想MindVLA：

V/L/A三位一體的重構(gòu).空間智能模塊：輸入為多模態(tài)傳感器數(shù)據(jù)，使用

3D編碼器提取時(shí)空特征，然后將所有傳感器與語義信息融合成統(tǒng)一的表征。.語言智能模塊：嵌入式部署的大語言模型

Mind

GPT，用于空間+語言的聯(lián)合推理，支持語音指令和反饋，可能實(shí)現(xiàn)人車交互。.動(dòng)作策略模塊：使用擴(kuò)散模型生成車輛未來的行為軌跡，

引入噪聲來引導(dǎo)擴(kuò)散過程以生成多樣化的動(dòng)作規(guī)劃。.強(qiáng)化學(xué)習(xí)模塊：使用World

Model模擬外部環(huán)境響應(yīng)，評估行為后果；使用獎(jiǎng)勵(lì)模型（Reward

Model）：提供偏好或安全性評估，可能采用人類反饋（

RLHF）；使用閉環(huán)學(xué)習(xí)根據(jù)行為軌跡進(jìn)行持續(xù)優(yōu)化和泛化。新架構(gòu)

(VLA/

MindVLA

)：統(tǒng)一的

、串行的單一模型.輸入：

同樣是攝像頭

、激光雷達(dá)

、自車姿態(tài)

、導(dǎo)航。.單一通路：

所有輸入信息現(xiàn)在匯入一條統(tǒng)一的

、串行的處理流程：.V

(空間智能)：

所有傳感器輸入首先進(jìn)入V-Spatial

Intelligence模塊，通過3DTokenizer處理

，完成統(tǒng)一的3D場景理解與“令牌化

”。.L

(語言智能)：V模塊輸出的“3D場景令牌

”被送入L-Linguistic

Intelligence模塊（核心是Mind

GPT

(LLM)），進(jìn)行基于3D視覺信息的推理和決策。.A

(行動(dòng)策略)：

L模塊輸出的“決策令牌

”被送入A-Action

Policy模塊（核心是CollectiveAction

Generator，如Diffusion

）

，生成最終的Trajectories（軌跡）

。.核心優(yōu)勢：

這是一個(gè)完全統(tǒng)一的架構(gòu)。信息從V無縫流向L，再從L無縫流向A

。整個(gè)系統(tǒng)可以進(jìn)行端到端的聯(lián)合優(yōu)化

，實(shí)現(xiàn)了“強(qiáng)大的空間和語言推理

”與“行為的集體建模和對齊

”。理想MindVLA：

(視覺)革命：

從BEV到3D高斯建模

(3DGS)為什么要革命？——BEV的局限性離散的

、有損的

、且計(jì)算量巨大的3D高斯建模（

Gaussian

Splatting,3DGS）

技術(shù)3DGS徹底拋棄了“柵格

”。它不再試圖將連續(xù)的世界離散化，

而是用一種全新的方式來表示3D場景：

將其建模為數(shù)百萬個(gè)微小的

、連續(xù)的

、可微分的“高斯球

”（

Gaussian）

的集合

。每一個(gè)“高斯球

”都包含了精細(xì)的位置

、形狀（橢球）、顏色和透明度信息

。通過渲染這些高斯球的集合，

就能以極高的保真度和效率重建出逼真的3D場景

。MindVLA

V模塊的工作流程步驟一：

多源輸入融合與特征提取

(Inputs

Encoding).接收多源數(shù)據(jù):

系統(tǒng)首先接收來自車輛多個(gè)傳感器的原始數(shù)據(jù)流

。這包括高維感知數(shù)據(jù)

，如攝像頭（

Cameras）

的多視圖

、多幀圖像

(T,T-

1,T-2,T-3)和激光雷達(dá)（

Lidar

）的點(diǎn)云，

以及低維狀態(tài)/導(dǎo)航數(shù)據(jù)

，如車輛定位信息（

Position

）

、自車姿態(tài)（

Ego

Pose）和導(dǎo)航信息

（

Navigation

）

。.并行編碼:這些不同類型的數(shù)據(jù)通過不同的編碼器并行處理：o高維數(shù)據(jù)（圖像/點(diǎn)云）送入一個(gè)強(qiáng)大的3D

Encoder

(GaussianAD

Fig.2

中顯示多幀圖像

首先經(jīng)過一個(gè)CNN+FPN提取多尺度特征)

。o低維數(shù)據(jù)（狀態(tài)/導(dǎo)航）送入另一個(gè)相對簡單的Encoder

。.時(shí)空特征提取:3D

Encoder

不僅處理當(dāng)前幀

，還會(huì)結(jié)合歷史幀信息來提取蘊(yùn)含了豐富時(shí)空上下文（

Spatio-temporal

Context）

的3DFeatures（3D特征）

。低維

Encoder

則輸出車輛自身狀態(tài)和目標(biāo)的特征

。這兩組特征并不在此步驟融合

。步驟二：

核心

高斯中心場景重建

(Gaussian

Refinement

Loop).高斯初始化

(Uniform

Initialization):流程從一個(gè)“高斯均勻初始化

”出發(fā)——在3D空間中“撒

”下大量隨機(jī)的初始高斯球（可視化為彩色點(diǎn)云）

。.迭代優(yōu)化循環(huán)

(Refinement

Loop

Times"):

這是生成Scene

Representation

的核心

。初始高斯球會(huì)進(jìn)入一個(gè)迭代循環(huán)（重復(fù)B次）

，每次循環(huán)包含兩個(gè)關(guān)鍵操作（對應(yīng)論文中的Gaussian

Encoder

）：o

Sparse

Convolution:用于高斯球之間的時(shí)空交互

。這使得模型能夠理解場景的動(dòng)態(tài)變化和高斯球之間的相互關(guān)系

。o

Deformable

Cross-Attention:這個(gè)步驟在邏輯上接收步驟一中

Encoder

輸出的

Features

作為核心輸入

，將步驟一中從多幀圖像提取的視覺特征（3D

Features

）融入到每個(gè)高斯球中進(jìn)行交叉注意力的計(jì)算

。.統(tǒng)一輸出

(Scene

Representation):經(jīng)過B次自監(jiān)督學(xué)習(xí)（

Self-Supervised

Pretraining）

的迭代優(yōu)化后

，每個(gè)高斯球的參數(shù)（位置

、形狀

、顏色

、透明度

、語義）

都被逐步優(yōu)化（

progressively

refine

）

，最終形成了那個(gè)統(tǒng)一的

、高保真的

SceneRepresentation（場景表示）

，這不再是離散的框或柵格，

而是一個(gè)由數(shù)百萬優(yōu)化后的3D語義高斯球構(gòu)成的

、連續(xù)的數(shù)字孿生世界

。理想MindVLA：

V模塊的工作流程理想MindVLA：

V模塊的工作流程步驟三：優(yōu)勢與應(yīng)用.自監(jiān)督優(yōu)勢:這個(gè)核心的Scene

Representation是自監(jiān)督生成的

。它主要依賴多視圖圖像之間的一致性等數(shù)據(jù)自身的信息學(xué)習(xí)，極大地減少了

對昂貴人工3D標(biāo)注的依賴

。.統(tǒng)一表示取代中間步驟:這個(gè)“稀疏但全面

”

的3DGS表示取代了傳統(tǒng)流程中所有離散的

、信息有損的中間步驟（如顯式的3D

Boxes和Map構(gòu)建）

。.直接用于下游任務(wù)

:這個(gè)Scene

Representation可以直接或經(jīng)過簡單處理后用于后續(xù)核心任務(wù)的高質(zhì)量輸入：o

預(yù)測（Prediction

）：通過一個(gè)專門的Flow

Head

預(yù)測每個(gè)高斯球未來的位移（即高斯流

Gaussian

Flow

），從而直接預(yù)測未來的Scene

Representation（

T+1,T+2,T+3）

，實(shí)現(xiàn)對整個(gè)場景（包括動(dòng)靜態(tài)元素）演化的建模。o

規(guī)劃（

Planning）：基于對當(dāng)前和未來完整3D場景的深刻理解，規(guī)劃模塊（輸入來自Flow

Head預(yù)測的未來表示）可以直接生成駕駛軌跡（

Trajectory

）。.可選的解碼路徑

:可以選擇性地從統(tǒng)一的3DGS表示中解碼出傳統(tǒng)輸出，這些只是可選的輔助監(jiān)督或輸出，并非主流程必需

。：o密集任務(wù):通過Gaussian-to-Voxel

Splatting

轉(zhuǎn)換為密集體素特征，用于3D

Occupancy（3D占用柵格）

。o稀疏任務(wù):將高斯視為“語義點(diǎn)云

”，先通過3D

Sparse

Convolution進(jìn)一步處理，然后通過Sparse

Max-Pooling

或其他Sparse

Head

（稀疏頭）

來輸出3D

Boxes（3D包圍盒）

、Map（矢量化地圖元素）

。o運(yùn)動(dòng)任務(wù):

也可以通過Self-Attention處理高斯表示來預(yù)測Motion（特定物體的運(yùn)動(dòng)狀態(tài)）

。理想MindVLA：

V模塊的工作流程步驟四：

連接大腦

最終投影與Token化

(Projection

ConnectingV-Moduleto

L-Module).V模塊的最后一步是將所有必要信息傳遞給下游的L模塊（語言智能）

，3D

Projector（3D投影器）是這個(gè)最終的“接口

”和“融合點(diǎn)

”。.輸入:

它同時(shí)接收兩路輸入：o來自高維路徑的3D

Features，其核心內(nèi)容是由步驟二（高斯中心流程）生成的那個(gè)高保真的Scene

Representation

(即優(yōu)化

后的高斯球集合)。o來自低維路徑Encoder的輸出，代表車輛自身的狀態(tài)和導(dǎo)航目標(biāo)。.處理:3D

Projector

負(fù)責(zé)將這兩路信息融合，并將這個(gè)融合后的高維

、連續(xù)表示“投影

”或“Token化

”

成L模塊（如Mind

GPT）能

夠理解和處理的輸入格式（例如一系列嵌入向量或Token

）。MindVLA的V模塊革命全流程：.首先并行處理多源傳感器輸入，通過3D

Encoder（利用4D稀疏卷積處理時(shí)序）提取高維的3D

Features和低維的狀態(tài)特征；.然后，利用3D

Features和初始隨機(jī)高斯球，通過一個(gè)包含4DSparse

Convolution和Deformable

Cross-Attention的自監(jiān)督迭代

優(yōu)化循環(huán)

，生成一個(gè)連續(xù)

、高保真的3D高斯Scene

Representation，取代了傳統(tǒng)的多階段

、離散化感知管道。這個(gè)表示是如此豐富，以至于它既可以直接用于下游的“Prediction

”（預(yù)測）和“Planning

”（規(guī)劃），也可以在需要時(shí)（作為可選的監(jiān)督任務(wù)）輕松地

從中“解碼

”出傳統(tǒng)的3D占用

、3D

box

、地圖或運(yùn)動(dòng)信息。.最后，這個(gè)“3D數(shù)字孿生世界

”（表示為3D

Features）與車輛自身狀態(tài)特征一起，通過3D

Projector被高效地融合并“翻譯

”給

“大腦

”（

L模塊）

，為其進(jìn)行高質(zhì)量的3D空間推理

、未來場景預(yù)測（基于Flow

Head輸出的高斯流）和規(guī)劃奠定了堅(jiān)實(shí)無比的基礎(chǔ)。理想MindVLA：

(語言)革命：

從“拿來主義

”到“從零預(yù)訓(xùn)練

”“從零開始打造LLM

”（

Crafting

LLM

from

Scratch）

，

并為其“量身定制設(shè)計(jì)以實(shí)現(xiàn)實(shí)時(shí)邊緣推理

”

（

Tailored

Design

for

Real-Time

Edge

Inference

）

。其產(chǎn)物就是MindGPT

。MindVLA（即Mind

GPT）

的核心架構(gòu)

。它專為“實(shí)時(shí)邊緣推理

”（

Real-Time

EdgeInference

）而設(shè)計(jì)，

從Tokenizer（3D高斯特征）

到架構(gòu)（

MoE+稀疏注意力）

再到解碼方式（

Parallel

Decoding）

都是全新的理想MindVLA：

(語言)革命革命點(diǎn)一：

專為3D駕駛而生的“訓(xùn)練

”MindVLA的“大腦

”在學(xué)習(xí)“說話

”之前，

就先學(xué)會(huì)了“看懂空間

”。.3D“詞匯表

”（

Tokenizer

）：

傳統(tǒng)LLM的“詞匯表

”（

Tokenizer

）是“單詞

”（如apple,

car

）

。而Mind

GPT的“詞匯表

”是

“高斯預(yù)訓(xùn)練的3D

Tokenizer

”。這意味著，

它用來“思考

”的基本單元，

直接就

是V模塊（經(jīng)過3D

Projector

處理）

輸出的“3D高斯特征

”。它的“母語

”天生就是3D空間，

而不是2D文本

。.3D“教科書

”（

Training

Task）

：

傳統(tǒng)LLM的訓(xùn)練任務(wù)是“完形填空

”或預(yù)測下一個(gè)單詞（如“今天天氣很

____

”

）

。而Mind

GPT的訓(xùn)練任務(wù)是“未來幀預(yù)測

”（

Frame

Prediction

）和

“GoT（條件輸出）”。采用人類思維模式+

自主切換快思考慢思考，

慢思考輸出精簡的

CoT（采用的固定簡短的

CoT模板）

+輸出action

token；

快思考直接輸出

action

token

。這至關(guān)重要

。它強(qiáng)迫模型不再是“記憶

”，

而是去“理解

”這個(gè)世界的物理因果律

。它必須學(xué)會(huì)：

“如果我（自車）

以這個(gè)速度，

而那輛車（他車）

的3D高斯特征在這樣變化，

那么‘下一幀

’的3D高斯特征

‘應(yīng)該

’是......

”通過這種原生3D輸入和面向物理的訓(xùn)練任務(wù)，

MindVLA的L模塊在預(yù)訓(xùn)練階段（

Pretrained

from

Scratch

with3DTokenizer）

，

就獲得了傳統(tǒng)LLM所不具備的兩大核心能力：

強(qiáng)大的3D空間理解和深刻的時(shí)序推理能力

。理想MindVLA：

(語言)革命革命點(diǎn)二：

專為“車端芯片

”而生的“架構(gòu)

”.MoE

+稀疏注意力（

Sparse

Attention

）：

這是實(shí)現(xiàn)“低算力跑大模型

”的核心

。MindVLA采用了MoE（混合專家）

架構(gòu)

。o如圖

1.4所示，

當(dāng)一個(gè)“3D高斯特征

”被輸入時(shí)，

它首先會(huì)經(jīng)過一個(gè)“路由器

”（Router）

。o路由器會(huì)“智能地

”決定這個(gè)任務(wù)應(yīng)該由哪個(gè)“專家

”（

E1,

...

E8）

來處理

。例如

，一個(gè)“剎車

”相關(guān)的Token可能被路由給“E1剎車專家

”，一個(gè)“變道

”相關(guān)的Token可能被路由給“E3變道專家

”。o這意味著

，在任何一次推理中

，都只有一小部分專家（如2個(gè)）被激活，

而不是整個(gè)龐大的模型

。它用“稀疏激活

”換來了極高的推理效率

。.并行解碼（Parallel

Decoding）

：

這是實(shí)現(xiàn)“實(shí)時(shí)動(dòng)作

”的“殺手锏

”。o傳統(tǒng)的LLM（如ChatGPT）

生成文本是自回歸的（

auto-regressive

），

即一個(gè)字一個(gè)字地“蹦

”出來（

“我-今-天-很-高-興

”）

，這非常慢

。o

MindVLA巧妙地區(qū)分了“思考

”和“行動(dòng)

”。當(dāng)它需要輸出“思維鏈

”（

CoT）

來解釋時(shí)，

它可以慢慢地“蹦

”字

。但當(dāng)它需要輸出動(dòng)作（

ActionTokens

）

時(shí)，

它采用了“并行解碼

”（

Parallel

Decoding

）

。o如圖右側(cè)所示，Action

Token

1（轉(zhuǎn)向）

、ActionToken

2（油門）

、ActionToken

3（剎車）

...

它們是在一個(gè)步驟中被同時(shí)（in

parallel）生成的，

而不是一個(gè)一個(gè)地“蹦

”出來

。這極大地壓縮了生成動(dòng)作的時(shí)間

，是滿足30Hz實(shí)時(shí)響應(yīng)的工程關(guān)鍵

。創(chuàng)造了一個(gè)天生懂3D

、會(huì)推理

、且為車端芯片深度優(yōu)化的“駕駛大腦

”。這個(gè)“大腦

”不再是“快

慢雙核

”中那個(gè)笨拙

、緩慢

、只會(huì)“說教

”的VLM，

而是一個(gè)真正高效

、統(tǒng)一的“決策核心

”。理想MindVLA：

(行動(dòng))革命：

從“軌跡點(diǎn)

”到“Diffusion策略

”優(yōu)勢一：

精細(xì)化與“擬人化

”的動(dòng)作Diffusion模型極其擅長生成連續(xù)

、平滑

、且“風(fēng)格化

”的輸出

。這意味著它生成的駕駛軌跡，

不再是冷冰冰的

、由直線和圓弧構(gòu)成的“機(jī)器軌跡

”，

而是精細(xì)化的

、高度“擬人

”的平滑軌跡

。正如理想的工程師所比喻的，

這就像是經(jīng)典的“旋輪線

”（最速降線）

問題：.傳統(tǒng)的規(guī)劃器可能找到一個(gè)“代數(shù)函數(shù)

”（如一條斜線或拋物線）

，

它能走，

但可能很“顛簸

”。.而Diffusion（擴(kuò)散模型）

則能通過“變分函數(shù)

”找到那個(gè)物理上最優(yōu)的“旋輪線

”解

。.這個(gè)解，

就是那條在安全

、效率和乘坐舒適度（如G值）

之間達(dá)到完美平衡的“黃金軌跡

”。理想MindVLA：

(行動(dòng))革命：

從“軌跡點(diǎn)

”到“Diffusion策略

”優(yōu)勢二：

從“反應(yīng)

”到“博弈

”的集體建模MindVLA的A模塊并不僅僅在規(guī)劃“我

”（自車）

該怎么走

。它在做一個(gè)更高級的事情：

“行為的集體建模

”

（

Collective

Modeling

andAlignment

Behaviors

）

。.輸入端融合了“他者

”信息：

其核心處理模塊（那個(gè)包含Multi-Head

Self-Attention的Transformer結(jié)構(gòu)）接收的不僅僅是代表自車意圖的“VLA

Guidance

”，

還同時(shí)接收了“Multi-Agent

Noise

”。這個(gè)“多智能體噪聲

”可以理解為模型對環(huán)境中其他關(guān)鍵智能體（如旁邊的車輛

、前方的行人）

未來行為不確定性的

一種表示或采樣

。.聯(lián)合建模交互：

模塊內(nèi)部復(fù)雜的Multi-Head

Self-Attention

等結(jié)構(gòu)，

使其能夠聯(lián)合地（

Collectively

）建模自車意圖與其他智能體潛在行為之間的復(fù)雜交互

。它不再是孤立地規(guī)劃自車，

而是在一個(gè)共享的空間中

同時(shí)考慮“我

”和“他

”的未來可能性

。.輸出端預(yù)測“全局

”未來：

最關(guān)鍵的是，

其最終輸出不是一條單獨(dú)的自車軌跡，

而是“Multi

AgentTrajectories

”（多智能體軌跡）

。這意味著，

MindVLA在生成“我

”的最優(yōu)軌跡的同時(shí)，

也在同步預(yù)測和

生成“他

”（如周圍車輛

、行人）

的最可能軌跡

。理想MindVLA：

(行動(dòng))革命：

從“軌跡點(diǎn)

”到“Diffusion策略

”這實(shí)現(xiàn)了從“反應(yīng)式

”到“博弈式

”的進(jìn)化：.簡單的“反應(yīng)式

”系統(tǒng)：

就像一個(gè)新手司機(jī)，只看前車，“他剎車了

，我再剎車

”；“他變道了

，我再減速

”。這種系

統(tǒng)缺乏預(yù)判，容易在復(fù)雜交互中措手不及。.MindVLA的“博弈式

”系統(tǒng)：

它更像一個(gè)經(jīng)驗(yàn)豐富的老司機(jī)

，能夠進(jìn)行預(yù)判和博弈

。通過對“MultiAgentTrajectories

”的聯(lián)合建模，

它可以進(jìn)行類似“我猜測那輛車可能會(huì)向我變道，所以我提前輕微減速并向右打一點(diǎn)方向以為他預(yù)留空間

”

這樣的前瞻性規(guī)劃。如何實(shí)現(xiàn)“實(shí)時(shí)

”？——ODE

SamplerDiffusion（擴(kuò)散模型）雖然強(qiáng)大，但它有一個(gè)眾所周知的致命弱點(diǎn)：慢

。標(biāo)準(zhǔn)的Diffusion需要成百上千步的“去噪

”迭代才能生成一張圖

。而自動(dòng)駕駛的控制循環(huán)必須在30Hz（約33毫秒）

內(nèi)完成。MindVLA的工程優(yōu)化再次登場：

它使用了“基于常微分方程的ODE

Sampler

”（

ODE采樣器）

。這個(gè)采樣器極大地加速了Diffusion的生成過程

。它不再需要“成百上千步

”，而是可以將軌跡的“收斂

”壓縮到“大概2到3步內(nèi)完成

”。這個(gè)工程上的突破，才使得Diffusion這個(gè)“AI

”技術(shù)，終于得以被塞進(jìn)“

自動(dòng)駕駛

”的實(shí)時(shí)控制循環(huán)中。至此，

MindVLA通過V

、L

、A三個(gè)模塊的徹底革命，

已經(jīng)構(gòu)建了一個(gè)能看懂3D世界

、能思考

、能生成完美動(dòng)作的“統(tǒng)一大腦

”。但還有一個(gè)最后的問題：這個(gè)“大腦

”生成的動(dòng)作，如何確保是“安全

”的

、“舒適

”的

、并“符合人類價(jià)值觀

”的？小米/華科ORION：

用“規(guī)劃Token

”彌合“語義鴻溝

”由華中科技大學(xué)和小米聯(lián)合提出的ORION，

則為我們展示了另一條同樣巧妙

、且更側(cè)重于“對齊

”

（

Alignment）

的VLA實(shí)現(xiàn)路徑VLM頑疾——“語義鴻溝

”。即，

如何將VLM的“語義推理空間

”（如“應(yīng)減速

”

）優(yōu)雅地“翻譯

”

給“軌跡行動(dòng)空間

”（如[x,y,z,

...]）

。ORION

是一個(gè)“通過視覺語言指令指導(dǎo)軌跡生成的端到端自動(dòng)駕駛框架

”。它的架構(gòu)設(shè)計(jì)精妙地回

答了MindVLA也必須回答的兩大難題：

“如何處理時(shí)序？”和“如何彌合鴻溝？”O(jiān)RION的VLM（

L模塊）

是整個(gè)系統(tǒng)的“決策中樞

”。與MindVLA從零訓(xùn)練不同，

ORION選擇了一個(gè)強(qiáng)大

的VLM基座，

并賦予了它三大核心職責(zé)：理解用戶指令（如“在下一個(gè)路口左轉(zhuǎn)

”

）

。理解當(dāng)前視覺信息（如“前方有行人

”

）

。理解長時(shí)程的歷史上下文（如“那輛車在10秒前就開始頻繁變道

”

）

。ORION的VLM（

L模塊）

會(huì)結(jié)合這三類信息，

對駕駛場景進(jìn)行多維度的分析

。它不僅會(huì)輸出“場景描述

”或“關(guān)鍵物體行為分析

”，

更重要的是，

它會(huì)進(jìn)行“歷史信息回顧

”和“動(dòng)作推理

”（

ActionReasoning）

。小米/華科ORION：

用“規(guī)劃Token

”彌合“語義鴻溝

”關(guān)鍵模塊1：

QT-Former（時(shí)序處理）ORION

的L模塊（語言核心）

要負(fù)責(zé)的第一件事，

就是理解長時(shí)程的歷史上下文

。VLM通過“疊加多幀圖像

”

來建模時(shí)序，

會(huì)立刻撞上“Token長度限制

”和“

巨大計(jì)算開銷

”

這兩堵墻

。你無法讓VLM記住30秒前發(fā)生的事情，

因?yàn)樗摹吧舷挛拇翱?/p>

”根本裝不下這么多幀的圖像Token

。ORION的第一個(gè)天才創(chuàng)新，

就是引入了QT-Former（

QueryingTransformer-Former）

，

一個(gè)基于查詢的時(shí)間

模塊（

aquery-basedtemporalmodule）

，

專門用來解決這個(gè)“

時(shí)序瓶頸

”。QT-Former本質(zhì)上是一個(gè)高效的“長時(shí)程記憶聚合器

”。它徹底拋棄了“疊加所有幀

”的笨辦法，

而是巧妙地引入了三種類型的可學(xué)習(xí)查詢（learnablequeries）

和“記憶庫

”（

MemoryBank）

。它接收圖像特征（

Image

Features

）和三種查詢（

Perception,Scene,

History

Queries

）作為輸入，

通過自注意力和交叉注意力機(jī)制處理信息，

并利用記憶庫（

Long-termMemory

Bank）

來聚合歷史上下文小米/華科ORION：

用“規(guī)劃Token

”彌合“語義鴻溝

”QT-Former的工作流程1

、輸入與查詢初始化：.QT-Former接收來自Vision

Encoder

的當(dāng)前幀圖像特征（Image

Features）

。.同時(shí)，

它初始化三種可學(xué)習(xí)的查詢向量：o感知查詢（

Perception

Queries

）：用于提取與具體物體檢測

、運(yùn)動(dòng)狀態(tài)和交通信號(hào)相關(guān)的細(xì)粒度信息

。o場景查詢（

Scene

Queries

）

：用于捕捉當(dāng)前場景的整體關(guān)鍵信息

，作為傳遞給下游LLM的“場景令牌

”。o歷史查詢（

History

Queries

）：用于與“記憶庫

”交互

，提取相關(guān)的歷史信息

。2

、當(dāng)前幀信息處理（循環(huán)x6次）

：o查詢間交互:感知查詢和場景查詢首先通過自注意力（

Self-Attention

）機(jī)制相互交換信息

。o特征提取:

然后

，這兩種查詢通過交叉注意力（

Cross-Attention

）機(jī)制與當(dāng)前幀的圖像特征（Image

Features）

進(jìn)行交互，從中提取相關(guān)信息

。這個(gè)過程會(huì)重復(fù)6次（

x6）

以充分提煉特征

。o感知任務(wù)輸出:經(jīng)過處理的感知查詢被送入多個(gè)輔助頭（

Auxiliary

Heads

）

，用于執(zhí)行具體的感知任務(wù)

，如物體檢測

（

Detection

）

、運(yùn)動(dòng)預(yù)測（

Motion

）和交通狀態(tài)（

Traffic

State

）識(shí)別

。o場景令牌生成:經(jīng)過處理的場景查詢則形成了代表當(dāng)前場景關(guān)鍵信息的場景令牌（

Scene

Tokens

）

。小米/華科ORION：

用“規(guī)劃Token

”彌合“語義鴻溝

”3

、歷史信息處理（循環(huán)x1次）

：o記憶檢索

:歷史查詢（

HistoryQueries）首先通過交叉注意力與長期記憶庫（

Long-termMemoryBank）進(jìn)行交互

。記憶庫中存儲(chǔ)了過去n幀（例如n=16）

的歷史查詢結(jié)果

，并通過時(shí)間戳嵌入（

Timestamp

）區(qū)分不同時(shí)刻的信息

。這一步是為了“

回憶

”過去

。o當(dāng)前場景關(guān)聯(lián)

帶著“

回憶

”的歷史查詢

，再次通過交叉注意力與當(dāng)前幀的場景查詢（

SceneQueries）進(jìn)行交互

。這一步是為了

“提取當(dāng)前場景中與歷史最相關(guān)的細(xì)節(jié)

”。o記憶更新

經(jīng)過當(dāng)前場景信息更新后的歷史查詢

，會(huì)被存入記憶庫（遵循FIFO原則

，替換掉最舊的記錄）

，用于下一幀的“

回憶

”。4.

輸出與連接：o最終

，經(jīng)過處理的場景令牌（代表當(dāng)前）

和歷史令牌（代表過去）

會(huì)通過一個(gè)MLP（多層感知機(jī)）

進(jìn)行轉(zhuǎn)換

，然后一起被

送入下游的大語言模型（

LLM，

即L模塊）

。QT-Former的引入

，為VLA帶來了三大核心優(yōu)勢：.1.解決了“

時(shí)序瓶頸

”：

VLM（

L模塊）不再需要處理海量的歷史圖像Token，

它只需要處理QT-Former返回的那個(gè)小巧的“記憶特

征

”。這極大地減少了計(jì)算開銷，并徹底擺脫了“Token長度限制

”。.2.增強(qiáng)了場景理解：

通過高效聚合長時(shí)程信息，QT-Former增強(qiáng)了模型對歷史場景的理解能力

。它能更準(zhǔn)確地捕捉靜態(tài)交通元素（如“我1分鐘前路過的那個(gè)路牌

”）和動(dòng)態(tài)物體（如“那輛車在過去30秒一直在異常加速

”）的運(yùn)動(dòng)狀態(tài)。.3.

融合了歷史與現(xiàn)在：

QT-Former使得模型能夠?qū)ⅰ皻v史信息

”無縫地“整合到當(dāng)前的推理和動(dòng)作空間中

”。L模塊的決策（

“規(guī)劃

Token

”）不再是基于“

當(dāng)前這一幀

”的“應(yīng)激反應(yīng)

”，而是基于“過去1分鐘

”所有信息的“深思熟慮

”。小米/華科ORION：

用“規(guī)劃Token

”彌合“語義鴻溝

”關(guān)鍵模塊2：

VLM

生成模型

(彌合鴻溝)ORION

提出了一種同樣天才的“解耦-對齊

”方案

。ORION的核心創(chuàng)新在于：

它并不強(qiáng)迫VLM（

L模塊）

去直接生成那些它不擅長的

、高精度的軌跡數(shù)值

。1.L模塊（

VLM

）只負(fù)責(zé)“思考

”：VLM（語言核心，

ORION中使用Vicuna

v1.5）在結(jié)合了用戶指令（Instruction）、當(dāng)前視覺信息（來自

QT-Former的場景令牌）

和歷史信息（來自QT-Former的歷史令牌）

后，

會(huì)進(jìn)行復(fù)雜的“動(dòng)作推理

”

（

Action

Reasoning

），

它的最終輸出，

不是一個(gè)軌跡，

而是一個(gè)高度凝練

、抽象的“規(guī)劃Token

”（

PlanningToken）。這個(gè)“規(guī)劃Token

”就是VLM“思考

”的結(jié)晶，

是它對“語義鴻溝

”這邊（推理空間）

的最終答案

。例如，

這個(gè)Token可能就代表了“減速讓行

”或“堅(jiān)決超車

”的語義

。2.A模塊（生成模型）

只負(fù)責(zé)“執(zhí)行

”：ORION引入了一個(gè)專門的A模塊——一個(gè)生成模型（

GenerativeModel）

，

它可以是VAE（變分自編碼器）

或擴(kuò)散模型（

DiffusionModel）。

這個(gè)生成模型（見圖2

.1(d)中的“GenerativePlanner

”

）

的

唯一任務(wù)，

就是接收L模塊傳來的那個(gè)抽象的“規(guī)劃Token

”，

并將其作為“條件

”（

Condition）

，來“生成

”最終的

、高精度的

、多模態(tài)的駕駛軌跡

。小米/華科ORION：

用“規(guī)劃Token

”彌合“語義鴻溝

”關(guān)鍵模塊2：

VLM

生成模型

(彌合鴻溝)這種“VLM（思考）

規(guī)劃Token

->生成模型（執(zhí)行）”的架構(gòu)，

完美地解決了“語義鴻溝

”：.專業(yè)分工：

VLM（

L模塊）

專注于它最擅長的語義理解和邏輯推

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2025大模型及機(jī)器人算法- VLA技術(shù)分解

文檔簡介

溫馨提示

最新文檔

評論

2025大模型及機(jī)器人算法- VLA技術(shù)分解

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔