計算機行業(yè)智聯(lián)汽車系列深度之39:小鵬vla2.0發(fā)布智能駕駛體現(xiàn)更強大的泛化性_第1頁
計算機行業(yè)智聯(lián)汽車系列深度之39:小鵬vla2.0發(fā)布智能駕駛體現(xiàn)更強大的泛化性_第2頁
計算機行業(yè)智聯(lián)汽車系列深度之39:小鵬vla2.0發(fā)布智能駕駛體現(xiàn)更強大的泛化性_第3頁
計算機行業(yè)智聯(lián)汽車系列深度之39:小鵬vla2.0發(fā)布智能駕駛體現(xiàn)更強大的泛化性_第4頁
計算機行業(yè)智聯(lián)汽車系列深度之39:小鵬vla2.0發(fā)布智能駕駛體現(xiàn)更強大的泛化性_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

投資案件結(jié)論和投資分析意見看好以小鵬VLA2.0為代表的算法推進后,智能駕駛泛化能力繼續(xù)提升,并在部分場景中實現(xiàn)類似人類駕駛員的反饋。更重要的是技術(shù)外溢:VLA可能會技術(shù)外溢到其他具身智能領(lǐng)域,例如機器人與低空經(jīng)濟。相關(guān)標的:小鵬汽車(汽車、德賽西威(小鵬的ADAS合作伙伴準科技等。原因與邏輯VLA2.0體現(xiàn)更強大的泛化性,并在部分場景中實現(xiàn)類似人類駕駛員的反饋??梢詫崿F(xiàn)小路NGP,小路相比高速和城區(qū)的輔助駕駛難度更高,根據(jù)小鵬官方數(shù)據(jù),小路NGP行駛20公里的復雜小路,僅需要接管一次;可以讀懂道路參與者的手勢,紅綠燈路口紅燈倒計時將要結(jié)束時先慢慢向前蠕行。VLA1)VLA的繼承關(guān)系。從單一模態(tài)處理(BERT/ViT)→跨模態(tài)對齊(CLIP/BLIP)→多模態(tài)理解生成(DINO/LLaVA)→感知決策執(zhí)行閉環(huán)(RT-2/OpenVLA)。2)由于技術(shù)方案未收斂,因此一二級市場的投資存在分歧:例如HRL(分層強化學習)/MPC(模型預測控制)/VLA/端到端的選擇。第二代VLA發(fā)布,對此類模型在產(chǎn)業(yè)界應用形成強力推動。有別于大眾的認識市場認為VLA主要促進了智能駕駛能力,我們認為對于主機廠而言,VLA會很順暢的應用于具身智能領(lǐng)域,形成技術(shù)外溢。根據(jù)小鵬米良川的表述,VLA在Manipulation上還未展現(xiàn)出質(zhì)變。但在米良川看來,與其去卷進展速度,更應關(guān)注技術(shù)上限。在他看來,第二代VLA的上限是非常高的。發(fā)展過程可能緩慢,但涌現(xiàn)也會像自動駕駛一般突然出現(xiàn)??赏茰y小鵬的機器人和其他產(chǎn)品有可能復用VLA2.0的架構(gòu)。市場認為小鵬VLA主要創(chuàng)新在算法迭代,我們認為本次更新結(jié)合了圖靈芯片技術(shù)迭代。圖靈芯片兩大技術(shù)特點:1)獨立ISP,模擬電路和感知部分增強,十分利于識/雨雪/深夜/ADASISP處理一層,再DSA+NPU加速。2)盡管未披露技術(shù)細節(jié),推測圖靈芯片支持低位寬,特別利于AIThorOrin,支持低位AI(VLA)8797PLLM_VLA,驗證這種技術(shù)趨勢。目錄一、小發(fā)布二代VLA,實現(xiàn)更況優(yōu)化 5二、算:VLA/VLM歷史與展-機人與低空 7三、算:圖片-感知低位寬 10四、標與風險 五、附:目流的其它VLA整理 12圖表目錄圖1:小鵬VLA2.0黑暗路段行駛 5圖2:小鵬VLA2.0通過窄路 5圖3:小鵬VLA2.0通過復雜路口 5圖4:小鵬VLA2.0在城市道路少頓挫、無誤剎 5圖5:小鵬VLA2.0去掉語言轉(zhuǎn)譯環(huán)節(jié) 5圖6:VLA省略語言部分,與DeepSeekOCR的思路,有異曲同工之妙 6圖7:GoogleDeepMind首次提出VLA架構(gòu) 7圖8:長期光明,ADAS+AD->Robo->機器人->低空經(jīng)濟->深??萍嫉募夹g(shù)外溢,VLA可能復用 圖9:GoogleDeepmind大模型發(fā)展歷程 14圖10:GR-2預訓練數(shù)據(jù)集展示 14圖11:GR00TN1架構(gòu) 15圖12:Helix采用雙層架構(gòu) 16圖13:智元啟元大模型框架 17表1:VLA模型的來龍去脈和歷史演進 8表2:機器人規(guī)劃算法的主要小類,現(xiàn)代AI算法的優(yōu)勢。缺點是數(shù)據(jù)量/安全性/解釋性/模型輕量化 表3:小鵬圖靈芯片的架構(gòu)/核心/技術(shù)特點等比較 11表4:智能駕駛行業(yè)重點公司估值表 11表5:不同VLA模型對比 12一、小鵬發(fā)布二代VLA,實現(xiàn)更多路況優(yōu)化本周小鵬科技日上VLA2.0發(fā)布,根據(jù)官方介紹,VLA2.0效率更高、反應更快。做到小路更強悍,大路更舒適,場景更全面,絲滑貫通不同路況。第二代VLA有更廣泛的適應能力,哪里都能開、寬窄都能過、晝夜都好用,可以輕松通過復雜路口,還實現(xiàn)了城市道路的少頓挫、無誤剎、零推背。圖1:小鵬VLA2.0路段駛 圖2:小鵬VLA2.0窄路小鵬官方公眾號、研究 小鵬官方公眾號、研究圖3:小鵬VLA2.0復雜口 圖4:小鵬VLA2.0市道少挫無剎小鵬官方公眾號、研究 小鵬官方公眾號、研究二代VLA最大特點是:砍掉了傳統(tǒng)VLA中間的語言轉(zhuǎn)譯環(huán)節(jié),直接能夠?qū)崿F(xiàn)從視覺到動作。這個思路與DeepSeekOCR有異曲同工之妙。標準VLA普遍需要Vision-Language-Action兩次轉(zhuǎn)換語言作為中間轉(zhuǎn)譯環(huán)節(jié),成為瓶頸,即使數(shù)據(jù)訓練量極大,仍有大量信息損耗。VLA2.0通過去掉語言轉(zhuǎn)譯環(huán)節(jié),實現(xiàn)更大的信息保留,模型雖然仍有文字推理部分,但不會通過CoT推理卡片的形式去呈現(xiàn),而是Token化。圖5:小鵬VLA2.0去掉語言轉(zhuǎn)譯環(huán)節(jié)小鵬官方公眾號、研究VLA2.0的兩個核心:1)讓輸入信號盡量使用真實世界的物理信號(videostream),而非大量的文本;2)輸出空間不再采用文字的離散化表達,而是使用更多的連續(xù)信號來完成相關(guān)任務,從而讓網(wǎng)絡(luò)結(jié)構(gòu)極其簡單。二代VLA在訓練過程中消耗了3萬卡算力,201億訓練數(shù)據(jù)。圖6:VLA省語部,與DeepSeekOCR思路有曲工妙 DeepSeek官網(wǎng)在實測中,VLA2.0體現(xiàn)更強大的泛化性,并在部分場景中實現(xiàn)類似人類駕駛員的反饋。1)VLA2.0NGP,小路相比高速和城區(qū)的輔助駕駛難度更高,根據(jù)小鵬NGP20公里的復雜小路,僅需要接管一次;2)VLA2.0可以讀懂道路參與者的手勢,紅綠燈路口紅燈倒計時將要結(jié)束時先慢慢向前蠕行;3)VLA2.0正式發(fā)布時還會有更多能力涌現(xiàn)。26Q1后VLA2.0將開始推送。25年12月底,VLA2.0會在部分先鋒客戶中體驗;26Q12.0則會在Ultra車型上全量推送,另外Max車型也在著手規(guī)劃。二、算法:VLA/VLM歷史與延展-機器人與低空VLA是當前具身智能領(lǐng)域主流的模型類型。VLA(視覺-語言-動作模型)是一種將視覺輸入、語言推理與動作輸出端到端融合的模型。VLA最早是在2023年7月由GoogleDeepMind首次提出,發(fā)表于論文《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl》。圖7:GoogleDeepMind次出VLA構(gòu) RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControlVLA架構(gòu)具備端到端和泛化等特點,使其在機器人領(lǐng)域具備應用潛力:1)端到端架構(gòu);2)泛化能力:該模型可以在新的物體、背景和環(huán)境中表現(xiàn)出顯著改善的性能;可以理解和響應未知的命令,并行進行推理和決策;3)通用性:VLA建立在通用的大模型訓練基礎(chǔ)之上,理論上所有的智能裝備都可以使用同一套算法,只要經(jīng)過適當微調(diào)就能滿足特定應用場景的需求。當前,VLA在自動駕駛場景中得到廣泛應用:VLA模型從自動駕駛車輛各類傳感器收集的數(shù)據(jù)里,挖掘出豐富的周邊環(huán)境信息;借助強大的語言模型理解人類給出的駕駛指令,并將決策邏輯梳理、展示出來,生成可被理解的決策流程;最終轉(zhuǎn)化成實際的駕駛操作指令,指揮車輛的行駛動作。VLA模型的歷史,有清晰的繼承關(guān)系,近年在加強。VLM到VLA的演進呈現(xiàn)清晰脈絡(luò):從單一模態(tài)處理(BERT/ViT)→跨模態(tài)對齊(CLIP/BLIP)→多模態(tài)理解生成(DINO/LLaVA)→--執(zhí)行閉環(huán)(RT-2/OpenVLA)表1:VLA模型的來龍去脈和歷史演進年份 主體 標題 意義 備注年份 主體 標題 意義 備注20212023年72023年72024年92024年9

OpenAI谷歌李飛飛等驗室,UCBerkeleyMideaGroup,EastChinaUniversity,et

《LearningTransferableVisualModelsFromNaturalLanguageSupervision(從自然語言監(jiān)督中學習可遷移的視覺模型)》《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl(RT-2:視覺-語言-動作模型將網(wǎng)絡(luò)知識遷移至機器人控制)》《VOXPOSER:Language-Conditioned3DValueMapsforRoboticManipulation(VOXPOSER:基于語言條件的三維價值映射)》《OpenVLA:AnOpen-SourceVision-Language-ActionModel(OpenVLA:一個開源的視覺-語言-動作模型)》《TinyVLA:TowardsFast,Data-EfficientVision-Language-ActionModelsforRoboticManipulation(TinyVLA:面向機器人操作的快速、數(shù)據(jù)高效視覺-語言-動作模

模型獲得零樣本遷移能力,在30+視覺任務上媲美全監(jiān)督模型機器人在未見場景成功率從32%提升至62%LLM)VLM)碼705502-x

AlecRadford,JongWookKim,etal.LiFei-Fei(李飛飛),PeteFlorence,KarolHausman,etal2025

al.

型)》 輕量級VLA架構(gòu)《CoT-VLA:VisualChain-of-ThoughtReasoningforVision-年3月 NVIDIA,Stanford,MIT

Language-ActionModels(CoT-VLA:視覺-語言-動作模型的視覺思維鏈推理)》

通過視覺思維鏈增強,使VLA模型能進行多步驟推理神經(jīng)信息處理系統(tǒng)大會(NeurIPS)、計算機視覺與模式識別會議(CVPR)、國際學習表征會議(ICLR)等其它主流VLA算法方案可以見附錄。我們在2025年3月《機器人算法:硬件遇上現(xiàn)代AI算法》指出了VLA算法:規(guī)劃算法較為直觀,因為VLM1模型、VLA2模型,均是近期產(chǎn)品發(fā)布重點,也較為直觀。表2:機器人規(guī)劃算法的主要小類,現(xiàn)代AI算法的優(yōu)勢。缺點是數(shù)據(jù)量/安全性/可解釋性/模型輕量化規(guī)劃算大 小類類傳統(tǒng) 傳統(tǒng) 傳統(tǒng)算法1 算法2 算法3缺點現(xiàn)代1 現(xiàn)代2優(yōu)點(RL+大模型+端到端)P2PPlanning動態(tài)弱RL強化規(guī)劃1VLM,VisionLanguageModels,視覺語言模型2VLA,VisionLanguageActionModels,視覺語言動作模型任務目標劃分

點對點路徑規(guī)劃Completetraversal完全遍歷路徑規(guī)劃DynamicProgramming動態(tài)復雜任務規(guī)劃GlobalPathPlanningDijkstra算法 A算法 D算法螺旋法 隨機覆蓋法 柵格法

多目標耦合弱

DQN+RL HRL+MPC(如波士頓動力)

多任務協(xié)調(diào),動態(tài)環(huán)境信息劃

全局路徑規(guī)劃LocalPathPlanning

可視圖法

Voronoi法

模板模型法

梯度問題,分 局部路規(guī)劃Multi-modalSensorFusionPlanning多模態(tài)感知規(guī)劃Search

人工勢法 動態(tài)窗法 BUG法BFS A算法 ThetaTheta星

局部最優(yōu)單傳感器適應性需靜態(tài)建模,應對動態(tài)/未

(視覺、IMU)用網(wǎng)絡(luò))

整體最優(yōu)點實時避障CNN+Trans-former,算法原理劃

基于搜索Sampling基于采樣

廣度優(yōu)算法 A星算法 算法RRT PRM快速搜隨機樹 概率路圖

知弱隨機采樣收斂效率低

不用顯式建模CNN預測,指導RRT分特殊場景

Bio-Inspired生物啟發(fā)式Semantic-Driven語義驅(qū)動DynamicPlanning動態(tài)環(huán)境規(guī)劃Human-MachineCollaboration人機協(xié)作規(guī)劃

ACO GA,Genetic蟻群算法 遺傳算法增量式搜索LPA DLite LPA

泛化性差高層理解弱響應延遲安全性

RL強化學習(如宇樹的PPO+Sim2Real)VLA(如FigureHelixAD等OnlineRL+(如云深處)人機協(xié)同勢場+安全強化(APF+SafeRL)

用自適應和摔倒恢復人類意圖協(xié)同,安全注:HRL是分層強化胡廣書等《數(shù)字信號處理——理論、算法與實現(xiàn)》,JohnGProakis等《數(shù)字信號處理-原理,算法與應用》,NormanNise等《ControlSystemsEngineering》,Spong《RobotModelingandControl》,Murry《AMathematicalIntroductiontoRoboticManipulation》對于決定整體智能的規(guī)劃算法,有多種技術(shù)架構(gòu)。由于技術(shù)方案未收斂,因此一二級市場的投資存在分歧:HRL(分層強化學習);MPC(模型預測控制);VLA(視覺-語言-行動);2025VLA(視覺-語言-行動)Helix。端到端;小鵬第二代VLA發(fā)布,對此類模型在產(chǎn)業(yè)界應用形成強力推動。更加重要的是:VLA可能會技術(shù)外溢到其他具身智能領(lǐng)域,例如機器人與低空經(jīng)濟。根據(jù)小鵬米良川的表述3VLA在Manipulation上還未展現(xiàn)出質(zhì)變。但在米良川看來,與其去卷進展速度,更應關(guān)注技術(shù)上限。在他看來,第二代VLA的上限是非常高的。發(fā)展過程可能緩慢,但涌現(xiàn)也會像自動駕駛一般突然出現(xiàn)??梢酝茰y小鵬的機器人和其他產(chǎn)品有可能復用VLA2.0的架構(gòu)。偏模組視覺攝像頭視覺傳感器傳感器視覺RoboTaxi+RoboVan國外復用占用網(wǎng)絡(luò),國內(nèi)復用多攝傳感器復用車,尤其Lidar例如BEV+OCC+Transformer視覺工業(yè)+服務機器人視覺無人機視角AI視覺水下視覺傳感器飛行汽車安全系統(tǒng)和飛行控制等方面應用了多種傳感器,如激光雷達、攝像頭等芯片基帶+處理器例如2d度傳感器例如特斯拉optimus傳感器例如小鵬匯天偏模組視覺攝像頭視覺傳感器傳感器視覺RoboTaxi+RoboVan國外復用占用網(wǎng)絡(luò),國內(nèi)復用多攝傳感器復用車,尤其Lidar例如BEV+OCC+Transformer視覺工業(yè)+服務機器人視覺無人機視角AI視覺水下視覺傳感器飛行汽車安全系統(tǒng)和飛行控制等方面應用了多種傳感器,如激光雷達、攝像頭等芯片基帶+處理器例如2d度傳感器例如特斯拉optimus傳感器例如小鵬匯天芯片傳感器聲吶、DSP芯片水下動力學電機芯片復用NV+國產(chǎn)車芯片+國產(chǎn)GPU電機復用電動車地圖L4需要高精地圖保鮮芯片例如AI芯片例如小鵬人形機器人電機例如宇樹關(guān)節(jié)電機例如驅(qū)動電機,可應用于智能汽車的電動尾門、電動座椅調(diào)節(jié)先進飛行汽車控制系統(tǒng)采用類似汽車AD高性能計算芯片,實時控制飛行姿態(tài)、導航、避障芯片空氣動力學電機eVOLT電機例如,250kw及以下航空電機及驅(qū)動系統(tǒng)規(guī)?;慨a(chǎn)技術(shù)借鑒AD與機器人控制系統(tǒng)控制系統(tǒng)復用控制系統(tǒng)例如廣汽gomate復用AD/機器人運控例如自研純視覺自動駕駛算法控制系統(tǒng)飛行姿態(tài)、速度、高度等的精確控制電源管理手機級能源系統(tǒng)能源系統(tǒng)復用電動車例如凝聚態(tài)電池用于汽車能源系統(tǒng)例如寧德時代凝聚態(tài)電池例如航空級別的安全和質(zhì)量能源系統(tǒng)例如 寧德時代凝聚偏系統(tǒng)航態(tài)電池空級標準和測試智能手機技術(shù)外溢即產(chǎn)業(yè)復用差3-5年技術(shù)外溢即產(chǎn)業(yè)復用材料輕薄、韌性、符合光學、部分符合仿生智能車與電動車差2年即產(chǎn)業(yè)復用智能車與機器人差3年機器人再技術(shù)外溢即產(chǎn)業(yè)復用機器人與低空差3-5低空材料高性能材料低空經(jīng)濟深海研究三、算力:圖靈芯片-感知與低位寬根據(jù)小鵬官方和發(fā)布新聞,可以發(fā)現(xiàn)上述VLA2.0是基于圖靈芯片。特點如下:DSAGPU;40ARM+NPU+ISP;VLA30010-50億參數(shù)模型;此外,我們要特別指出兩大技術(shù)特點:獨立ISP/雨雪/深夜/而感知前融合往往是高階ADAS的基礎(chǔ)。先用ISPDSA+NPU加速。5)盡管未披露技術(shù)細節(jié),推測圖靈芯片支持低位寬,特別利于AI推理和自動駕駛。這樣功耗低、延遲少。Thor比起Orin,支持低位寬和AI算法(VLA)更充分,而高通8797P也支持LLM_VLA,驗證這種技術(shù)趨勢。3RoboX,小鵬汽車AI大牛詳解:第二代VLA與機器人的「涌現(xiàn)」背后,年月日因此小鵬的VLA2.0離不開自研圖靈芯片的支持。而圖靈芯片諸多亮點外,我們要額外指出感知層的加強、AI推理(低位寬數(shù)據(jù)精度)的支持,這應當與最新的技術(shù)趨勢一致。芯片型號小鵬圖靈芯片型號小鵬圖靈OrinThor 8797P架構(gòu)DSAAmpere架構(gòu)Blackwell架構(gòu) 第三代Oryon架構(gòu),支持異構(gòu)12×大核+6×12×大核+6×小核14核ARMNeoverse-V3AECPU12核ARMCortex-A78AECPU40推測為ARMCortex-A78AE版核心數(shù)其他核心

雙自研NPU(神經(jīng)網(wǎng)絡(luò)處理器)+雙獨立ISP

2048個CUDA核心,64個TensorCore+第二代DLA+PVA

2560CUDA個第五代TensorCore

Adreno7系列GPU,4個HTP張量計算器(NPU)8HVX制程工藝 預計制程工藝 預計7nm 預計7nm 預計臺積電N4P 預計臺積電N4P模型支持

300億(如GPT-4級別)重點優(yōu)化VLM

Transformer+YOLO, Transformer+VLA LLM+VLA主要10億參數(shù)支持 支持 INT8、INT4、FP4/FP8/FP16/FP32/INT8 FP16、BF16等 等,優(yōu)化稀疏INT8/INT4格式支持FP32(5.3TFLOPS)、INT8(170TOPS稀疏算力)和INT4(軟件量化)運算倍)/或支持INT4/FP16/FP32/混合精度等數(shù)據(jù)類型支持INT8(Orin-X3技術(shù)特點

DSA+雙NPU+車規(guī)矩可靠+內(nèi)存與帶寬優(yōu)化

功能安全+異構(gòu)計算+通信與接口+

多域融合+C2C互連+內(nèi)存與接口優(yōu)化

艙駕一體融合+安全冗余+通信與接口+能效優(yōu)化小鵬官網(wǎng),英偉達官網(wǎng),高通官網(wǎng),新智元,高工智能汽車四、標的與風險相關(guān)標的:小鵬汽車(汽車)、德賽西威(小鵬的ADAS合作伙伴)、極智嘉、天準科技等。股票代碼股票簡稱2025/11/10凈利潤(億元)股票代碼股票簡稱2025/11/10凈利潤(億元)PE總市值(億元)2024A2025E2026E2027E2024A2025E2026E2027E9868.HK小鵬汽車-W1,601-57.9-14.926.568.3--6123002920.SZ德賽西威70220.026.433.241.5352721172590.HK極智嘉-W305-8.31.23.76.9-2618244688003.SH天準科技1031.21.52.22.783674638;注:盈利預測取 一預期,港股公司貨幣均選CNY風險來自以下方面:該領(lǐng)域其他技術(shù)選擇依然存在,例如端到端、快慢雙系統(tǒng)。我們預計同行公司后續(xù)會推出下一代發(fā)布。且新發(fā)布可能同時汲取小鵬的技術(shù)趨勢與自身原有特色。相關(guān)公司往往處于收入高增、研發(fā)與銷售投入階段,因此估值倍數(shù)不穩(wěn)定。產(chǎn)業(yè)鏈穩(wěn)定性的潛在風險。五、附錄:目前主流的其它VLA算法整理VLA模型存在多種技術(shù)路徑和架構(gòu),衍生出來不同的方法,各具優(yōu)勢。我們參考文章《具身智能中VLA主流方案全解析:技術(shù)總結(jié)與未來展望》進行梳理分析:基于經(jīng)典Transformer結(jié)構(gòu)的方案,利用Transformer的序列建模能力,將強化學習軌跡建模為狀態(tài)-動作-獎勵序列,提升復雜環(huán)境下的決策能力;基于預訓練LLM/VLM的方案,將VLA任務視為序列生成問題,借助預訓練模型處理多模態(tài)信息并生成動作,增強泛化性和指令理解能力;DiffusionPolicy、RDT-1B通過去噪擴散概率模型生成動作,適用于高維動作空間和復雜動作分布;LLM+LLM的多模態(tài)表征壓縮與擴散模型的動作生成能力,提高復雜任務中的性能;視頻生成+逆運動學方案,先生成運動視頻再通過逆運動學推導動作,提升可解釋性和準確性;顯示端到端方案,直接將視覺語言信息映射到動作空間,減少信息損失;隱式端到端方案,利用視頻擴散模型預測未來狀態(tài)并生成動作,注重知識遷移;分層端到端方案,結(jié)合高層任務規(guī)劃與低層控制,提升長時域任務的執(zhí)行效率。表5:不同VLA模型對比方案類型 典型方法 核心思想 優(yōu)勢 應用場景方案類型 典型方法 核心思想 優(yōu)勢 應用場景經(jīng)典Transformer結(jié)構(gòu)

ALOHA(ACT)、RT-1、HPT

將強化學習軌跡建模為狀態(tài)-動作-獎勵序列,利用Transformer的序列建模能力

提升復雜環(huán)境下的決策能力,支持長序列依賴建模

復雜機器人控決策預訓練 RT-2、LLM/VLMDiffusion

將VLA任務視為序列生成問題,借助預訓練模型處理多模態(tài)信息并生成動作通過去噪擴散概率模型生成動

增強泛化性、指令理解能力,支持零樣本/少樣本學習適合連續(xù)高維動作生成,樣本效

多模態(tài)指令遵機械臂運動控擴散模型

Policy、RDT-1B

作,適配高維動作空間和復雜分 率高布

制、靈巧手操作LLM+擴散模型

Octomπ LLM散模型的動作生成能力

融合語言理解與精細動作生成,提升復雜任務性能

人機協(xié)作、多步驟指令執(zhí)行視頻生成+逆運動學

UniPiRo、BoDreamer

先生成運動視頻,再通過逆運動學推導動作

增強可解釋性,提升動作準確性 人形機器人運動規(guī)劃、舞蹈生成顯式端到端 直接映射方案 將視覺語言信息直接映射到動空間,減少中間處理步驟

低延遲、高響應速度,適合實時控制

無人機導航、移動機器人避障隱式端到端 SWIM 利用視頻擴散模型預測未來狀并生成動作,注重知識遷移

支持無監(jiān)督學習,適應未知環(huán)境 未知場景探索、跨任務泛化分層端到端 高層規(guī)劃+低層控制具身智能之心公眾號

結(jié)合高層任務規(guī)劃與低層控制,優(yōu)化長時域任務執(zhí)行效率VLA架構(gòu)仍然處于科學研究階段,學術(shù)界和產(chǎn)業(yè)界研究在不斷提升模型效果,做出持續(xù)努力,下面是具身智能領(lǐng)域知名的論文和產(chǎn)業(yè)成果:GoogleDeepmind系列:RT1、RT2、RT-X模型1)谷歌RT-1:基于經(jīng)典Transformer結(jié)構(gòu)方案2022年,谷歌推出RT-1,它能從機器人的相機中獲取圖像歷史記錄同時將以自然語言表達的任務描述作為輸入,通過預訓練的FiLMEfficientNet模型將它們編碼為token,然后通過TokenLearner將大量標記映射到數(shù)量更少的標記中,實現(xiàn)標記壓縮,最后經(jīng)Transformer輸出動作標記。其可以成功吸收來模擬環(huán)境和其他機器人的異構(gòu)數(shù)據(jù),不僅不犧牲在原始任務上性能,還提高了對新場景的泛化能力。RT-2LLM/VLM方案2023年7月,谷歌推出全球首個控制機器人的VLA模型RT-2,在視覺-語言模型(VLM)的基礎(chǔ)上提出了視覺語言動作(VLA)模型,并在預訓練的基礎(chǔ)上進行聯(lián)合微調(diào)得到實例化的RT-2-PaLM-E和RT-2-PaLI-X。它可以從網(wǎng)絡(luò)和機器人數(shù)據(jù)中學習,并將這些知識轉(zhuǎn)化為機器人控制的通用指令。PaLM-EPaLI-X是兩個已接受網(wǎng)絡(luò)規(guī)模數(shù)據(jù)訓練的視覺語言模型(VLM),相當于賦予機器人規(guī)模足夠大的數(shù)據(jù)庫,使其具備識別物體和了解物體相關(guān)信息的能力。RT-2具備較強的泛化能力:通過將視覺語言模型與機器人操作能力結(jié)合,將網(wǎng)絡(luò)規(guī)模預訓練的VLM在語義和視覺上的泛化、語義理解和推理等能力有效轉(zhuǎn)移;此外,RT-2還具備三個涌現(xiàn)能力:1)推理:RT-2的核心優(yōu)勢,要求機器人掌握數(shù)學、視覺推理和多語言理解三大技能;2)符號理解:能將大模型預訓練的知識,直接延展到機器人此前沒見過的數(shù)據(jù)上;3)人類識別:能夠準確識別人類。RT-XRT-1RT-2模型,引入開源大型數(shù)據(jù)集訓練202310月,谷歌推出在大規(guī)模、多樣化的機器人學習數(shù)據(jù)集OpenX-Embodiment上訓練得到的RT-X模型。其數(shù)據(jù)集由全球21家機構(gòu)合作,涵蓋了22種不同機器人類型100萬個片段,展示了500150000項任務上的表現(xiàn)。RT-X模型采用了基于Transformer的架構(gòu)和算法,結(jié)合了RT-1和RT-2兩個模型,其泛化、涌現(xiàn)能力得到了大幅提高。圖9:GoogleDeepmind模發(fā)歷程 谷歌官網(wǎng)字節(jié)跳動GR-2:視頻生成+逆動力學方案字節(jié)跳動ByteDanceResearch團隊著手于機器人模仿學習人類成長過程,將多模態(tài)素材的學習與預測直接集成到機器人控制中,以促進泛化并實現(xiàn)高效動作預測和視頻生成。2024年10月,ByteDanceResearch發(fā)布第二代機器人大模型GR-2。GR-2的訓練包括預訓練和微調(diào)兩個過程。1)預訓練階段:GR-2在3800萬個互聯(lián)網(wǎng)視頻片段上進行生成式訓練。這些視頻來自學術(shù)公開數(shù)據(jù)集,涵蓋了人類在不同場景下(家庭、戶外、辦公室等)的各種日?;顒?,使其迅速學會人類日常生活中的各種動態(tài)和行為模式。2)微調(diào)階段:GR-2通過幾項關(guān)鍵改進提升了其在實際任務中的表現(xiàn)。首先,GR-2引入數(shù)據(jù)增強技術(shù),通過改變訓練數(shù)據(jù)中的背景和物體,使其在未見環(huán)境下更具泛化能力;其次,模型通過多視角訓練,利用不同角度的視覺數(shù)據(jù),增強了其在復雜場景中的操作靈活性和準確性;此外,GR-2使用了條件變分自編碼器(cVAE),生成連續(xù)、平滑的動作序列,確保任務執(zhí)行時的動作更加高效和精準。在經(jīng)歷大規(guī)模預訓練后,通過在機器人軌跡數(shù)據(jù)上進行微調(diào),GR-2能夠預測動作軌跡并生成視頻。經(jīng)過多次大模型預訓練與微調(diào)后,研究團隊發(fā)現(xiàn)GR-2的視頻生成與動作預測模型符ScalingLaw。隨著模型規(guī)模的增加,GR-27億參數(shù)規(guī)模的驗證中發(fā)現(xiàn),更大的模型不僅能夠處理更多復雜的任務,而且在泛化到未見過的任務和場景時也表現(xiàn)得更加優(yōu)異。在多任務學習測試中,GR-2能夠完成105項不同的桌面任97.7%。圖10:GR-2預練集展示 Chi-LamCheang《GR-2:AGenerativeVideo-Language-ActionModelwithWeb-ScaleKnowledgeforRobotManipulationGR2-預訓練數(shù)據(jù)集。研究團隊展示了樣本視頻和我們策劃的預訓練數(shù)據(jù)集的動詞分布。底部圖的y軸是頂部單詞的對數(shù)頻率。GR00TN1:雙系統(tǒng)架構(gòu),基于擴散模型和Transformer架構(gòu)2025年3月19日,英偉達GTC發(fā)布會推出通用人形機器人基礎(chǔ)模型GROOTN1(IsaacGroot),該模型模仿人類大腦的思考模型,采用雙系統(tǒng)架構(gòu),融合兩種計算范式:系統(tǒng)2(視覺-語言模塊):基于NVIDIA的Eagle-2VLM模型,由SmoILM2語言SigLIP-2圖像編碼器組成,能將圖像和文本編碼為統(tǒng)一表示??梢酝评碇車h(huán)境和指令含義,進行行動規(guī)劃,類似人類大腦深思熟慮的決策過程。系統(tǒng)1-擴散變換器模塊:基于DiffusionTransformer(DiT),負責將系統(tǒng)2規(guī)劃的動作轉(zhuǎn)化為精確、連續(xù)的機器人動作,如同人類的本能反應,可快速執(zhí)行任務。圖11:GR00TN1架構(gòu) 英偉達全棧工具鏈如何重構(gòu)Groot機器人開發(fā)鏈路FigureAI的Helix:雙層架構(gòu)2025220日,F(xiàn)igureAI發(fā)布VLA模型Helix。Helix的特點為:1)全上身控制,包括手腕、軀干、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論