2025年第七屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇:Intern Robotics「書生」具身全棧引擎及其關(guān)鍵技術(shù)_第1頁
2025年第七屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇:Intern Robotics「書生」具身全棧引擎及其關(guān)鍵技術(shù)_第2頁
2025年第七屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇:Intern Robotics「書生」具身全棧引擎及其關(guān)鍵技術(shù)_第3頁
2025年第七屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇:Intern Robotics「書生」具身全棧引擎及其關(guān)鍵技術(shù)_第4頁
2025年第七屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇:Intern Robotics「書生」具身全棧引擎及其關(guān)鍵技術(shù)_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Page『書生』

具身全棧引擎及其關(guān)鍵技術(shù)上海人工智能實驗室龐江淼2025/08>>>

X?2020

年LearningAgile

Robotic

Locomotion

Skills

by

ImitatingAnimalsRSS2020

Best

Paper使用宇樹科技機器人

Laikago2021

年IsaacGym:

High

Performance

GPU-Based

PhysicsSimulationfor

Robot

LearningGPU訓(xùn)練機器人控制策略,效率提升2-3個數(shù)量級2019

年Learning

agileofdynamic

motorskillsfor

legged

robotsScience

Robotics首次強化學(xué)習(xí)Sim2Real

控制機器人機器人學(xué)習(xí)的發(fā)展2022

年●Shanghai

ArtificialIntelligenceLaboratoryPage

2機器人學(xué)習(xí)的發(fā)展機器人具身智能具備了成熟的基本條件:

CV,

NLP,etc…?LLM

-

>

Human-Robot

Interaction?

CV/NLP

-

>

Multi-modal

Perception?RL

-

>Generalizable

Control?

標準化的機器人:

Unitree/Franka/etc

…?

仿真平臺:

Nvidia

Omniverse/Isaac

Sim?

端側(cè)計算:

Nvidia

AGX

OrinShanghai

ArtificialIntelligenceLaboratoryPage

3推理、想象基于已有信息進行內(nèi)部模擬與邏輯推斷,為后續(xù)決策生成提供支持。移動、操作自主規(guī)劃運動路徑并執(zhí)行精細操作,

實現(xiàn)與環(huán)境的物理交互。關(guān)鍵難題本體泛化任務(wù)泛化場景泛化具身智能需要什么能力?感知、認知實時獲取并理解環(huán)境中的多模態(tài)信息

,構(gòu)建對周圍世界的準確表征。具身智能所需三大核心能力Shanghai

ArtificialIntelligenceLaboratoryPage

4數(shù)據(jù)合成數(shù)據(jù):有助于本體泛化和場景泛化模型雙系統(tǒng)式VLA:大小腦協(xié)同評測真實評測:虛實一致但不可重復(fù)關(guān)鍵科學(xué)/技術(shù)問題仿真評測:可重復(fù)但虛實難以一致真實數(shù)據(jù):有助于任務(wù)泛化Shanghai

ArtificialIntelligenceLaboratory“A”式VLAPage

5一些過去的進展Shanghai

ArtificialIntelligenceLaboratoryPage

6Intern

Robotics『書生』具身全棧引擎厲真引擎打造高質(zhì)量低成本的數(shù)據(jù)工廠

提供模塊化可擴展的訓(xùn)練場Intern

top

ia構(gòu)建虛實交融的工作空間一行代碼實現(xiàn)跨本體部署三行代碼定義任意任務(wù)五分鐘上手實現(xiàn)機器人運動控制易用:一鍵啟動訓(xùn)測先進:多任務(wù)模型性能業(yè)界領(lǐng)先全面:六大任務(wù)、20+數(shù)據(jù)集、

50+模型標準化:任務(wù)定義、采集標注規(guī)范統(tǒng)一智能化:AIGC驅(qū)動多樣、高效自動采集規(guī)?;?/p>

50000+條/臺天,僅真機成本0.06%具身數(shù)據(jù)集M1

N1交互

導(dǎo)航InternRobotics具身工具鏈Intzrn

Man

ipIntern

NauInt

cr

nHu

mna

noid具身AIGCIntern

Land

M?rkInter

nIce

nes數(shù)據(jù)引擎虛實貫通訓(xùn)測引擎一體協(xié)同具身作業(yè)場景啟動“光合計劃“機器人實訓(xùn)場賦能國地中心Inter

nwLA開發(fā)者社區(qū)具身大模型交互

導(dǎo)航H1A1A1H1M1N1操作操作人形人形通用模塊化防真框架?

三行代碼

輕松定義任意具身任務(wù)高精場景自動生成斑十萬級場景資產(chǎn)百萬級啊體資離

,"一鍵生成復(fù)深場景數(shù)據(jù)的高效采集提供多種遙操作工具

,單機單日采集50000系高質(zhì)量數(shù)據(jù)一鍵完成分布式部署虛實手致的防真評測導(dǎo)鍵評測導(dǎo)航和屎作通用具身訪真平臺Internutopia高效低成本

采集與建模效率較傳統(tǒng)方法提升數(shù)倍

s具備更強魯棒腔與適應(yīng)性高精度亞阿+

照片級這染

,

實現(xiàn)精準建模與高保真視覺效果的全場景通用性

支持室內(nèi)

、室班、高空、

地面等多類場景數(shù)據(jù)引擎InternLandvlark高效無限空成

秒級生成速度

滿足海量數(shù)據(jù)需求類別率富

結(jié)袖多祥

覆蓋22個類別、

6種運動關(guān)節(jié)

s

支持交互模擬高質(zhì)量模型

s

超越行業(yè)基準數(shù)據(jù)引擎Intern

scenes目標導(dǎo)向視覺規(guī)劃

s

感知與決策協(xié)同

實現(xiàn)智能行動路徑視劃4D動態(tài)重建

s

實時建模動態(tài)環(huán)境時空變化動作系陣視頻預(yù)測

支持零祥棗泛化基于動作意圖預(yù)測汞來感知

,

遷移能打強數(shù)據(jù)引擎

Internvorldiviodel純仿真數(shù)據(jù)訓(xùn)練的首個雙系統(tǒng)導(dǎo)航天模型融合國際領(lǐng)究的超長程指令跟隨和密集動態(tài)障礙物避障能力跨棗體跨場景零祥率泛化具身大模型InternvLA-N1統(tǒng)一的Transformer架構(gòu)

集玩景理解、任旁想象與精準我行能力于一體視覺預(yù)測指導(dǎo)動作我行

s

賦能穩(wěn)定的動態(tài)交互虛實數(shù)據(jù)混合訓(xùn)練

提升極端場景的泛化能方具身大模型InternvLA-A1百萬量級三維動作訓(xùn)練數(shù)據(jù)實現(xiàn)豆本零群率泛化原生多模態(tài)自回歸動作生成大模型

有效稍展至7B可服旁于系腦多形全身運動控制策暗具身大模型Intern

Humanoid-多模態(tài)動作生成大模型統(tǒng)一機?人運動學(xué)語義抽象

,提高跨棗俸泛化能打通用全身運動控制策暗

s

零樣本泛化不同參考動作模讀化和可遷移的

sim2Real部署平臺

輕量化跨棗庫運控算法部署和評估具身大模型Intern

Humanoid-一腦多形全身運動控制評價-動作一體化通用模型支持開放任務(wù)的進度判定開戒任務(wù)的天視模真實世界強化學(xué)習(xí)框架

支持自主進化和人機協(xié)同進化具身大模型InternvLA-RL-真實世界強化學(xué)習(xí)運動智能|傳統(tǒng)控制如何與強化學(xué)習(xí)交叉融合關(guān)節(jié)數(shù)量:

12State

Space:-期望速度-關(guān)節(jié)信息:位置、轉(zhuǎn)速-

IMU:角速度、重力方向-其他傳感信息:深度圖等-之前幾幀的ActionsActionSpace:-關(guān)節(jié)位置

運動智能:混合內(nèi)??刂疲℉ybrid

Internal

Model

)關(guān)鍵:準確的環(huán)境狀態(tài)估計Shanghai

ArtificialIntelligenceLaboratoryPage

19

運動智能:混合內(nèi)??刂疲℉ybrid

Internal

Model

)JunfengLong,ZiruiWang,etal.

“Hybrid

Internal

Model:ASimpleand

Efficient

Learner

for

Agile

Legged

Locomotion."

ICLR

2024.Shanghai

ArtificialIntelligenceLaboratoryPage

20

運動智能:混合內(nèi)??刂疲℉ybrid

Internal

Model

)TheClassical

Internal

ModelControlHybird

=Velocity

+StabilityPage

22JunfengLong,ZiruiWang,etal.

“Hybrid

Internal

Model:LearningAgile

Legged

Locomotion

with

Simulated

Robot

Response."

ICLR

2024.

Key

Insight:External

States

-

>System

DisturbancesSystem

Disturbances

-

>

Robot

Responses通過對機器人未來狀態(tài)的估計替代對外界環(huán)境擾動的估計Shanghai

ArtificialIntelligenceLaboratoryPage

23JunfengLong,WenyeYu,etal.“Learning

H-Infinity

Locomotion

Control."

In

Submission.

運動智能:魯棒控制H

-

Infinity

ControlShanghai

ArtificialIntelligenceLaboratoryPage

24JunfengLong,WenyeYu,etal.“Learning

H-Infinity

Locomotion

Control."

In

Submission.

運動智能:魯棒控制H

-

Infinity

ControlAdaptiveDisturbancesAdversarialbetweenthe

Robotandthe

EnvironmentOptimizewith

H-InfinityConstraintUniformlySampled

DisturbancesShanghai

ArtificialIntelligenceLaboratory強化學(xué)習(xí)?傳統(tǒng)控制?Motion

Priors?大規(guī)模數(shù)據(jù)?PIM復(fù)雜地形可泛化行走BeamDojo走梅花樁VC-ComHugWBC多步態(tài)全身控制方法HoST可泛化自主起立方法(RSS2025最佳系統(tǒng)論文提名)HIM傳統(tǒng)內(nèi)??刂迫诤蠌娀瘜W(xué)習(xí)框架仿真訓(xùn)練一小時高效可泛化

運動智能:從基礎(chǔ)行走到移動操作基礎(chǔ)行走

感知融合全身控制HOMIE人形機器人駕駛艙處理動態(tài)場景移動操作Shanghai

ArtificialIntelligenceLaboratoryPage

26感知融合運動控制的關(guān)鍵難點:難點1:感知信息很難完全精準,會不可避免的給控制系統(tǒng)帶來擾動難點2:感知信息Sim-to-RealGap大,會增大虛實遷移的困難程度難點3:需要渲染感知圖像,會影響控制策略在仿真中的學(xué)習(xí)效率JunfengLong*,

JunliRen*,MojiShi*,Zirui

Wang,

TaoHuang,

PingLuo,

Jiangmiao

Pang,

“Learning

Humanoid

Locomotion

with

PerceptionInternal

Model”,

ICRA

2025.

運動智能:感知融合驅(qū)動復(fù)雜地形可泛化運動控制關(guān)鍵問題:人形機器人本身結(jié)構(gòu)“不穩(wěn)定”,復(fù)雜地形可泛化運動控制必須融合感知信息Shanghai

ArtificialIntelligenceLaboratoryPage

27

運動智能:感知融合驅(qū)動復(fù)雜地形可泛化運動控制解決思路:仿真訓(xùn)練直接使用障礙地形的絕對高度進行策略學(xué)習(xí)真機推理采用使用onboard,continuously

updatedelevation

mapscentered

aroundthe

robot

進行感知方法優(yōu)勢1:

HIM范式,

Batch-levelContrastive

Learning,高效訓(xùn)練方法優(yōu)勢2:訓(xùn)練無需encode/render

RGBD信息/原始點云,僅需

RTX4090上3小時訓(xùn)練時間方法優(yōu)勢3:持續(xù)對機器人周圍全局信息的感知,能夠抵抗傳感器的移動/噪聲系統(tǒng)優(yōu)勢:【多種人形機器人】【室內(nèi)外地形】【上下臺階、跳

50cm高臺、跳Gap】

的策略Page

28JunfengLong*,

JunliRen*,MojiShi*,Zirui

Wang,

TaoHuang,

PingLuo,

Jiangmiao

Pang,

“Learning

Humanoid

Locomotion

with

PerceptionInternal

Model”,

ICRA

2025.Shanghai

ArtificialIntelligenceLaboratoryPage

29JunfengLong*,

JunliRen*,MojiShi*,Zirui

Wang,

TaoHuang,

PingLuo,

Jiangmiao

Pang,

“Learning

Humanoid

Locomotion

with

PerceptionInternal

Model”,

ICRA

2025.LaboratoryShanghaiPage

30ShanghaiLaboratoryLaboratoryShanghai操作智能|“Real2Sim2Real”世界建模如何助益具身操作RoboSplat:生成式世界建模賦能的數(shù)據(jù)擴增借助3DGS

,

RoboSplat實現(xiàn)了高保真的操作場景重建。通過可微分渲染技術(shù),

3DGS將重建后的場景與真實世界的尺寸和坐標系精準對齊,并結(jié)合分割模型提取機械臂和物體,構(gòu)建結(jié)構(gòu)化表示。得益于3DGS的可編輯性與可渲染性,RoboSplat可以完成場景的編輯,以完成訓(xùn)練數(shù)據(jù)的高效增廣。Page

34“NovelDemonstration

Generationwith

Gaussian

SplattingEnablesRobustOne-ShotManipulation”

.

In

RSS2025.Shanghai

ArtificialIntelligenceLaboratoryRoboSplat:生成式世界建模賦能的數(shù)據(jù)擴增系統(tǒng)優(yōu)勢:AIGC數(shù)據(jù)擴增,賦能可泛化具身操作通過編輯3DGS所生成的800條示教數(shù)據(jù)

與200條真機采集的示教數(shù)據(jù)效果相當(dāng),且生成更多的數(shù)據(jù),能夠?qū)崿F(xiàn)更高的性能。借助基于3DGS的樣本增廣,可實現(xiàn)位置、物體類別、相機視角、背景、光線條件、本體6種泛化。Page

36“NovelDemonstration

Generationwith

Gaussian

SplattingEnablesRobustOne-ShotManipulation”

.

In

RSS2025.Shanghai

ArtificialIntelligenceLaboratory仿真合成數(shù)據(jù)真機數(shù)據(jù)動作專家模型互聯(lián)網(wǎng)圖文數(shù)據(jù)多模態(tài)大模型視頻預(yù)測模型

操作智能:

InternV

LA

-A1互聯(lián)網(wǎng)視頻數(shù)據(jù)

數(shù)據(jù)金字塔算法金字塔Shanghai

ArtificialIntelligenceLaboratoryPage

37Intern

V

LA

-A1

模型結(jié)構(gòu)理解、想象、執(zhí)行

體化預(yù)訓(xùn)練的視覺-語言模型

(如InternVL、QwenVL)場景理解模塊以圖像和文本為輸入,用于解析任務(wù)指令并理解任務(wù)場景場景理解模塊文本編碼器圖像理解編碼器Shanghai

ArtificialIntelligenceLaboratory“幫我倒一杯水”Page

38基于場景理解的解析結(jié)果,任務(wù)想象模塊通過預(yù)測未來圖像的形式,想象執(zhí)行任務(wù)的未來演變Intern

V

LA

-A1

模型結(jié)構(gòu)理解、想象、執(zhí)行

體化想象所執(zhí)行任務(wù)的未來圖像場景理解模塊任務(wù)想象模塊文本編碼器圖像理解編碼器圖像生成編碼器Shanghai

ArtificialIntelligenceLaboratory“幫我倒一杯水”Page

39最終,動作執(zhí)行模塊在任務(wù)想象的指導(dǎo)下,采用Flow

Matching的方式輸出機器人控制指令場景理解模塊任務(wù)想象模塊動作執(zhí)行模塊Intern

V

LA

-A1

模型結(jié)構(gòu)理解、想象、執(zhí)行

體化機器人控制指令帶噪的控制動作文本編碼器圖像理解編碼器圖像生成編碼器想象所執(zhí)行任務(wù)的未來圖像Shanghai

ArtificialIntelligenceLaboratory“幫我倒一杯水”Page

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論