深度報(bào)告20250605東吳證券具身智能數(shù)據(jù)AI時(shí)代的石油322mb_第1頁(yè)
深度報(bào)告20250605東吳證券具身智能數(shù)據(jù)AI時(shí)代的石油322mb_第2頁(yè)
深度報(bào)告20250605東吳證券具身智能數(shù)據(jù)AI時(shí)代的石油322mb_第3頁(yè)
深度報(bào)告20250605東吳證券具身智能數(shù)據(jù)AI時(shí)代的石油322mb_第4頁(yè)
深度報(bào)告20250605東吳證券具身智能數(shù)據(jù)AI時(shí)代的石油322mb_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

具身智能數(shù)據(jù):AI時(shí)代的石油證券研究報(bào)告證券分析師

:王紫敬執(zhí)業(yè)證書(shū)編號(hào):S0600521080005聯(lián)系郵箱:wangzj@dwzq.com.cn二零二五年六月五日請(qǐng)務(wù)必閱讀正文之后的免責(zé)聲明部分?jǐn)?shù)據(jù)是推動(dòng)具身智能技術(shù)快速突破和落地應(yīng)用的關(guān)鍵。借鑒自動(dòng)駕駛汽車(chē)發(fā)展的路徑,數(shù)據(jù)對(duì)于具身智能同樣至關(guān)重要。優(yōu)質(zhì)的數(shù)據(jù)集能夠驅(qū)動(dòng)智能體感知與理解環(huán)境,能夠加速具身智能模型的訓(xùn)練與部署,幫助機(jī)器人有效完成復(fù)雜任務(wù)。不同于大語(yǔ)言模型可以使用互聯(lián)網(wǎng)海量信息作為訓(xùn)練數(shù)據(jù),機(jī)器人所用的具身智能模型沒(méi)有現(xiàn)成數(shù)據(jù)可以使用,需要投入大量時(shí)間和資源進(jìn)行機(jī)器人操作實(shí)踐或仿真模擬,以收集視覺(jué)、觸覺(jué)、力覺(jué)、運(yùn)動(dòng)軌跡以及機(jī)器人本體狀態(tài)等多源異構(gòu)數(shù)據(jù)。符合通用標(biāo)準(zhǔn)、得到驗(yàn)證的數(shù)據(jù)集成為具身智能行業(yè)的剛需。當(dāng)前具身智能本體形態(tài)多種多樣,應(yīng)用場(chǎng)景千差萬(wàn)別,對(duì)于具身智能訓(xùn)練數(shù)據(jù)的需求也更為多元。目前業(yè)內(nèi)仍有部分?jǐn)?shù)據(jù)集主要聚焦在特定機(jī)器人、特定場(chǎng)景和特定技能等方面,在整體通用性上有待提升。因此,構(gòu)建高質(zhì)量、多樣化的感知數(shù)據(jù)集是不可或缺的基礎(chǔ)工作,這些數(shù)據(jù)集不僅為算法訓(xùn)練提供了豐富的素材,也成為了評(píng)估具身性能的基準(zhǔn)參考標(biāo)準(zhǔn)。具身智能數(shù)據(jù)按采集方式主要分為真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)兩大類(lèi)。(1)真實(shí)數(shù)據(jù):真實(shí)數(shù)據(jù)是智能體通過(guò)自身物理身體上的各類(lèi)傳感器(如攝像頭、麥克風(fēng)、觸覺(jué)傳感器等

),在與真實(shí)物理環(huán)境進(jìn)行交互過(guò)程中,實(shí)時(shí)采集獲取的數(shù)據(jù)。真實(shí)數(shù)據(jù)主要來(lái)源有:機(jī)器人遙操(通過(guò)人工遠(yuǎn)程操控獲取真實(shí)場(chǎng)景下的操作數(shù)據(jù))、動(dòng)作捕捉(記錄人類(lèi)在特定環(huán)境中的行為模式)。(2)仿真數(shù)據(jù):借助計(jì)算機(jī)模擬技術(shù),在虛擬環(huán)境中生成的、用于訓(xùn)練具身智能的數(shù)據(jù)。通過(guò)構(gòu)建虛擬場(chǎng)景、物體和智能體,模擬智能體與虛擬環(huán)境的交互過(guò)程來(lái)產(chǎn)生數(shù)據(jù)。即利用仿真環(huán)境生成訓(xùn)練數(shù)據(jù)。真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)兩者是互補(bǔ)關(guān)系,未來(lái)訓(xùn)練將大量混合使用真實(shí)數(shù)據(jù)和高質(zhì)量的合成數(shù)據(jù)。當(dāng)前具身智能數(shù)據(jù)多為廠商自采集,存在豐富開(kāi)源數(shù)據(jù)集。當(dāng)前給人形機(jī)器人采集的高質(zhì)量數(shù)據(jù)通常在現(xiàn)實(shí)世界中獲取,采集方式主要有直接接觸數(shù)據(jù)(真機(jī)數(shù)據(jù))和間接接觸數(shù)據(jù)(人工控制數(shù)據(jù))兩種。最理想的數(shù)據(jù)采集方式是通過(guò)人形機(jī)器人本體直接觸達(dá)物理世界,讓其準(zhǔn)確理解真實(shí)環(huán)境。大規(guī)模真機(jī)數(shù)據(jù)的采集成本高昂,需要投入許多人力、物力和時(shí)間資源,數(shù)據(jù)標(biāo)注和采集設(shè)備都存在門(mén)檻。目前市面上存在豐富的高質(zhì)量具身智能開(kāi)源數(shù)據(jù)集,如智元、谷歌、國(guó)地共建中心等均開(kāi)源了豐富的具身智能數(shù)據(jù)集,具備豐富的演示數(shù)量、場(chǎng)景任務(wù)和動(dòng)作技能等。機(jī)器人仿真數(shù)據(jù)主要依賴(lài)虛擬場(chǎng)景,而場(chǎng)景的合成方案可拆解成兩個(gè)關(guān)鍵部分:場(chǎng)景生成(Gen)與模擬(Sim)。場(chǎng)景生成引擎(Gen)主要有兩種技術(shù)路徑:合成視頻+3D重建:基于像素流驅(qū)動(dòng),先生成視頻或圖像,再重建為點(diǎn)云或mesh等非結(jié)構(gòu)化3D數(shù)據(jù),最終轉(zhuǎn)為結(jié)構(gòu)化語(yǔ)義模型。如Hillbot、群核科技、World

labs(李飛飛)等。AIGC直接合成3D數(shù)據(jù):利用圖神經(jīng)網(wǎng)絡(luò)(GNN)、擴(kuò)散模型(Diffusion)、注意力機(jī)制(Attention)等方法,直接合成結(jié)構(gòu)化空間數(shù)據(jù)。如

ATISS、LEGO-Net、DiffuScene、RoomFormer

等代表模型,部分方案結(jié)合程序化生成技術(shù),如

Infinigen(CVPR2024)。投資建議與相關(guān)標(biāo)的:數(shù)據(jù)是推動(dòng)具身智能技術(shù)快速突破和落地應(yīng)用的關(guān)鍵,重點(diǎn)關(guān)注布局具身智能數(shù)據(jù)集的企業(yè),相關(guān)標(biāo)的:均勝電子(數(shù)據(jù)場(chǎng))、海天瑞聲(機(jī)器人數(shù)據(jù)集)、索辰科技(數(shù)據(jù)仿真)、華如科技(數(shù)據(jù)仿真)。風(fēng)險(xiǎn)提示:相關(guān)政策不及預(yù)期、各類(lèi)型企業(yè)IT預(yù)算不及預(yù)期、市場(chǎng)競(jìng)爭(zhēng)加劇。1投資要點(diǎn)研究成果1、

具身智能數(shù)據(jù)集基本概念

1、具身智能數(shù)據(jù)集基本概念3、國(guó)內(nèi)外具身智能仿真數(shù)據(jù)集現(xiàn)狀2、國(guó)內(nèi)外具身智能真實(shí)數(shù)據(jù)集現(xiàn)狀4、相關(guān)標(biāo)的5、風(fēng)險(xiǎn)提示2具身智能數(shù)據(jù)集基本概念3具身智能四個(gè)最關(guān)鍵的因子:算法、算力、機(jī)器人硬件、數(shù)據(jù)。算法層面:ChatGPT、Deepseek、通義千問(wèn)等一系列領(lǐng)先的模型,在算法層面國(guó)內(nèi)處于引領(lǐng)地位。算力層面:國(guó)外以英偉達(dá)、AMD為代表,國(guó)內(nèi)以寒武紀(jì)、海光信息、地平線等公司為代表,正在快速突圍。目前在訓(xùn)練階段的算力瓶頸已經(jīng)解決。機(jī)器人硬件層面:中國(guó)目前具有豐富的產(chǎn)業(yè)鏈。數(shù)據(jù)層面:目前仍是世界級(jí)難題,如何給機(jī)器人提供用來(lái)訓(xùn)練的可交互的數(shù)據(jù)是未來(lái)具身智能工作的重點(diǎn)之一。具身智能的世界級(jí)難題:數(shù)據(jù)數(shù)據(jù)來(lái)源:東吳證券研究所繪制圖:具身智能四大關(guān)鍵因子算法算力機(jī)器人硬件數(shù)據(jù)具身智能4數(shù)據(jù)是推動(dòng)具身智能技術(shù)快速突破和落地應(yīng)用的關(guān)鍵。借鑒自動(dòng)駕駛汽車(chē)發(fā)展的路徑,數(shù)據(jù)對(duì)于具身智能同樣至關(guān)重要。優(yōu)質(zhì)的數(shù)據(jù)集能夠驅(qū)動(dòng)智能體感知與理解環(huán)境,能夠加速具身智能模型的訓(xùn)練與部署,幫助機(jī)器人有效完成復(fù)雜任務(wù)。目前高質(zhì)量、多樣化的數(shù)據(jù)集仍舊稀缺。不同于大語(yǔ)言模型可以使用互聯(lián)網(wǎng)海量信息作為訓(xùn)練數(shù)據(jù),機(jī)器人所用的具身智能模型沒(méi)有現(xiàn)成數(shù)據(jù)可以使用,需要投入大量時(shí)間和資源進(jìn)行機(jī)器人操作實(shí)踐或仿真模擬,以收集視覺(jué)、觸覺(jué)、力覺(jué)、運(yùn)動(dòng)軌跡以及機(jī)器人本體狀態(tài)等多源異構(gòu)數(shù)據(jù)。符合通用標(biāo)準(zhǔn)、得到驗(yàn)證的數(shù)據(jù)集成為具身智能行業(yè)的剛需。當(dāng)前具身智能本體形態(tài)多種多樣,應(yīng)用場(chǎng)景千差萬(wàn)別,對(duì)于具身智能訓(xùn)練數(shù)據(jù)的需求也更為多元。目前業(yè)內(nèi)仍有部分?jǐn)?shù)據(jù)集主要聚焦在特定機(jī)器人、特定場(chǎng)景和特定技能等方面,在整體通用性上有待提升。因此,構(gòu)建高質(zhì)量、多樣化的感知數(shù)據(jù)集是不可或缺的基礎(chǔ)工作,這些數(shù)據(jù)集不僅為算法訓(xùn)練提供了豐富的素材,也成為了評(píng)估具身性能的基準(zhǔn)參考標(biāo)準(zhǔn)。數(shù)據(jù)集的標(biāo)準(zhǔn)和有效也同樣重要。作為訓(xùn)練具身智能大模型的重要原料,數(shù)據(jù)集采集是否符合標(biāo)準(zhǔn)、在訓(xùn)練上是否“能用”、“好用”,是否能更有效支持模型泛化,已經(jīng)成為機(jī)器人變“聰明”的關(guān)鍵。具身智能浪潮來(lái)襲,數(shù)據(jù)供給瓶頸亟待突破數(shù)據(jù)來(lái)源:生境科技,東吳證券研究所圖:具身智能大腦整體框架5數(shù)據(jù)采集的關(guān)鍵價(jià)值包括:① 促進(jìn)通用智能形成:具身數(shù)據(jù)支持機(jī)器人在復(fù)雜環(huán)境中實(shí)現(xiàn)通用任務(wù)能力,是類(lèi)人智能演化的基礎(chǔ);② 增強(qiáng)環(huán)境理解能力:比起圖像識(shí)別等靜態(tài)數(shù)據(jù),具身數(shù)據(jù)可捕捉動(dòng)態(tài)交互、物體變化、力學(xué)反饋等多維信號(hào);③ 支持任務(wù)遷移與泛化:不同場(chǎng)景中的具身體驗(yàn)數(shù)據(jù),有助于提升模型從特定任務(wù)向通用任務(wù)的遷移能力;④ 提升實(shí)時(shí)決策能力:通過(guò)感知-理解-反饋數(shù)據(jù)閉環(huán),機(jī)器人可實(shí)現(xiàn)即時(shí)調(diào)整與精準(zhǔn)操作。數(shù)據(jù)采集的價(jià)值和難點(diǎn)數(shù)據(jù)來(lái)源:機(jī)器人產(chǎn)業(yè)應(yīng)用,東吳證券研究所圖:具身智能大腦整體框架6機(jī)器人數(shù)據(jù)分為真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)兩類(lèi)數(shù)據(jù)來(lái)源:中國(guó)信通院,東吳證券研究所數(shù)據(jù)類(lèi)別各自優(yōu)缺點(diǎn)真實(shí)數(shù)據(jù)優(yōu)點(diǎn):具備高度還原性和真實(shí)性仿真數(shù)據(jù)缺點(diǎn):成本高、效率低,且難以控制變量?jī)?yōu)點(diǎn):具備高效、可控、易擴(kuò)展等優(yōu)勢(shì),能快速生成大規(guī)模、多模態(tài)的數(shù)據(jù),適合模型的預(yù)訓(xùn)練階段缺點(diǎn):可能存在“虛實(shí)差距”,通常需與現(xiàn)實(shí)數(shù)據(jù)配合使用以提升模型的泛化能力具身智能數(shù)據(jù)按采集方式主要分為真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)兩大類(lèi)。真實(shí)數(shù)據(jù):真實(shí)數(shù)據(jù)是智能體通過(guò)自身物理身體上的各類(lèi)傳感器(如攝像頭、麥克風(fēng)、觸覺(jué)傳感器等

),在與真實(shí)物理環(huán)境進(jìn)行交互過(guò)程中,實(shí)時(shí)采集獲取的數(shù)據(jù)。真實(shí)數(shù)據(jù)主要來(lái)源有:機(jī)器人遙操(通過(guò)人工遠(yuǎn)程操控獲取真實(shí)場(chǎng)景下的操作數(shù)據(jù))、動(dòng)作捕捉(記錄人類(lèi)在特定環(huán)境中的行為模式)。仿真數(shù)據(jù):借助計(jì)算機(jī)模擬技術(shù),在虛擬環(huán)境中生成的、用于訓(xùn)練具身智能的數(shù)據(jù)。通過(guò)構(gòu)建虛擬場(chǎng)景、物體和智能體,模擬智能體與虛擬環(huán)境的交互過(guò)程來(lái)產(chǎn)生數(shù)據(jù)。即利用仿真環(huán)境生成訓(xùn)練數(shù)據(jù)。兩者關(guān)系:仿真數(shù)據(jù)不會(huì)取代真實(shí)數(shù)據(jù),兩者是互補(bǔ)關(guān)系。未來(lái)訓(xùn)練將大量混合使用真實(shí)數(shù)據(jù)和高質(zhì)量的合成數(shù)據(jù)。仿真數(shù)據(jù)的優(yōu)勢(shì)是低成本、高效率、可控性強(qiáng)、多樣性高,缺點(diǎn)是真實(shí)性始終有限,無(wú)法完美還原物流世界。真實(shí)數(shù)據(jù)的作用是保證最終模型在真實(shí)世界中的可靠性和泛化能力。短期來(lái)看,仿真數(shù)據(jù)用于解決簡(jiǎn)單任務(wù),助力具身智能實(shí)現(xiàn)0到1的突破。尤其針對(duì)跑步、跳躍或者跳舞等簡(jiǎn)單的運(yùn)動(dòng)任務(wù),仿真數(shù)據(jù)已經(jīng)足夠支撐。反正數(shù)據(jù)的優(yōu)勢(shì)在于獲取快、成本低且數(shù)據(jù)量大。長(zhǎng)期看,真實(shí)數(shù)據(jù)對(duì)處理復(fù)雜任務(wù)不可或缺,推動(dòng)具身智能實(shí)現(xiàn)1到N的深度應(yīng)用。圖:真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)優(yōu)缺點(diǎn)7具身智能數(shù)據(jù)質(zhì)量把控是重要一環(huán)。具身智能開(kāi)發(fā)和驗(yàn)證所需的數(shù)據(jù)集包括任務(wù)語(yǔ)言描述、場(chǎng)景語(yǔ)義、3D空間、本體狀態(tài)、運(yùn)動(dòng)軌跡、視觸感知等多模態(tài)、強(qiáng)異構(gòu)的數(shù)據(jù),涉及不同的數(shù)據(jù)采集設(shè)備和數(shù)據(jù)獲取方式,且需要經(jīng)過(guò)多階段的數(shù)據(jù)處理,因此對(duì)數(shù)據(jù)質(zhì)量的把控是很重要的一個(gè)環(huán)節(jié)。中國(guó)信通院人工智能研究所依托中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)具身智能工作組,并聯(lián)合行業(yè)34家單位共同編制了《具身智能數(shù)據(jù)集質(zhì)量要求及評(píng)價(jià)方法》,以推動(dòng)大規(guī)模、高質(zhì)量的具身智能數(shù)據(jù)集建設(shè),助力具身智能技術(shù)創(chuàng)新和產(chǎn)業(yè)生態(tài)發(fā)展。首個(gè)具身智能數(shù)據(jù)采集標(biāo)準(zhǔn)發(fā)布。2024年11月,國(guó)家地方共建具身智能機(jī)器人創(chuàng)新中心牽頭立項(xiàng)《人工智能

具身智能

數(shù)據(jù)采集規(guī)范》工信部行業(yè)標(biāo)準(zhǔn),這是國(guó)內(nèi)第一個(gè)具身智能數(shù)據(jù)集的行業(yè)標(biāo)準(zhǔn),規(guī)范了具身智能數(shù)據(jù)集采集的格式,使不同公司采集的數(shù)據(jù)可以互相共享開(kāi)源,能夠加速模型“涌現(xiàn)”。創(chuàng)新中心未來(lái)還將設(shè)計(jì)一系列數(shù)據(jù)集標(biāo)準(zhǔn),為模型泛化保駕護(hù)航。2024年12月,創(chuàng)新中心正式發(fā)布了《具身智能標(biāo)準(zhǔn)化研究報(bào)告》、《具身智能數(shù)據(jù)集及評(píng)測(cè)研究報(bào)告》(即RoboMIND)兩項(xiàng)重磅報(bào)告,為行業(yè)的標(biāo)準(zhǔn)化與數(shù)據(jù)集建設(shè)提供指引。具身智能數(shù)據(jù)集采集標(biāo)準(zhǔn)的建立將進(jìn)一步明確具身智能數(shù)據(jù)要求及質(zhì)量等,從而加速具身智能行業(yè)的良性發(fā)展。數(shù)據(jù)質(zhì)量:首個(gè)具身智能數(shù)據(jù)集標(biāo)準(zhǔn)發(fā)布數(shù)據(jù)來(lái)源:群核科技,東吳證券研究所圖:具身智能數(shù)據(jù)集質(zhì)量要求及評(píng)價(jià)框架8國(guó)內(nèi)外具身智能真實(shí)數(shù)據(jù)集現(xiàn)狀9具身智能數(shù)據(jù)集發(fā)布機(jī)構(gòu)發(fā)布時(shí)間演示數(shù)量場(chǎng)景任務(wù)動(dòng)作技能采集方式AgiBot

World智元機(jī)器人,上海人工智能實(shí)驗(yàn)室2024.12100+萬(wàn)100+種數(shù)百個(gè)遙操作雙臂機(jī)器人和靈巧手OpenX-EmbodimentGoogle

Deepmind等21所機(jī)構(gòu)2023.10140萬(wàn)311種527個(gè)單臂、雙臂、四足等22種形態(tài)機(jī)器人DROIDStanford,UCBerkeley等13所機(jī)構(gòu)2024.037.6萬(wàn)564種86個(gè)遙操作單臂RT-1Google

Deepmind2022.1213.5萬(wàn)2種2個(gè)遙操作單臂BridgeData

V2UCBerkeley,Stanford,GoogleDeepMnd,CMU2023.096萬(wàn)24種13個(gè)遙操作單臂及腳本編程動(dòng)作RoboSetCMU,Meta2023.099.85萬(wàn)38種12個(gè)遙操作單機(jī)械臂及腳本編程動(dòng)作BC-ZGoogle、UC

Berkeley、Stanford2022.022.6萬(wàn)1種12個(gè)遙操作單機(jī)械臂MIMECMU2018.1082601種20個(gè)遙操作單機(jī)械臂ARIO鵬城實(shí)驗(yàn)室、南方科技大學(xué)、中山大學(xué)2024.08300萬(wàn)258種345個(gè)遙操作主從雙臂機(jī)器人RoboMIND國(guó)地中心、北京大學(xué)、智源研究院2024.125.5萬(wàn)279種36個(gè)遙操作單臂、雙臂、人形機(jī)器人和靈巧手RH20T上海交通大學(xué)2023.0711萬(wàn)7種140個(gè)遙操作單臂數(shù)據(jù)來(lái)源:整數(shù)智能,東吳證券研究所豐富的高質(zhì)量具身智能數(shù)據(jù)集當(dāng)前具身智能機(jī)器人數(shù)據(jù)多為廠商自采集。當(dāng)前給人形機(jī)器人采集的高質(zhì)量數(shù)據(jù)通常在現(xiàn)實(shí)世界中獲取,采集方式主要有直接接觸數(shù)據(jù)(真機(jī)數(shù)據(jù))和間接接觸數(shù)據(jù)(人工控制數(shù)據(jù))兩種。最理想的數(shù)據(jù)采集方式是通過(guò)人形機(jī)器人本體直接觸達(dá)物理世界,讓其準(zhǔn)確理解真實(shí)環(huán)境。但是,大規(guī)模真機(jī)數(shù)據(jù)的采集成本高昂,需要投入許多人力、物力和時(shí)間資源,數(shù)據(jù)標(biāo)注和采集設(shè)備都存在門(mén)檻。與此同時(shí),物理世界的運(yùn)行規(guī)律錯(cuò)綜復(fù)雜,數(shù)據(jù)的采集往往難以全面反映所有相關(guān)的物理現(xiàn)象與知識(shí)。目前市面上存在豐富的高質(zhì)量具身智能數(shù)據(jù)集,具備豐富的演示數(shù)量、場(chǎng)景任務(wù)和動(dòng)作技能等。圖:部分開(kāi)源高質(zhì)量數(shù)據(jù)集10智元機(jī)器人攜手上海人工智能實(shí)驗(yàn)室、國(guó)家地方共建人形機(jī)器人創(chuàng)新中心以及上海庫(kù)帕思,正式開(kāi)源Agibot

World項(xiàng)目。AgiBotWorld是全球首個(gè)基于全域真實(shí)場(chǎng)景、全能硬件平臺(tái)、全程質(zhì)量把控的百萬(wàn)真機(jī)數(shù)據(jù)集。AgiBot

World數(shù)據(jù)集中涵蓋的場(chǎng)景具備多樣化和多元化特點(diǎn),從抓取、放置、推、拉等基礎(chǔ)操作,到攪拌、折疊、熨燙等復(fù)雜動(dòng)作,幾乎涵蓋了人類(lèi)日常生活所需的絕大多數(shù)場(chǎng)景。AgiBot

World包含來(lái)自100個(gè)機(jī)器人的100多萬(wàn)條演示軌跡。在長(zhǎng)程數(shù)據(jù)規(guī)模上已超過(guò)谷歌OpenX-Embodiment數(shù)據(jù)集十倍。相比Google開(kāi)源的Open

X-Embodiment數(shù)據(jù)集,AgiBot

World長(zhǎng)程數(shù)據(jù)規(guī)模高出10倍,場(chǎng)景范圍覆蓋面擴(kuò)大100倍,數(shù)據(jù)質(zhì)量從實(shí)驗(yàn)室級(jí)上升到工業(yè)級(jí)標(biāo)準(zhǔn)。技能:AgiBot

World數(shù)據(jù)集涵蓋了家居(40%)、餐飲(20%)、工業(yè)(20%)、辦公室(10%)、超市(10%)等上百種通用場(chǎng)景和3000多個(gè)操作對(duì)象。相較于國(guó)外廣泛使用的Open

X-Embodiedment數(shù)據(jù)集和DROID數(shù)據(jù)集,AgiBot

World數(shù)據(jù)集在數(shù)據(jù)時(shí)長(zhǎng)分布上顯著提升,其中80%的任務(wù)均為長(zhǎng)程任務(wù),任務(wù)時(shí)長(zhǎng)集中在60s-150s之間,并且包含多個(gè)原子技能,長(zhǎng)程數(shù)據(jù)是DROID和OpenX-Embodiment的10倍以上,3000多種物品基本涵蓋了這五大場(chǎng)景。數(shù)據(jù)采集:AgiBot

World基于全身可控的移動(dòng)式雙臂機(jī)器人進(jìn)行數(shù)據(jù)采集,配備了視覺(jué)觸覺(jué)傳感器、六維力傳感器、六自由度靈巧手等先進(jìn)設(shè)備,可用于模仿學(xué)習(xí)、多智能體協(xié)作等前沿研究。智元Genie-1機(jī)器人包括8個(gè)環(huán)繞式布局的攝像頭,實(shí)時(shí)360度全方位感知;6自由度靈巧手,末端六維力傳感器和高精度觸覺(jué)傳感器;全身?yè)碛?2個(gè)主動(dòng)自由度。智元:AgiBot World百萬(wàn)級(jí)機(jī)器人數(shù)據(jù)集圖:多樣化任務(wù)演示11數(shù)據(jù)來(lái)源:中國(guó)機(jī)器人網(wǎng),東吳證券研究所Open

X-Embodiment是由谷歌DeepMind聯(lián)手21家國(guó)際知名機(jī)構(gòu)的34個(gè)研究實(shí)驗(yàn)室,整合60個(gè)現(xiàn)有的機(jī)器人數(shù)據(jù)集創(chuàng)建的一個(gè)開(kāi)放的、大規(guī)模的標(biāo)準(zhǔn)化機(jī)器人學(xué)習(xí)數(shù)據(jù)集。Open

X-Embodiment

Dataset研究人員將不同來(lái)源的數(shù)據(jù)集轉(zhuǎn)換為了統(tǒng)一的數(shù)據(jù)格式,便于用戶下載和使用,每一組數(shù)據(jù)以一系列

“episode”

呈現(xiàn),并通過(guò)谷歌制定的RLDS格式描述,確保了高度的兼容性和易于理解性。規(guī)模涵蓋從單臂機(jī)器人到雙臂機(jī)器人,再到四足機(jī)器人等22種不同形態(tài)的機(jī)器人,共包含超過(guò)100萬(wàn)條機(jī)器人演示軌跡、311個(gè)場(chǎng)景、527項(xiàng)技能和160,266項(xiàng)任務(wù)。場(chǎng)景:研究人員在機(jī)器人數(shù)據(jù)混合上訓(xùn)練了兩個(gè)模型:(1)RT-1,一種專(zhuān)為機(jī)器人控制而設(shè)計(jì)的基于Transformer的高效架構(gòu);(2)RT-2,一種大型視覺(jué)語(yǔ)言模型,經(jīng)過(guò)共同微調(diào),將機(jī)器人動(dòng)作輸出為自然語(yǔ)言標(biāo)記。兩種模型均輸出相對(duì)于機(jī)器人夾持器框架表示的機(jī)器人動(dòng)作。機(jī)器人動(dòng)作是一個(gè)7維向量,由x、y、z、滾動(dòng)、俯仰、偏航和夾持器張開(kāi)或這些量的速率組成。對(duì)于機(jī)器人未使用其中某些維度的數(shù)據(jù)集,在訓(xùn)練期間將相應(yīng)維度的值設(shè)置為零。將使用機(jī)器人數(shù)據(jù)混合訓(xùn)練的RT-1模型稱(chēng)為RT-1-X,并使用機(jī)器人數(shù)據(jù)混合訓(xùn)練的RT-2模型RT-2-X。谷歌:構(gòu)建Open X-Embodiment開(kāi)源數(shù)據(jù)集圖:機(jī)器人學(xué)習(xí)數(shù)據(jù)集與

RT-X

模型12數(shù)據(jù)來(lái)源:中國(guó)機(jī)器人網(wǎng),東吳證券研究所2024年12月27日,國(guó)家地方共建具身智能機(jī)器人創(chuàng)新中心與北京大學(xué)計(jì)算機(jī)學(xué)院聯(lián)合推出了一個(gè)大規(guī)模多構(gòu)型具身智能數(shù)據(jù)集和Benchmark——RoboMind,基于成型標(biāo)準(zhǔn)采集,經(jīng)多個(gè)模型訓(xùn)練驗(yàn)證有效,支持多本體多任務(wù)并具備通用性,充分解決了目前全球開(kāi)源數(shù)據(jù)集,量大但數(shù)據(jù)質(zhì)量參差不齊、通用性復(fù)用性差、部分?jǐn)?shù)據(jù)實(shí)測(cè)效果不理想等問(wèn)題,有效滿足復(fù)雜場(chǎng)景具身智能高效率和針對(duì)性的訓(xùn)練。創(chuàng)新中心發(fā)布的RoboMind數(shù)據(jù)集,采用了包括含單臂機(jī)器人、雙臂機(jī)器人、人形機(jī)器人,手臂末端使用夾爪或者靈巧手等多種形態(tài)的機(jī)器人本體進(jìn)行數(shù)據(jù)采集,包含了涉及279項(xiàng)不同的任務(wù)多類(lèi)場(chǎng)景,涵蓋了高達(dá)61種不同的物體,覆蓋了家居、廚房、工廠、辦公、零售等大部分生活服務(wù)場(chǎng)景,對(duì)科研突破和場(chǎng)景應(yīng)用均十分友好。創(chuàng)新中心持續(xù)采集長(zhǎng)程復(fù)雜任務(wù),目前已經(jīng)積累數(shù)十萬(wàn)條高質(zhì)量數(shù)據(jù),以真機(jī)數(shù)據(jù)為主,配以仿真遙操作數(shù)據(jù)。在數(shù)據(jù)質(zhì)量與使用價(jià)值上,一條數(shù)據(jù)等同于目前現(xiàn)有數(shù)據(jù)集的多條存量數(shù)據(jù)。創(chuàng)新中心計(jì)劃首批開(kāi)源10萬(wàn)條,后續(xù)逐步釋放,涵蓋更多機(jī)器人本體和場(chǎng)景任務(wù)。國(guó)地共建機(jī)器人創(chuàng)新中心:RoBoMind數(shù)據(jù)集圖:RoboMind數(shù)據(jù)集多形態(tài)機(jī)器人,多場(chǎng)景驗(yàn)證13數(shù)據(jù)來(lái)源:中國(guó)機(jī)器人網(wǎng),東吳證券研究所特斯拉Optimus機(jī)器人的數(shù)據(jù)有三個(gè)來(lái)源,主要是基于特斯拉存量實(shí)際采集的數(shù)據(jù)+高精度仿真模擬采集的數(shù)據(jù)+機(jī)器人物理采集的數(shù)據(jù)。從Tesla放出的視頻中可以看出,目前Optimus的數(shù)據(jù)來(lái)自于VR遙操+動(dòng)捕手套:操作員會(huì)戴上VR眼鏡用于和機(jī)器人的視野對(duì)齊動(dòng)捕手套捕捉的手指運(yùn)動(dòng)轉(zhuǎn)發(fā)到Optimus的靈巧手上特斯拉:復(fù)用自動(dòng)駕駛的模型和數(shù)據(jù)能力圖:特斯拉遙控?cái)?shù)據(jù)采集圖14數(shù)據(jù)來(lái)源:中國(guó)機(jī)器人網(wǎng),東吳證券研究所2025年1月,國(guó)家地方共建人形機(jī)器人創(chuàng)新中心建設(shè)的全國(guó)首個(gè)異構(gòu)人形機(jī)器人訓(xùn)練場(chǎng)正式啟用。助力數(shù)據(jù)采集,訓(xùn)練場(chǎng)應(yīng)運(yùn)而生。2025年年1月,位于上海的國(guó)家地方共建人形機(jī)器人創(chuàng)新中心啟用具身智能訓(xùn)練場(chǎng),訓(xùn)練場(chǎng)可容納100余臺(tái)人形機(jī)器人同時(shí)訓(xùn)練。經(jīng)過(guò)前期搭建,目前國(guó)地中心訓(xùn)練場(chǎng)已吸納102臺(tái)機(jī)器人,在不同的分區(qū)中進(jìn)行持續(xù)訓(xùn)練。其中,最大的特點(diǎn)是經(jīng)過(guò)前期搭建,目前國(guó)地中心訓(xùn)練場(chǎng)已吸納102臺(tái)機(jī)器人,在不同的分區(qū)中進(jìn)行持續(xù)訓(xùn)練。其中,最大的特點(diǎn)是異構(gòu)機(jī)器人的集體亮相。異構(gòu)人形機(jī)器人是指不同廠家生產(chǎn)的,在形態(tài)、功能、技術(shù)架構(gòu)、應(yīng)用場(chǎng)景等方面存在差異的人形機(jī)器人。在訓(xùn)練場(chǎng)里,重點(diǎn)圍繞智能制造、民生服務(wù)以及特種作業(yè)等國(guó)家重點(diǎn)領(lǐng)域的場(chǎng)景應(yīng)用,配備先進(jìn)的傳感器和數(shù)據(jù)采集系統(tǒng),在高度還原的環(huán)境中對(duì)機(jī)器人進(jìn)行任務(wù)訓(xùn)練,成為“多機(jī)、多場(chǎng)景、多任務(wù)”異構(gòu)人形機(jī)器人數(shù)據(jù)采集的重要陣地。國(guó)內(nèi)首個(gè)具身智能數(shù)據(jù)采集標(biāo)準(zhǔn)圖:工程師對(duì)機(jī)器人進(jìn)行訓(xùn)練15數(shù)據(jù)來(lái)源:上海經(jīng)信委,東吳證券研究所國(guó)內(nèi)外具身智能仿真數(shù)據(jù)集現(xiàn)狀16仿真數(shù)據(jù):場(chǎng)景生成引擎的兩種技術(shù)路徑機(jī)器人仿真數(shù)據(jù)主要依賴(lài)虛擬場(chǎng)景,而場(chǎng)景的合成方案可拆解成兩個(gè)關(guān)鍵部分:場(chǎng)景生成(Gen)與模擬(Sim)。場(chǎng)景生成引擎(Gen)主要有兩種技術(shù)路徑:合成視頻+3D重建:基于像素流驅(qū)動(dòng),先生成視頻或圖像,再重建為點(diǎn)云或mesh等非結(jié)構(gòu)化3D數(shù)據(jù),最終轉(zhuǎn)為結(jié)構(gòu)化語(yǔ)義模型。如Hillbot、群核科技、World

labs(李飛飛)等。AIGC直接合成3D數(shù)據(jù):利用圖神經(jīng)網(wǎng)絡(luò)(GNN)、擴(kuò)散模型(Diffusion)、注意力機(jī)制(Attention)等方法,直接合成結(jié)構(gòu)化空間數(shù)據(jù)。如

ATISS、LEGO-Net、DiffuScene、RoomFormer

等代表模型,部分方案結(jié)合程序化生成技術(shù),如

Infinigen(CVPR

2024)。圖:“3D場(chǎng)景合成+仿真模擬+現(xiàn)實(shí)交互”sim2real技術(shù)框架圖:場(chǎng)景生成(Gen)與模擬(Sim)17數(shù)據(jù)來(lái)源:生境科技,東吳證券研究所路線一:視頻合成+3D重建圖:Genesis

與常用的基于

CPU

GPU的機(jī)器人模擬器的速度比較合成視頻+3D重建:基于像素流驅(qū)動(dòng),先生成視頻或圖像,再重建為點(diǎn)云或mesh等非結(jié)構(gòu)化3D數(shù)據(jù),最終轉(zhuǎn)為結(jié)構(gòu)化語(yǔ)義模型。如Hillbot、群核科技、李飛飛“World

Models”項(xiàng)目等。18數(shù)據(jù)來(lái)源:生境科技,東吳證券研究所端到端3D合成數(shù)據(jù):利用圖神經(jīng)網(wǎng)絡(luò)(GNN)、擴(kuò)散模型(Diffusion)、注意力機(jī)制(Attention)等方法,直接合成結(jié)構(gòu)化空間數(shù)據(jù)。端到端3D算法優(yōu)勢(shì):穩(wěn)定性強(qiáng)、高效低成本、信息完整、控制性強(qiáng)、可拓展性強(qiáng)。路線二:端到端的3D直接生成圖:“端到端3D場(chǎng)景合成”技術(shù)路線19數(shù)據(jù)來(lái)源:量子位,東吳證券研究所群核科技的SpatialLM和SpatialVerse是該路線的代表性技術(shù)。群核科技成立于2011年,是一家以AI技術(shù)和GPU集群為底座的空間智能企業(yè),公司構(gòu)建了一套物理正確的世界模擬器,并運(yùn)用在室內(nèi)空間場(chǎng)景下的實(shí)時(shí)渲染、工業(yè)生產(chǎn)制造,以及虛擬物理世界訓(xùn)練等場(chǎng)景。公司旗下?lián)碛锌臻g設(shè)計(jì)軟件【酷家樂(lè)】、海外版產(chǎn)品【Coohom】、面向室內(nèi)環(huán)境AI開(kāi)發(fā)的下一代空間智能解決方案【群核空間智能平臺(tái)】(SpatialVerse)以及空間理解模型SpatialLM等。SpatialVerse為機(jī)器人提供優(yōu)質(zhì)的數(shù)據(jù)服務(wù)。群核科技推出的空間智能解決方案SpatialVerse

構(gòu)建了龐大且物理正確的數(shù)據(jù)集庫(kù),模仿真實(shí)世界物理特性和空間關(guān)系,通過(guò)合成數(shù)據(jù)方案為機(jī)器人搭建起接近物理真實(shí)的“數(shù)字道場(chǎng)”,幫助機(jī)器人在仿真環(huán)境下完成例如疊被子、遞送水杯、開(kāi)關(guān)冰箱門(mén)等行動(dòng)的交互訓(xùn)練。群核科技:空間智能領(lǐng)軍企業(yè)圖:群核科技發(fā)布的物理世界模擬器圖:群核科技具身合成技術(shù)路線20數(shù)據(jù)來(lái)源:群核科技,生境科技,東吳證券研究所Hillbot成立于2024年,是一家專(zhuān)注具身合成數(shù)據(jù)的企業(yè)。Hillbot

的核心在于利用

3D

生成式

AI

技術(shù),通過(guò)文字提示生成3D對(duì)象,再將生成好的

3D

對(duì)象,放入自主開(kāi)發(fā)的模擬器

SAPIEN

中。這種方法通過(guò)生成數(shù)據(jù)和模擬真實(shí)環(huán)境中的互動(dòng),提供了源源不斷的數(shù)據(jù)流。其技術(shù)路徑包括通過(guò)

NVIDIA

Cosmos

快速生成環(huán)境視頻片段,利用

Sapien/ManiSkill

對(duì)視頻進(jìn)行3D場(chǎng)景解析和重建。此過(guò)程中,Hillbot通過(guò)標(biāo)簽化的三維模型庫(kù)將物體(如冰箱、餐桌)替換為仿真中的對(duì)應(yīng)對(duì)象,并賦予物理屬性,從而實(shí)現(xiàn)機(jī)器人與虛擬環(huán)境的交互。Hillbot:專(zhuān)注具身合成數(shù)據(jù)圖:Hillbot具身合成技術(shù)路線21數(shù)據(jù)來(lái)源:Hillbot,生境科技,東吳證券研究所World

Labs

是一家專(zhuān)注于空間智能的人工智能公司,致力于打造大型世界模型(LWM),以感知、生成并與

3D

世界進(jìn)行交互。World

Labs

采用先進(jìn)的深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù),結(jié)合大規(guī)模數(shù)據(jù)集,進(jìn)行空間數(shù)據(jù)的建模與推理。公司致力于為開(kāi)發(fā)者和行業(yè)提供一套具有深度空間理解、動(dòng)態(tài)交互和生成能力的

AI

工具和平臺(tái),讓機(jī)器不僅能夠理解視覺(jué)圖像,還能在真實(shí)世界的三維空間中“感知”并做出反應(yīng)。2024年12月,World

Labs發(fā)布空間智能模型,生成更加逼近物理世界的

3D

環(huán)境建模,而不僅僅是可互動(dòng)視頻,更接近理解圖片的物理關(guān)系。World Labs(李飛飛):發(fā)布高保真仿真平臺(tái)圖:利用3D場(chǎng)景來(lái)構(gòu)建交互結(jié)果22數(shù)據(jù)來(lái)源:中國(guó)機(jī)器人網(wǎng),東吳證券研究所2025年2月25日,智元機(jī)器人宣布出自主研發(fā)的大型仿真框架AgiBot

Digital

World,為機(jī)器人操作提供靈活的仿真數(shù)據(jù)生成方案、預(yù)訓(xùn)練的大規(guī)模仿真數(shù)據(jù)和統(tǒng)一的模型評(píng)測(cè)標(biāo)準(zhǔn),同步開(kāi)源海量仿真數(shù)據(jù)!AgiBot

Digital

World作為一款專(zhuān)為機(jī)器人操作技能研究與應(yīng)用設(shè)計(jì)的仿真框架,集成了海量的逼真三維資產(chǎn)、多樣化的專(zhuān)家軌跡生成機(jī)制和全面的模型評(píng)估工具。通過(guò)高保真地模擬訓(xùn)練場(chǎng)景,全鏈自動(dòng)化地生成數(shù)據(jù)。智元機(jī)器人開(kāi)源上線海量規(guī)模的仿真數(shù)據(jù)集AgiBot

Digital

World

Dataset,涵蓋5大類(lèi)場(chǎng)景、180+品類(lèi)具體物品、9種常見(jiàn)材質(zhì)、12種核心技能,具有質(zhì)量高、泛化快、任務(wù)多樣、應(yīng)用靈活的特點(diǎn)。智元:推出AgiBot Digital World仿真框架,助力仿真數(shù)據(jù)生成圖:AgiBotDigitalWorld仿真數(shù)據(jù)訓(xùn)練流程分類(lèi)具體場(chǎng)景9大類(lèi)材質(zhì)木質(zhì)、地毯、石制、布料、金屬、混凝土、大理石、瓷磚、玻璃180+類(lèi)物品家用電器、衣物配飾、日雜用品、食品飲料、清潔護(hù)理、母嬰玩具、電子產(chǎn)品、辦公用品、體育用品、其他12類(lèi)原子技能抓、放、插、倒、點(diǎn)擊、滑、推、拉、扭、按、開(kāi)、關(guān)5類(lèi)環(huán)境家居、商超、辦公、餐飲、工業(yè)23數(shù)據(jù)來(lái)源:智元機(jī)器人,東吳證券研究所圖:專(zhuān)家示范生成流水線生成式物理引擎Genesis發(fā)布。2024年12月中旬,CMU

聯(lián)合其他

20

多所研究實(shí)驗(yàn)室開(kāi)源發(fā)布了一個(gè)生成式物理引擎:Genesis。發(fā)布的Genesis

是一個(gè)用于通用機(jī)器人學(xué)習(xí)的生成式和可微分的物理引擎,提供了一個(gè)統(tǒng)一的模擬平臺(tái),支持各種材料的模擬,能夠模擬廣泛的機(jī)器人任務(wù),同時(shí)完全支持可微分特性。旨在為機(jī)器人解鎖無(wú)限且多樣化的數(shù)據(jù),讓它們能夠在前所未有的各種環(huán)境中學(xué)習(xí)廣泛的技能。Genesis:開(kāi)源生成式物理引擎圖:Genesis

與常用的基于

CPU

GPU的機(jī)器人模擬器的速度比較24數(shù)據(jù)來(lái)源:機(jī)器之心,東吳證券研究所NVIDIA

Isaac

Sim

是一款基于

NVIDIA

Omniverse

構(gòu)建的參考應(yīng)用程序,用于在基于物理的虛擬環(huán)境中開(kāi)發(fā)、仿真和測(cè)試由

AI

驅(qū)動(dòng)的機(jī)器人。2025年1月,英偉達(dá)推出了全新Isaac

Sim

4.5版本,其中NVIDIA

Cosmos世界基礎(chǔ)模型,結(jié)合

Isaac

Sim

可生成大量可控的合成數(shù)據(jù),可用于訓(xùn)練機(jī)器人感知系統(tǒng)。

同時(shí)發(fā)布的NVIDIA

Isaac

GR00T

Blueprint,人形機(jī)器人開(kāi)發(fā)者現(xiàn)在可以利用該Blueprint,通過(guò)少量人類(lèi)示范構(gòu)建自定義數(shù)據(jù)管線,生成大量合成軌跡數(shù)據(jù)。英偉達(dá): NVIDIA Isaac Sim結(jié)合Comsmos可生成可控合成

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論