計算機-人工智能系列報告(三):人形機器人步入軟件定義和AI驅(qū)動時代_第1頁
計算機-人工智能系列報告(三):人形機器人步入軟件定義和AI驅(qū)動時代_第2頁
計算機-人工智能系列報告(三):人形機器人步入軟件定義和AI驅(qū)動時代_第3頁
計算機-人工智能系列報告(三):人形機器人步入軟件定義和AI驅(qū)動時代_第4頁
計算機-人工智能系列報告(三):人形機器人步入軟件定義和AI驅(qū)動時代_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

行業(yè)專題報告|計算機證券研究報告基于對人形機器人發(fā)展階段及核心競爭力的分析,我們認為人形機器人已經(jīng)跨入了一個全新的軟件定義加AI驅(qū)動的時代。軟件人的基礎操作系統(tǒng)和應用算法,而且通過不斷迭代升級,為人形機器人賦予了超越傳統(tǒng)機械設備的智能特性。軟件和AI不僅開啟了人動駕駛算法的成功復用,我們認為人形機器人處于由高動態(tài)向高度智能化發(fā)展的階段。高動態(tài)是指機器人在運動能力上表現(xiàn)優(yōu)秀,特別是平衡性、越障礙能力等。當前人形機器人機械化程度較高且具備較強機器人身體協(xié)調(diào)性非常出色,除了行走,還完成翻滾等高難度動作;感知方面,特斯拉Optimus基于完全端到端訓練的神經(jīng)網(wǎng)絡架構(gòu),底程度,也就是在面對各種未知環(huán)境、任務和交互情境時的高度適應性和自我學習能力。人形機器人的設計初衷是通過模仿人類的形態(tài)和行為能力,讓其能無縫使用人類所有的基礎設施和工具,以便在多種環(huán)境中執(zhí)行任務,提高生產(chǎn)效率,尤其是在替代人類執(zhí)行一些可能危險、困難或不適宜的任務。人形機器人的商業(yè)化進程中深受應用場景局限性的影響,提高智能程度能夠顯著拓寬人形機器人應用場景,打破現(xiàn)有局限,提升其對復雜環(huán)境的適應性和任務執(zhí)行的靈活性。是智能機器人智能化水平的高層次判斷標準。根據(jù)當前技術(shù)形態(tài)研判,國型憑借其龐大的知識庫和強大的理解能力所帶來的泛化能力,賦予了人形機器人更高的通用性,使其能夠滿足不同場景下的多樣化任務需求;同時大模型的輔助編程等功能還能有效降低軟件開發(fā)成本,有望加速人形機器超配超配超配超配 2023-042023-08鄭宏達S080052402000113918906471zhenghongda@計算機:廣州數(shù)科集團,國企市值管理標計算機:繼續(xù)看好端側(cè)智能—計算機行業(yè)建議關(guān)注:1)視覺感知:??低?、大華股份、虹軟科技、智微智能;2)機器人大模型:科大訊飛、商湯-W、云從科技-UW。風險提示:人形機器人技術(shù)發(fā)展不及預期、政策法規(guī)環(huán)境不確定風險、供應鏈與制造成本上升風險、國際競爭加劇與技術(shù)替代風險。一、為什么我們認為人形機器人步入軟件定義時代? 41.1人形機器人現(xiàn)在處于什么發(fā)展階段? 51.2人形機器人的核心競爭力在于什么? 61.3為什么我們認為人形機器人步入軟件定義時代? 7二、大模型成為“AI大腦”,通用人形機器人曙光已現(xiàn) 82.1人形機器人走向通用,“決策”+“認知”是必經(jīng)之路 82.2具身智能技術(shù)持續(xù)突破,通用人形機器人新紀元將至 92.2.1ChatGPTforRobotics:大模型賦能機器人的初步探索 2.2.2PaLM-E:具身多模態(tài)視覺語言模型,是具身智能領域的一次重大飛躍 2.2.3RT-2:全球首個VLA多模態(tài)大模型,能夠理解視覺輸入,機器人模型里程碑.122.2.4VoxPoser:實現(xiàn)零樣本機器人任務軌跡規(guī)劃 2.2.5RoboAgent:實現(xiàn)通用機器人小數(shù)據(jù)集的快速訓練 2.2.6RT-X:基于多個數(shù)據(jù)集的機器人通用大模型 2.2.7Eureka:基于GPT-4的人工智能代理 2.2.8RobotGPT:ChatGPT運用于機器人的框架 2.2.9EVE:依賴端到端神經(jīng)網(wǎng)絡實現(xiàn)自主工作 2.2.10Figure01:能聽、能說、能自主決策的人形機器人 2.2.11GR00T——通用人形機器人基礎模型 圖1:汽車產(chǎn)業(yè)發(fā)展歷程 4圖2:人形機器人發(fā)展大事記 5圖3:波士頓動力Atlas俯身下蹲抓起工具包 5圖4:波士頓動力Atlas蹦上高臺 5圖5:波士頓動力Atlas推完箱子后保持身子平衡,不前傾摔倒 6圖6:波士頓動力Atlas前空翻落地 6圖7:TeslaOptimusGen2用手指抓取雞蛋(屏幕右側(cè)實時顯示了手指壓力) 6圖8:TeslaOptimusGen2疊衣服(目前尚不能自主執(zhí)行疊衣服操作) 6圖9:優(yōu)必選人形機器人發(fā)展歷程及展望 7圖10:泛化能力包括跨語言泛化、跨任務泛化、跨領域泛化、結(jié)構(gòu)泛化、組合泛化、魯棒性 9圖11:2023年至今“大模型+機器人”發(fā)展進程 圖12:傳統(tǒng)機器人任務需要工程師在循環(huán)中不斷改進 圖13:接入ChatGPT后工程師無需在循環(huán)中調(diào)整 圖14:ChatGPTforRobotics的設計原則 圖15:PaLM-E主要架構(gòu) 圖16:PaLM-E在復雜的移動操作任務表現(xiàn)出色 圖18:Voxposer系統(tǒng)流程 圖19:RoboAgent采用的多任務動作分塊MT-ACT架構(gòu) 圖20:RT-X架構(gòu) 圖21:Eureka訓練機械手臂完成高難度的轉(zhuǎn)筆動作 圖22:Robot-GPT架構(gòu) 圖23:EVE可自主進行物品搬運收納 圖24:EVE可自主進行充電 圖25:Figure01技術(shù)原理 圖28:優(yōu)必選WalkerS根據(jù)語音指令完成疊衣服任務 圖26:GR00T能夠理解語言、視頻和演示 圖27:GR00T基于NVIDIA深度技術(shù)堆棧開發(fā) 表1:機器人智能化信息模型要素 8表2:通用智能化等級判斷依據(jù) 9一、為什么我們認為人形機器人步入軟件定義時代?由于技術(shù)與產(chǎn)業(yè)關(guān)聯(lián)性、以及未來成本下降和規(guī)?;a(chǎn)路徑相似性,人形機器人經(jīng)常與汽車類比。人形機器人和汽車都是高度工程化的產(chǎn)物,需要集成多種技術(shù)和部件。特斯拉等公司在開發(fā)人形機器人時,強調(diào)了與汽車業(yè)務的共享技術(shù)路徑,比如使用類似的子控制系統(tǒng)等多種復雜組件,人形機器人同樣融合了機械設計、運動控制、感知系統(tǒng)(目前多數(shù)汽車也有傳感器和雷達)等;而汽車的自動駕駛技術(shù)則可以對應于目前人形復盤汽車產(chǎn)業(yè)“機械時代→電子時代→軟件時代”發(fā)展歷程,本質(zhì)是汽車的核心競爭力一時期的汽車更多依賴于物理結(jié)構(gòu)和機械性能來滿足市場需求。而后汽車產(chǎn)業(yè)進入“電了電子技術(shù)和系統(tǒng)集成能力,這些技術(shù)的應用不僅提高了汽車的安全性和舒適性,也使得汽車能夠?qū)崿F(xiàn)更復雜的控制功能。隨后,硬件功能及成本改善升級空間逐步變小,汽的概念應運而生,汽車從高度機電一體化的機械終端,逐步轉(zhuǎn)變?yōu)橐粋€智能化、可拓展、資料來源:頭豹研究院、西部證券研發(fā)中心基于人形機器人所展現(xiàn)出的高度機械化特性以及在視覺感知方面對自動駕駛算法的成功復用,我們認為人形機器人處于由高動態(tài)向高度智能化發(fā)展的階段。高動態(tài)是指機器人在運動能力上表現(xiàn)優(yōu)秀,特別是平衡性、越障礙能力等。當前人形機器人機械化程度較高,體現(xiàn)強大的運動性能、仿生結(jié)構(gòu)設計、先進材料應用和精細操作能力等層面;且具備較強的運動控制及環(huán)境感知能力,體現(xiàn)在多傳感器融合感知、無線通信、模塊化設計以及能源管理等多個方面。展望未來,人形機器人將在現(xiàn)有基礎上,進一步強化自主決資料來源:中國機器人網(wǎng)、新智元、智東西、機器之心、優(yōu)必選科技視頻號、西部證券研發(fā)中心Atlas有多達28個自由度,涵蓋雙足、軀干、手臂等,確保了全方位、精細化的動作模資料來源:量子位微信公眾號、西部證券研發(fā)中心資料來源:量子位微信公眾號、西部證券研發(fā)中心資料來源:量子位微信公眾號、西部證券研發(fā)中心資料來源:量子位微信公眾號、西部證券研發(fā)中心度提升30%,整體重量減輕10kg,且具有觸覺感知靈巧手。與之前的版本相比,手指搭載觸覺傳感器能夠精準抓握雞蛋等易碎物品;且能夠完成多個深蹲動作并保持身Optimus基于完全端到端訓練的神經(jīng)網(wǎng)絡架構(gòu),底層感知、識別算法等等已經(jīng)和FSD定程度的算法復用。FSD(FullSelf-Driving,全自動駕駛)算法主要依賴于神經(jīng)網(wǎng)絡和計算機視覺技術(shù),其核心是神經(jīng)網(wǎng)絡模型:通過對實時傳感器獲取的數(shù)據(jù)進行處理和分析并從中提取有關(guān)道路、車輛、行人和障礙物等信息,可以實現(xiàn)車輛的環(huán)境感知和物體識別,而FSD算法在人形機器人的感知、決策和控制等方面也同樣起到重要作用。Optimus的神經(jīng)網(wǎng)絡是完全的端到端訓練架構(gòu),即可以做到視頻信號輸入和控制信號輸出,能夠直接從原始輸入端到輸出端進行訓練而無需進行手動特征工程或中間階段處理,資料來源:機器之心微信公眾號、西部證券研發(fā)中心資料來源:機器之心微信公眾號、西部證券研發(fā)中心“擬人化”不只是身體和行為擬人,更重要的是大腦和思維擬人,人形機器人不是單純地執(zhí)行預先編寫程序的機械設備,而是擁有自主決策和學習能力的智能終端。人形機器人的研究和發(fā)展不僅僅只是為了模仿人類的外觀形態(tài),更重要的是要賦予它們類似于人類的認知能力和情感表達能力,使其能夠理解和響應人類的需求,在不同的環(huán)境和場景資料來源:雷峰網(wǎng)、優(yōu)必選官網(wǎng)、西部證券研發(fā)中心人形機器人的商業(yè)化進程中深受應用場景局限性的影響,通用性和智能化或?qū)⒊蔀槠凭株P(guān)鍵。回顧歷史,可以發(fā)現(xiàn)人形機器人商業(yè)化進程非常艱難折:波士頓動力公司多次易盡管波士頓動力、本田ASIMO和軟銀Pepper等人形機器人運動能力、互動性能或情感交流特性,但在實際應用中,它們往往難以找到足夠廣泛且具有經(jīng)濟效益的落地場景。所以,我們認為人形機器人的核心競爭力在于其通用性和泛化性,即智能化程度,也就是在面對各種未知環(huán)境、任務和交互情境時的高度適應性和自我學習能力。汽車是一種代步工具,而人形機器人更多地聚焦于替代或輔助人類執(zhí)行任務。人形機器人的設計初衷是通過模仿人類的形態(tài)和行為能力,讓其能無縫使用人類所有的基礎設施和工具,以便在多種環(huán)境中執(zhí)行任務,提高生產(chǎn)效率,尤其是在替代人類執(zhí)行一些可能危險、困難或不適宜的任務。提高智能程度能夠顯著拓寬人形機器人應用場景,打破現(xiàn)有局限,提升其對復雜環(huán)境的適應性和任務執(zhí)行的靈活性。高度智能的人形機器人將具備更強的學習能力,能在與環(huán)境的互動中不斷優(yōu)化行為策略,適應多樣化的操作任務和未知情境。同時,自然語言處理和情境理解的進步將使人形機器人能夠更好地與人類進行溝通,理解并響應復雜指令,甚至預測用戶需求。此外,智能化還體現(xiàn)在自主決策與故障診斷能力的提升,使人形機器人能夠在無人干預下獨立完成任務,減少對遠程操控或現(xiàn)場人工指導的依賴,大大增人形機器人正逐步邁進由高動態(tài)運動性能向高度智能化躍升的新階段,這一轉(zhuǎn)變離不開AI的發(fā)展與深度融入。隨著AI技術(shù)在感知、認知、器人擁有了更強大的環(huán)境感知能力,可以通過視覺、聽覺、觸覺等多種傳感器收集信息,利用深度學習、強化學習等先進算法解析復雜數(shù)據(jù),進行實時決策,并通過高精度的動通過軟件更新升級功能,這使得它們未來能夠廣泛應用于制造、教育、醫(yī)療、娛樂、養(yǎng)老、救援等多元領域,展現(xiàn)較強的普適性和延因此,我們認為人形機器人已經(jīng)跨入了一個全新的軟件定義、AI驅(qū)動的時代。軟件不僅承載著人形機器人的基礎操作系統(tǒng)和應用算法,而且通過不斷迭代升級,為人形機器人賦予了超越傳統(tǒng)機械設備的智能特性。軟件和AI不僅開啟了人形機器人在各行各業(yè)廣泛應用的可能性,更定義了人形機器人的功能邊界?!皼Q策”+“認知”是智能機器人智能化水平的高層次判斷標準。我國2022年發(fā)布的《智能機器人智能化等級評價規(guī)范》從要素智能化等級、綜合通用智能化等級和綜合場景智能化等級三個方面對機器人智能化等級進行了權(quán)威的分類,并根據(jù)智能化程度不同從低到高劃分為1級~5級。其中,綜合通用智能化評級主要從感知、執(zhí)行、決策和認知四個方面對機器人的智能化綜合能力進行評價,從低到高可分為L1(基礎型)、L2能力是判斷機器人智能化水平高低的最高層次標準,其中認知能力主要衡量其建模、理解和推理等方面的能力,執(zhí)行能力衡量其運動執(zhí)行和交互等方面的能力。根據(jù)當前技術(shù)漸向L4和L5階段進行發(fā)展,而實現(xiàn)人形機器人智能化等級能力是必經(jīng)之路更是核心難點之一。表1:機器人智能化信息模型要素人臉識別、字符識別、圖像識別、定位測距壓覺、力覺、冷熱覺語義理解、多輪語義規(guī)劃、多輪對話理解、情感理解、多模任務規(guī)劃、動作規(guī)劃、路徑規(guī)劃、不確定環(huán)境下的運動規(guī)劃語音交互、表情交互、文字交互、肢體語言交互、界面交互、多模態(tài)交互、多機交互表2:通用智能化等級判斷依據(jù)有//有有//有有/有有有/有有有有正如我們前文所說,人形機器人以解放人體、自主完成任務為目標,其長期的核心價值在于通用性、泛化性。目前工業(yè)機器人的技術(shù)雖已相對成熟,但其僅適用于汽車制造、紡織、包裝等行業(yè)中單一重復性的生產(chǎn)工作。而人形機器人作為智能機器人的具象化,其在“擬人”之下更為核心的價值在于通用性,更高的通用性則要求其要具備更高的感知、執(zhí)行、決策和認知能力,以減少對人工指令的依賴,提升對更復雜的非結(jié)構(gòu)化環(huán)境大模型+機器人是AI重要落地場景,大模型的泛化能力為通用人形機器人的發(fā)展帶來曙光。模型泛化能力(Generlisation)是機器學習和人工智能領域評判模型性能的重要指標之一,其可以理解為一種遷移學習的能力,即把從過去的經(jīng)驗中學習到的表示、知識和策略應用到新領域的能力。以往的算法模型泛化能力較低,即便經(jīng)過大量訓練也難以覆蓋所有小概率邊緣場景,因此通常僅被用在特定的應用場景,難以進行應用場景的拓展。而大模型憑借其龐大的知識庫和強大的理解能力所帶來的泛化能力,賦予了人形機器人更高的通用性,使其能夠滿足不同場景下的多樣化任務需求;同時大模型的輔助編程等功能還能有效降低軟件開發(fā)成本,有望加速人形機器人商業(yè)化落地。資料來源:《State-of-the-artgeneralisationresearchinNLP:Ataxonomyandreview》、西部證券研發(fā)中心星”問題。自大模型流行至今,谷歌、微軟、英偉達等國外科技巨頭等紛紛投入到基于大模型的具身智能的研究賽道中,相關(guān)理論和技術(shù)得到持續(xù)突破。我今國內(nèi)外“大模型+機器人”的最新研究成果,從初步技術(shù)框架再到具體應用落地,基于資料來源:各公司官網(wǎng)、西部證券研發(fā)中心整理2.2.1ChatGPTforRobotics:大模型賦能機器人任務需要工程師在循環(huán)中編寫復雜的代碼并不斷進行迭代改進,但ChatGPT能夠基于自然語言指令采取響應行動或是完成自動化決策。接入ChatGPT后需構(gòu)建底層庫函數(shù)及其描述,機器人就能基于底層函數(shù)來編寫代碼完成相關(guān)任務,從而資料來源:《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》,西部證券研發(fā)中心資料來源:《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》,西部證券研發(fā)中心報告提出了一種提示工程設計原則和創(chuàng)建高級功能庫的策略,使得ChatGPT能夠適應不同的機器人任務。其具體步驟如下1)定義機器人功能庫函數(shù),比如實現(xiàn)檢測物體、資料來源:《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》,西部證券研發(fā)中心2.2.2PaLM-E:具身多模態(tài)視覺語言模型,是具身智能領域的一次重大飛躍PaLM-E采用端到端訓練,具有很強的泛化和遷移能力。其主要架構(gòu)思想是將連續(xù)的、可感知的觀察數(shù)據(jù)(如圖像、語言、狀態(tài)預測或其他傳感器數(shù)據(jù)等)注入到預訓練的大語言模型的嵌入空間內(nèi),使用編碼器提取特征,再通過映射器對齊特征,最終得到一系列相同緯度的Token,從而實現(xiàn)推理和訓練,整個過程并不需要對場景的表示進行任何資料來源:《PaLM-E:AnEmbodiedMultimodalLanguageModel》,西部證券研發(fā)中心PaLM-E在具有挑戰(zhàn)性和多樣化的移動操作任務中性能表現(xiàn)優(yōu)異。在引導真實機器人執(zhí)人找到抽屜,打開抽屜并成功拿出薯片,即便在人為地干擾下依舊能夠成功完成任務,資料來源:《PaLM-E:AnEmbodiedMultimodalLanguageModel》,西部證券研發(fā)中心2.2.3RT-2:全球首個VLA多模態(tài)大模型,能夠理解視覺輸入,機器人模型里程碑控制機器人的視覺-語言-動作(Vision-Language-Action,VLA)模型,該模型能夠從網(wǎng)絡和機器人數(shù)據(jù)中學習知識,并將這些知識轉(zhuǎn)化為機器人控制的通用指令。-語言模型(VLMs)為基礎,將一個或多個圖像作為輸入,并生成一系列通常代表自然的機器人數(shù)據(jù)的語義和視覺理解,包括解釋新命令并通過執(zhí)行基本推理來響應用戶命令。視覺-語言模型(VLMs)可以轉(zhuǎn)變?yōu)楦鼜姶蟮囊曈X-語言-動作(VLA)模型,通過將VLM預訓練與機器人數(shù)據(jù)相結(jié)合,能夠?qū)崿F(xiàn)機器人的控制,使其完成推理、解決問題、解釋資料來源:《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticContro》,l西部證券研發(fā)中心機器人,能夠在無需額外數(shù)據(jù)和訓練的情況下將復雜指令轉(zhuǎn)化為具體的行動規(guī)劃。該操作指示地圖標記了“在哪里行動”以及“如何行3)控制:將操作指示地圖輸入至動作規(guī)劃器中,以合成機器人最終需要執(zhí)行的操作軌跡?;?,有效解決了機器人訓練數(shù)據(jù)稀缺的問題,從而實現(xiàn)零樣本的日常操作任務軌跡合成。資料來源:《VoxPoser:Composable3DValueMapsforRoboticManipulationwithLanguageModels》,西部證券研發(fā)中心2.2.5RoboAgent:實現(xiàn)通用機器人小數(shù)據(jù)集的快速訓練包括上茶、物品拾取、烘焙、清潔廚房等日常任務。RoboAgent具有超高的智能化程度,可以通過圖像和語言等對其進行控制。研究人員提出了多任務動作分塊Transformer(MT-ACT)架構(gòu),通過語義增強和高效的策略表示來訓練機器人并依靠網(wǎng)絡免費數(shù)據(jù)來進行學習,這極大拓寬了機器人在家庭、醫(yī)院和其他資料來源:《RoboAgent:GeneralizationandEfficiencyinRobotManipulationviaSemanticAugmentationsandActionChunking》,西部證券研發(fā)中心RT-X由基于Transfomer的RT-1-X和視覺-語言-動作模型RT-2-X組成。OpenX-器人數(shù)據(jù),包括了超100萬個場景的500余種技能、15萬項任務。得益于OpenX-多非結(jié)構(gòu)化的應用場景并完成特定的任務,比如倉庫搬運、防爆救險、家庭護理等。構(gòu)建一個包含各種機器人示范的數(shù)據(jù)集是訓練通用型模型的關(guān)鍵步驟,因此OpenX-Embodiment數(shù)據(jù)集對通用型機器模型的3倍,且機器人可理解的動作指令從絕對位置(如桌子的左上角)拓展至相對位資料來源:《OpenX-Embodiment:RoboticLearningDatasetsandRT-XModels》,西部證券研發(fā)中心Eureka系統(tǒng)采用動態(tài)可解釋教學(DIET)的訓練流程,大幅提高了訓練效率并縮短了開發(fā)周期。在該過程中,機器人的行動會被記錄和分析并用于動作調(diào)整,從而能夠使機資料來源:《Eureka:Human-LevelRewardDesignViaCodingLargeLanguageModels》、西部證券研發(fā)中心2.2.8RobotGPT:ChatGPT運用于機器人的框架討ChatGPT在機器人操控中的應用。該系統(tǒng)將環(huán)境線索轉(zhuǎn)換為自然語言,使得種角色。首先,決策機器人基于提示生成相應的可執(zhí)行代碼并逐行進行執(zhí)行,若運行出現(xiàn)錯誤則提供錯誤原因以及發(fā)生錯誤的代碼行以便進行修改,直到代碼能夠成功運行;不能通過EvalCode測試,糾正機器人將正;最后,滿足評估條件的代碼將用于生成演示數(shù)據(jù)。經(jīng)過訓練,訓練有素的智能體可資料來源:《RobotGPT:RobotManipulationLearningfromChatGPT》,西部證券研發(fā)中心覺神經(jīng)網(wǎng)絡進行精準操控,通過神經(jīng)網(wǎng)絡接收圖像輸入并發(fā)出精確指令,從而控制駕駛、示的高質(zhì)量、多樣化數(shù)據(jù)集以進行不同人物場景的機器人訓練,涵蓋清潔整理、物品拾地區(qū)投入商業(yè)化應用;雙足人形機器人NEO則仍在研發(fā)階段,預計將于2024年正式發(fā)資料來源:YouTube,西部證券研發(fā)中心資料來源:YouTube,西部證券研發(fā)中心2.2.10Figure01:能聽、能說、能自主決策的人形機時內(nèi)學會制作咖啡的技能,且會自我糾錯,比如咖啡控制的情況下能夠進行自主學習和自主決策,理解人類自然語言命令并流暢地完成向人類遞蘋果、將黑色塑料袋收拾進筐子里、將杯子和到的圖像以及機載麥克風捕獲到的語音等輸入到由OpenAI訓練的多模態(tài)大模型中,再由大模型對這些圖像和語音進行處理并通過文本到語音的方式反饋給人類;在此環(huán)節(jié)中,行響應策略并完成給定任務。據(jù)Figure的工程師介紹,在多模態(tài)大模型的加持下Figure01目前可以完成描述視覺體驗、規(guī)劃未來行動、反思自身記憶以及闡述推理過資料來源:新智元微信公眾號、西部證券研發(fā)中心示視頻,能根據(jù)收集到的空間定位和語義信息,理解任務并規(guī)劃,再配合其機械臂與靈巧手的精確操作,端到端地執(zhí)行任務。WalkerS在獲得人類指令后,自主規(guī)劃和執(zhí)行疊衣服,并遞給人類。特斯拉擎天柱此前也完成了一次靈巧疊衣服的任務,不過那仍是人類遠程操作的。未來人形機器人要解決和完成更多任務,依然需要自主規(guī)劃和實現(xiàn)任務資料來源:深圳發(fā)布微信公眾號、優(yōu)必選科技視頻號、西部證券研發(fā)中心2.2.11GR00T——通用人形機器人基礎模型GR00T可充當機器人的大腦,使其能夠?qū)W習技能以解決各種任務。GR00T能夠驅(qū)使機器人理解自然語言、視頻和人類演示等多模態(tài)指令,從而增強學習技能和處理任務的協(xié)并部署到JetsonThor上。目Apptronik、BostonDynamics、FigureAI、FourierIntelligence、資料來源:GTC2024、西部證券研發(fā)中心資料來源:GTC2024、西部證券研發(fā)中心2)機器人大模型:科大訊飛、商湯-W、云從科技-UW。人形機器人技術(shù)發(fā)展不及預期。人形機器人技術(shù)的發(fā)展面臨著多重挑戰(zhàn),包括但不限于動力系統(tǒng)穩(wěn)定性、感知與交互技術(shù)的精確度、人工智能算法的復雜決策能力以及自主導航和適應性學習等關(guān)鍵技術(shù)瓶頸。這些問題的解決速度和成果直接影響到機器人能否按政策法規(guī)環(huán)境不確定風險。隨著人形機器人技術(shù)的快速發(fā)展,現(xiàn)行法律法規(guī)可能尚未跟上技術(shù)進步的步伐,導致在隱私保護、安全性標準、倫理道德約束以及知識產(chǎn)權(quán)保護等供應鏈與制造成本上升風險。人形機器人零部件供應的穩(wěn)定性、核心部件(如伺服電機、傳感器、控制器等)以及新材料和先進制造技術(shù)的普及程度,都可能對機器人整體成本國際競爭加劇與技術(shù)替代風險。在全球范圍內(nèi),人形機器人產(chǎn)業(yè)的競爭日趨白熱化,技術(shù)創(chuàng)新速度快慢、競品出現(xiàn)以及其它形式的服務機器人或自動化解決方案的興起,都有可能擠壓人形機器人市場份額,導致前期投資回報率下降。此外,隨著技術(shù)演進,可能公司評級報告中所涉及的投資評級采用相對評級體系,基于報告發(fā)布日后6-12個月內(nèi)公司股本人具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格并注冊為證券分析師,以勤勉的職業(yè)態(tài)度、專業(yè)審慎的研究方法,使用合法合規(guī)的信息,獨立、客觀地出具本報告。本報告清晰準確地反映了本人的研究觀點。本人不曾因,不因,也將不會因本報告中的具體推本報告由西部證券股份有限公司(已具備中國證監(jiān)會批復的證券投資咨詢業(yè)務資格)制作。機構(gòu)客戶使用。本報告在未經(jīng)本公司公開披露或者同意披露前,系本公司機密材料,如非收件人(或收到的電子郵件含錯誤信息請立即通知發(fā)件人,及時刪除該郵件及所附報告并予以保密。發(fā)送本報告的電子郵件可能含有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論