空間計算發(fā)展報告(2024年)-元宇宙標準化工作組_第1頁
空間計算發(fā)展報告(2024年)-元宇宙標準化工作組_第2頁
空間計算發(fā)展報告(2024年)-元宇宙標準化工作組_第3頁
空間計算發(fā)展報告(2024年)-元宇宙標準化工作組_第4頁
空間計算發(fā)展報告(2024年)-元宇宙標準化工作組_第5頁
已閱讀5頁,還剩289頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

空間計算發(fā)展報告(2024年)元宇宙標準化工作組中國電子工業(yè)標準化技術協(xié)會元宇宙工作委員會二0二四年十二月空間計算發(fā)展報告(2024年)元宇宙標準化工作組中國電子工業(yè)標準化技術協(xié)會元宇宙工作委員會二0二四年十二月 空間計算發(fā)展報告(2024)主編范書建副主編范科峰喬秀全編寫單位(排名不分先后)北京郵電大學中國電子技術標準化研究院咪咕文化科技有限公司中興通訊股份有限公司杭州靈伴科技有限公司北京微視威信息科技有限公司合肥靈伴科技有限公司中國電信股份有限公司全渠道運營中心中電萬維信息技術有限責任公司寧夏盛天彩數(shù)字科技股份有限公司北斗天地股份有限公司浙江大學聯(lián)想新視界(北京)科技有限公司上海浦江數(shù)鏈數(shù)字科技有限公司北京工業(yè)大學元宇宙云圖智能研究院北京津發(fā)科技股份有限公司深圳大學中數(shù)碳本(廈門)元宇宙科技有限公司桂林電子科技大學西北工業(yè)大學憨猴科技集團有限公司四川物通科技有限公司北京數(shù)原數(shù)字化城市研究中心北京飛天云動科技有限公司北京大學北京星漢云圖文化科技有限公司長三角數(shù)鏈(上海)網絡基礎設施有限公司杭州趣鏈科技有限公司杭州高新區(qū)(濱江)區(qū)塊鏈與數(shù)據安全研究院歌爾股份有限公司編寫人員(排名不分先后)王志鵬楊夢培王典威黃亞坤侯文君商彥磊陳勇白冰胡天瑞高雨澤陳春明施文哲王俊杰蓋孟張旭馬國祖許德剛張兵劉彥賓王春生侯文婧逯峰趙起超陳曉豐田日輝第伍文博劉毅敏王芮瑩李鑫李廣何偉孫曉田蔣明汪磊高澤龍裴熬安成曹偉匡立中石磊柯肇豐吳祖賢孫琳彭濤謝吉磊毛超逸王曉穎周子茗曾夢露吳經文張軒銘龐建青張倩袁梁羅翼鵬于智張晴賈祥娟魏遵博劉祥德王敏于洋空間計算是繼PC桌面計算、移動計算之后的一種虛實融合的“感知-通信-計算-交互”一體化的新型計算范式,通過對物理空間、用戶空間和信息空間的多模態(tài)感知、三維建模與虛實融合,實現(xiàn)虛擬信息基于物理場景和以用戶為中心的沉浸式體驗與實時動態(tài)交互??臻g計算是元宇宙的核心關鍵支撐技術,已經成為世界各主要大國重點關注的新興戰(zhàn)略性技空間計算融合了傳感器技術、人工智能、計算機視覺、先進網絡等眾多前沿領域的成果,為我們帶來了前所未有的沉浸式交互體驗。它不再局限于傳統(tǒng)的二維平面交互,而是將我們帶入一個三維沉浸式的虛實融合空間。未來以XR終端為主的空間計算時代,算力、人工智能與網絡通信技術將更加關鍵。特別是沉浸式通信已經成為6G的主要應用場景之一,6G將為空間計算技術的發(fā)展在通信、感知、計算等方面提供堅實支撐,成為空間計算發(fā)展的強大背景和綜合生態(tài)系統(tǒng),為空間計算技術創(chuàng)新和應用拓隨著XR眼鏡技術的不斷升級和普適化推廣,空間計算的應用場景將日益廣泛,可以廣泛應用到工業(yè)、文旅、教育、醫(yī)療等行業(yè)。本報告深入分析了空間計算的發(fā)展現(xiàn)狀、涉及的關鍵技術、產業(yè)發(fā)展動態(tài)、行業(yè)應用情況、國內外標準制定情況、以及面臨的挑戰(zhàn)和未來的發(fā)展趨勢,旨在為空間計算領域的研究者、開發(fā)者和決策者提供有價值的參考。讓我們共同期待空間計算為我們的生活帶來更多的驚喜與變革,引領我們走向一個更北京郵電大學網絡與交換技術全國重點實驗 空間計算發(fā)展報告(2024)錄空間計算發(fā)展報告(2024) 空間計算發(fā)展報告(2024)空間計算發(fā)展報告(2024) 空間計算發(fā)展報告(2024)附錄1:《空間計算發(fā)展報告(2024年)》術語定義 …105附錄2:《空間計算發(fā)展報告(2024年)》參考文獻 附錄3:空間計算典型應用案例 …121 空間計算發(fā)展報告(2024)讓計算系統(tǒng)能夠理解、模擬和增強物理空間?;仡櫽嬎慵夹g的發(fā)大致經歷了從PC桌面計算到智能手機移動計算,再到以XR終端為主的空間計算時代的發(fā)展歷程。伴隨著人機交互技術的變革、劃時代終端的出現(xiàn)以及新型網絡技術的演進升級,每個階段都極大地擴展了計算的能力和應用這是早期的計算機計算范式,主要特點是用戶需要在固定的位置使用計算機,如個人臺式電腦(PC),核心技術是中央處理器(CPU)和存儲技術,確保了較強的計算和數(shù)據存儲能力。PC桌面計算為信息處理和辦公提供了強大的支持,但受限于物理空間和設備攜帶不便。PC時代的計算集中在二維模式下,人機交互方式主要局限于鍵盤和鼠標,終端對物理環(huán)境的感知能力弱,難以對物理空間進行有效感知和計算,導致物理空隨著技術的發(fā)展,計算機開始小型化,滿足了商務人士對便攜性的需求,這一階段的主要代表是筆記本電腦。隨著3G/4G/5G移動通信技術的發(fā)展、智能手機和平板電腦的普及,人類真正進入到了移動計算的時代,計算從固定的桌面環(huán)境轉移到更加靈活的移動場景中。移動計算使得用戶可以在不同的地點進行隨時隨地的工作和學習,極大地提高了工作效率和生活的便利性。移動設備(特別是智能手機、平板)集成了多種傳感2空間計算發(fā)展報告(2024)器(如攝像頭、加速計、GPS等),一定程度上增強了對環(huán)境的感知能力(特別是位置能力)。隨著2017年開始蘋果和Google先后推出了移動增限于基于觸摸屏的人機交互技術的局限,用戶的沉浸感體驗不強。沉浸式代計算范式,不再局限于實體屏幕,而是在真實的物理空間中,通過擴展提供更加沉浸式的虛實融合體驗??臻g計算技術標志著計算不再僅是功能性的處理工具,還是人與物理世界、虛擬世界之間的橋梁??臻g計算依賴于高精度的傳感器、攝像頭和算法(如深度學習和計算機視覺技術),能夠實現(xiàn)高精度的三維重建和實時人機交互,用戶通過手勢、語音、眼動、腦機接口等方式與虛擬物體交互,沉浸感和空間感知進一步增強。未來以XR終端為主的空間計算時代,算力、人工智能與網絡通信技術將更加關鍵,下一代XR終端的發(fā)展將是一個融合了硬件、網絡、算力和算法的全新階段,硬件、網絡、算力和算法緊密相連,共同推動空間計算技術的發(fā)展。特別是沉浸式通信已經成為6G的主要應用場景之一,6G將為空間計算技術的發(fā)展在通信、感知、計算等方面提供堅實支撐,成為空間計算發(fā)廣義的空間計算指的是計算機對空間數(shù)據和空間關系的處理和分析能力,涉及空間數(shù)據的獲取、管理、處理和理解與空間位置相關的信息。空間計算的涵蓋范圍非常廣泛,比如最早的全球定位系統(tǒng)、虛擬現(xiàn)實/增強 空間計算發(fā)展報告(2024)狹義的空間計算是指繼桌面計算、移動計算之后的一種虛實融合的“感知-通信-計算-交互”一體化的新型計算范式,通過對物理空間、用戶空間和信息空間的多模態(tài)感知、三維建模與虛實融合,實現(xiàn)虛擬信息基于物理場景和以用戶為中心的沉浸式呈現(xiàn)與實時動態(tài)交互。空間計算是元宇宙的入口關鍵技術,主要關注如何通過信息技術將物理世界與數(shù)字世界深度耦合,使得虛擬與物理對象之間的交互自然高效,同時具備感知空間關系與語義推理的能力??臻g計算不僅涉及空間數(shù)據的采集、處理和建模,還涵蓋了時間、位置和環(huán)境等多維度信息的集成分析,能夠感知和理解用戶周圍的空間,并將數(shù)字內容與現(xiàn)實場景相互交織。隨著移動XR終端的逐漸成熟,空間計算正助推移動互聯(lián)網從現(xiàn)有平面交互式應用形態(tài)向空間三維立體式應用形態(tài)轉型升級,逐漸成為下一代數(shù)字經濟和智本報告主要聚焦狹義的空間計算概念,下圖為狹義的空間計算概念的空間計算應用空間計算應用文旅文旅工業(yè)商業(yè)教育娛樂辦公地產醫(yī)療三維裸眼顯示終端空間計算服務平臺可穿戴交互設備XR終端技術(硬件/軟件)三維裸眼顯示終端空間計算服務平臺可穿戴交互設備XR終端技術(硬件/軟件)空間信息采集終端空間計算共性關鍵技術空間計算終端/平臺多模態(tài)人機交互技術空間數(shù)據管理技術空間建模技術多模態(tài)人機交互技術空間數(shù)據管理技術空間建模技術空間感知與定位技術人工智能技術物聯(lián)感知技術專用芯片人工智能技術物聯(lián)感知技術專用芯片技術網絡和通信技術算力資源三維引擎技術三維渲染技術空間計算基礎支撐技術圖1狹義的空間計算概念的技術體系空間計算發(fā)展報告(2024)4空間計算是一項不斷發(fā)展的新興技術,它旨在融合數(shù)字世界和物理世二維平面向三維空間進化,可以廣泛應用于工業(yè)、文旅、商業(yè)、教育、醫(yī)空間計算在工業(yè)行業(yè)中的應用能夠帶來生產效率的提升,為企業(yè)降低成本。例如,以空間計算為基礎的增強現(xiàn)實(AR)可將2D或3D信息疊加到真實物體和現(xiàn)實環(huán)境中,實時獲取裝配和維修指導,從而顯著減少誤操作和培訓成本,在遇到現(xiàn)場作業(yè)人員無法解決的情況時,可以借助AR向遠程專家尋求協(xié)助。此外,數(shù)字孿生技術也正在被廣泛采用,利用虛擬工廠模型與現(xiàn)實世界中的工廠實時同步,管理人員可以遠程監(jiān)控生產線,進行預測性維護并優(yōu)化生產流程。這些技術不僅降低了停機時間,極大提高了工廠資源利用率。在裝備制造業(yè),汽車制造業(yè),能源行業(yè)等諸多工業(yè)行空間計算正深度融合文旅產業(yè),重塑產業(yè)結構與游客體驗。在旅游景點方面,借助三維重建技術,可以將旅游景點復刻到虛擬世界中,用戶可以足不出戶感受世界各地的著名景點的魅力。VR大空間技術的應用,能夠為游客打造更加沉浸式的虛擬游覽體驗。游客仿佛置身于一個巨大的虛擬空間中,周圍的景物栩栩如生,帶來前所未有的震撼感受。空間計算技術還可以為游客提供景點實時AR導航導覽服務。虛擬數(shù)字人導游以擬人化形象進行語音和AR講解,增加游覽的趣味性和社交性。在數(shù)字化文博領域,博物館可以通過空間計算技術進行數(shù)字化升級,實現(xiàn)3D復原與互 空間計算發(fā)展報告(2024)動展示。這為文化傳承、教育、互動體驗等方面提供了新的可能性,對于推動博物館的發(fā)展和文化遺產的傳承具有重要意義??臻g計算技術為歷史文化和現(xiàn)代旅游景點提供了全新的呈現(xiàn)形式和服務形態(tài),在元宇宙概念的在商業(yè)領域,空間計算正深刻改變商業(yè)的運營模式??臻g計算技術在零售業(yè)推動了場景數(shù)字化,沉浸式的購物體驗。空間計算助力品牌推出數(shù)字藏品形式的虛擬商品,增強品牌的數(shù)字世界的影響力,擴展品牌市場。商場和線上平臺也開始使用AR來增強購物體驗,例如,商場通過AR應用為顧客提供室內導航,通過AR紅包或者優(yōu)惠券等互動形式的廣告營銷活動,并引導顧客到特定商鋪進行消費,增加了營銷內容的趣味性,達到吸空間計算為教育和職業(yè)培訓帶來了創(chuàng)新的教學方式,可以促進教學方式的變革。通過VR和AR,學生可以體驗到沉浸式學習,例如,在虛擬環(huán)境中探訪歷史遺址,模擬化學實驗,或者學習復雜的機械原理。教師可以利用AR技術展示復雜的概念和模型,如解剖學等,增強學生對學習內容的理解。對于職業(yè)培訓,特別是那些存在高風險的工作,如飛行員訓練,VR技術還可以為他們提供虛擬訓練環(huán)境,讓他們在安全的虛擬世界中進行學習,減少了實際訓練的成本和風險??臻g計算技術助力學生和教師可以在虛實融合或者完全虛擬的環(huán)境中進行多人實時互動,打破物理空間限空間計算在醫(yī)療領域的應用正在迅速發(fā)展,借助增強現(xiàn)實(AR)、空間計算發(fā)展報告(2024)6虛擬現(xiàn)實(VR)、混合現(xiàn)實(MR)和AI技術,可以極大地改善醫(yī)療服務的效率和質量。主要應用在醫(yī)學培訓與教育、遠程醫(yī)療與咨詢、康復與治療、患者體驗與溝通等方面。例如,通過分析患者的醫(yī)學影像(如CT或MRI),創(chuàng)建3D模型,幫助醫(yī)生制定最佳手術方案,可以進行手術前規(guī)劃。在實際手術中,使用AR技術實時疊加患者的解剖結構,幫助醫(yī)生進行精確定位,這種方法已經在神經外科和骨科等領域取得成功。在遠程醫(yī)療與咨詢方面,該技術可以用于虛擬會診。醫(yī)生和患者可以通過AR/VR技術進行遠程會診,醫(yī)生可以在虛擬環(huán)境中與患者互動,展示病情和治療方在房地產行業(yè),空間計算同樣帶來了深刻的變革。借助虛擬現(xiàn)實技術,購房者或者租房者可以在線選擇房源實現(xiàn)虛擬看房,遠程參深入了解房間布局和裝修效果,提升購房或租房決策的效率與準確性??臻g計算也極大推動了室內設計的發(fā)展,設計師可以通過增強現(xiàn)實(AR)在現(xiàn)實環(huán)境中實時展示家具和裝飾品的擺放效果,幫助客戶直觀地看到裝修后的效果,客戶通過空間計算技術查看不同的裝修風格和家具擺放,從空間計算同樣正在深刻改變娛樂行業(yè)內容制作、互動體驗與觀眾參與方式,增強現(xiàn)實(AR)與虛擬現(xiàn)實(VR)與混合現(xiàn)實技術的應用,虛擬與現(xiàn)實的界限變得逐漸模糊,為用戶提供更加沉浸式、個性化、交互性強的娛樂體驗,如在體育賽事轉播領域空間計算增強了體育賽事的沉浸式觀看體驗,為觀眾提供實時數(shù)據、虛擬視角和互動功能,具有身臨其境的感覺。在數(shù)字游戲領域,空間計算正在逐漸變革電子游戲的形式,提供更加沉浸真實的游戲體驗??臻g計算正在推動娛樂行業(yè)進入一個沉浸式和互動 空間計算發(fā)展報告(2024)化的新時代。通過AR、VR、全息影像和虛擬場景,用戶的參與感和娛樂體驗將變得前所未有地豐富。未來,隨著元宇宙和跨平臺生態(tài)的構建,娛空間計算將在廣電行業(yè)中發(fā)揮重要的作用,對廣電行業(yè)的發(fā)展具有深遠的意義??臻g計算技術不僅提升了內容創(chuàng)意與生產水平,還為用戶帶來更豐富的沉浸式視頻體驗,同時推動廣電技術創(chuàng)新與產業(yè)升級。在節(jié)目制作過程,利用空間計算技術,廣電行業(yè)可以實現(xiàn)快速、準確的三維為賽事直播、娛樂節(jié)目、新聞制作等領域提供了更豐富的視覺元素,增強內容的吸引力和用戶沉浸感。同時空間計算技術可以突破演播室的空間限制,實現(xiàn)AI實景融合,讓節(jié)目制作更加靈活多樣。通過空間計算技術實現(xiàn)智能制播,廣電行業(yè)可以高效地完成內容制作、分發(fā)和播放,提供工作效率和內容質量。在節(jié)目呈現(xiàn)方面,空間計算技術為廣電行業(yè)用戶帶來更加逼真的沉浸式互動體驗。隨著空間計算技術與人工智能、大數(shù)據等先進技術相結合,將可為廣電行業(yè)的智能化、個性化發(fā)展提供更強的技術(四)空間計算發(fā)展趨勢空間計算作為連接和融合數(shù)字空間與現(xiàn)實世界的關鍵技術,正在重塑人類與數(shù)字世界的交互方式,其發(fā)展前景廣闊,將對未來社會產生深遠影空間計算通常被認為是元宇宙的核心關鍵技術。全球知名IT研究與顧問咨詢機構高德納公司預測到2033年,空間計算的全球市場規(guī)模將增長空間計算發(fā)展報告(2024)8隨著空間計算技術的不斷發(fā)展,設備正在不斷更新?lián)Q代。目前,傳統(tǒng)的電腦和手機在人們生活中仍然占據重要地位,但空間計算的出現(xiàn)為用戶帶來了全新的交互體驗,XR/AI眼鏡等可穿戴設備在未來2-3年會逐漸成勢,可輕松佩戴,隨時隨地使用,滿足用戶在移動場景下的沉浸式體驗需求。同時,其自然交互方式更加直觀、便捷,通過手勢、語音、眼動等與用戶互動,提升了用戶體驗。預計大概2027年輕薄化智能AR眼鏡逐漸會成熟,2030年以后有可能逐步替代手機成為未來6G時代的新一代沉浸式2023年6月ITU將沉浸式通信正式確定為6G的主要業(yè)務場景之一。通信技術的不斷升級是空間計算發(fā)展的重要推動力,從5G到6G的演進將為空間計算帶來更強大的網絡支持。6G將提供更高的帶寬,使得空間計算設備能夠更加流暢地傳輸大量的圖像、音頻和數(shù)據,滿足虛擬現(xiàn)實和增強現(xiàn)實等應用對大規(guī)模數(shù)據傳輸?shù)男枨蟆8偷难舆t將極大地提升空間計算設備的實時交互性能,確保用戶操作及時得到響應,提高交互的流暢性和準確性,為遠程手術等對實時性要求極高的應用提供有力支持。更強大的連接能力將拓展空間計算的應用場景,支持更多設備連接和協(xié)作,實現(xiàn)設破,還為用戶帶來了全新的視覺和交互體驗。其可調節(jié)的特性,能夠滿足 空間計算發(fā)展報告(2024)不同用戶的需求,無論是在觀看視頻、玩游戲還是進行辦公等場景下,都備也將變得更加輕薄,佩戴更加舒適,同時功能也將不斷增強,為用戶帶Rokid、Xreal、小派科技、Pico為用戶提供了沉浸式的娛樂和辦公體驗,未來會采用更輕薄的光波導方案,為用戶提供更輕薄的體驗。小派科技則在VR頭顯領域取得了顯著的AR+AI大模型的融合為空間計算領域帶來了新的發(fā)展機遇。雷朋眼鏡是AI技術與時尚元素相結合的產物,它不僅具備時尚的外觀設計,還集成了先進的AI技術。用戶可以通過雷朋眼鏡獲取實時的信息提市場。AR+AI大模型融合的輕薄化眼鏡將成為未來真正的市場主流,有望在空間計算領域,軟件也在不斷發(fā)展。蘋果發(fā)布的VisionPro為整個行業(yè)樹立了新的標桿,帶動了相關產業(yè)鏈的發(fā)展。蘋果將空間計算視為未來科技發(fā)展的重要方向,通過其強大的生態(tài)系統(tǒng)和技術實力,推動空間計算在消費市場的普及。微軟也在空間計算領域積極布局,為MicrosoftTeams上的高級會議創(chuàng)建空間音頻解決方案,提升遠程協(xié)作的效率和體驗。亞馬遜則通過其云計算服務AWS,為空間計算應用提供強大的算力支持。這些科技巨頭的布局將進一步推動空間計算技術的創(chuàng)新和空間計算發(fā)展報告(2024)空間計算的軟件生態(tài)正在不斷豐富和完善。未來,空間計算軟件會更加注重用戶體驗,通過不斷創(chuàng)新的人機交互方式和功能,為用戶提供更沉浸式的體驗。例如,軟件可能會進一步優(yōu)化手勢識別和空間音頻技術,使用戶在與數(shù)字內容互動時更加自然和流暢。同時,軟件可能會與人工智能技術深度融合,實現(xiàn)更智能的場景識別和交互推薦,為用戶提供個性化的宇宙”新賽道行動方案中明確支持空間計算技術,深圳市在數(shù)字經濟發(fā)展規(guī)劃中也將其列為重點發(fā)展領域,并通過設立專項科研基金和產業(yè)扶持資金等方式鼓勵企業(yè)和科研機構開展研發(fā)和應用。預計未來會有更多地區(qū)和國家層面出臺具體政策支持其發(fā)展,一方面加大對技術研發(fā)的投入,提高我國自主創(chuàng)新能力;另一方面鼓勵在各行業(yè)應用推廣,制定行業(yè)標準和規(guī)國際上,美國白宮科技政策辦公室于2024年2月首次將空間計算納入科技創(chuàng)新戰(zhàn)略布局,并列入先進計算領域《關鍵和新興技術清單》以強調其對維系美國國家安全優(yōu)勢的重要性,并與先進超級計算(含AI)、先進云服務、邊緣計算等核心技術并列。聯(lián)邦政府通過美國國家科學基金會資助相關項目,地方政府也積極提供贈款、稅收優(yōu)惠并創(chuàng)建創(chuàng)新研究中心。美國國防部是空間計算技術的重要推動力量,美國國家標準與技術研究所參與制定關鍵技術標準。此外,日本、韓國等部分科技發(fā)達國家也在積極目前,空間計算產業(yè)鏈已經初步形成了硬件、軟件、內容和服務等環(huán)節(jié)的協(xié)同發(fā)展態(tài)勢。在硬件方面,芯片廠商、傳感器廠商、顯示面板廠 空間計算發(fā)展報告(2024)商等不斷推出高性能的產品,為空間計算設備的發(fā)展提供了基礎支持。例如,高通、英特爾等芯片廠商推出的專門用于空間計算設備的芯片,提高了設備的計算能力和圖形處理能力。在軟件方面,操作系統(tǒng)廠商、軟件開空間計算技術的生態(tài)系統(tǒng)正在逐步形成。科技巨頭如Meta、蘋果、谷歌、微軟等紛紛布局空間計算領域,推出了自己的產品和平臺,吸引了眾多開發(fā)者和合作伙伴的加入。同時,一些專注于空間計算技術的創(chuàng)業(yè)公司也不斷涌現(xiàn),為生態(tài)系統(tǒng)的發(fā)展注入了新的活力。未來,空間計算生態(tài)系統(tǒng)將不斷完善和發(fā)展。一方面,隨著技術的不斷進步,生態(tài)系統(tǒng)中的技術標準和規(guī)范將不斷完善,提高不同企業(yè)產品之間的兼容性和互操作性。另一方面,生態(tài)系統(tǒng)中的參與者將更加多元化,除了科技企業(yè)和還將吸引更多的行業(yè)用戶、投資者、政府機構等參與其中,共同推動空間 空間計算發(fā)展報告(2024)空間計算作為下一代計算平臺的核心技術,正深刻改變人們的生活和設備,作為空間計算技術的重要硬件載體,通過創(chuàng)造沉浸式、互動性的數(shù)字體驗,模糊了現(xiàn)實與虛擬的界限。這一技術進步不僅在消費電子領域引發(fā)了革命性變化,也在醫(yī)療、教育、工業(yè)等多個行業(yè)展現(xiàn)出巨大的應用潛空間計算XR終端設備可分為光學透視(OST,OpticalSee-現(xiàn)實世界呈現(xiàn)方式的不同。OST技術通過透明或半透明光學合成器直接顯示現(xiàn)實世界,虛擬信息疊加于視野中,實現(xiàn)虛擬與現(xiàn)實的融合。OST設備呈現(xiàn)的現(xiàn)實世界是真實的,虛擬元素不會完全遮擋現(xiàn)實場景,虛擬與真實物體可在同一視場并存,提供增強現(xiàn)實效果。OST在亮度、分辨率、延遲等方面具優(yōu)勢,但受限于光學技術,色彩表現(xiàn)和虛實融合存在挑戰(zhàn)。OST類似在普通眼鏡上加裝“投影儀”,通過混合光源增強現(xiàn)實體術通過相機捕捉現(xiàn)實世界圖像并顯示在不透明屏幕上,虛擬信息與現(xiàn)實圖像結合,實現(xiàn)增強現(xiàn)實效果。VST不受物理光學限制,完全依賴軟件算法疊加虛擬信息,支持用戶與虛擬物體互動。VST能精確控制虛擬物體的遮擋和深度感知,確保其與現(xiàn)實物體正確互動,并可實時優(yōu)化圖像質量。盡管VST具有靈活性,但面臨圖像延遲、視覺差異和配準問題等挑戰(zhàn)。高成本硬件和圖像失真問題仍需技術創(chuàng)新解決,以提升AR體驗的流暢性與自空間計算發(fā)展報告(2024)從設備形態(tài)來看,空間計算XR設備可分為一體式和分體式兩種設計。分體式設備注重佩戴舒適性,將顯示單元與計算單元分開,優(yōu)化了重量分布和散熱問題,提升了設備的輕便性。該設計使得頭戴設備專注于高質量的顯示效果,而計算任務由外部設備(如專用空間計算主機、智能手機或個人電腦)承擔。這種分工不僅提高了佩戴舒適度,還增強了設備的靈活性,能夠根據不同場景快速切換計算平臺。分體式設備可根據使用場景細分為頭盔型、頭戴型、眼鏡型等形態(tài),同時能夠結合外部設備的高性能計算能力,為用戶提供更豐富的功能和更佳體驗。一體式設備則將計算、電池、存儲和顯示等模塊集成在一起,提供了更高的便攜性與易用性。用戶無需連接外部設備,便可隨時隨地體驗空間計算。其即插即用的特點讓用戶能快速進入虛擬世界,且通常價格較為親民,適合預算有限的用戶。然而,由于所有組件集成在同一設備內,一體式設備的圖形處理能力較分體式設備有所不足,電池續(xù)航和散熱性能也成為設計挑戰(zhàn)。盡管如此,一體式設備憑借便捷性和易用性,滿足了用戶對隨時隨地體驗空間計空間計算終端的核心在于其強大的空間計算能力,能夠實時感知物理環(huán)境并將數(shù)字信息與現(xiàn)實世界無縫融合。近年來,隨著技術的持Pro,憑借其先進技術、創(chuàng)新設計和豐富功能,為用戶帶來了全新的沉 空間計算發(fā)展報告(2024)能力,適應復雜應用場景。而R1芯片專注于實時傳感數(shù)據處理,具有高度并行性和低延遲,確保設備在各種運動狀態(tài)下的穩(wěn)定性與準確性。這種通用計算芯片與專用協(xié)處理器的聯(lián)合架構,不僅確保了畫面清晰、低延遲,還提高了設備性能的穩(wěn)定性,進而實現(xiàn)更高效、節(jié)能的運行。架構。眼鏡端通過專用協(xié)處理芯片進行位置追蹤、手勢追蹤、眼部追蹤和圖形算法等處理,而渲染與常規(guī)計算則由分體式計算模塊完成,并通過無戶提供舒適佩戴體驗,同時有效優(yōu)化散熱、性能和續(xù)航,合理分配計算負空間計算終端的另一個重要發(fā)展趨勢是自然交互。在空間計算環(huán)境中,傳統(tǒng)的鼠標和觸屏交互方式已不再適用,面對空間化、3D化的虛擬采用了先進的自然交互技術,結合計算機視覺、傳感器融合和機器學習算法。通過高精度攝像頭捕捉用戶的眼球運動和手勢,再結合語音識別技術,實現(xiàn)了無需觸摸屏幕即可完成各種操作的交互方式。這種方式不僅提升了設備的易用性和靈活性,還顯著改善了用戶體驗,使用戶能夠更沉術,通過手腕周圍的精密傳感器捕捉手部肌肉電信號,并與眼動追蹤技術結合,利用眼睛作為指針,手指捏合作為點擊動作,提供了一種直觀、自空間拍攝:空間拍攝作為新終端特性,解決了空間計算設備僅能消費拍攝富有創(chuàng)意和立體感的照片和視頻,通過空間相冊真實還原拍攝時的臨場感和沉浸感,用戶可以隨時回顧并與他人分享。為解決空間視頻和照片空間計算發(fā)展報告(2024)的視頻編碼標準應運而生。MV-HEVC是HEVC的擴展,旨在高效編碼多HEVC提高了存儲效率。同時,MV-HEVC與HEVC解碼器兼容,支持3D的設備上播放,增強了空間視頻和照片的通用性。該標準在不顯著增大文件大小的前提下,實現(xiàn)了3D視頻的高效存儲,推動了空間視頻生成式AI的迅猛發(fā)展正在重塑3D內容制作領域,成為行業(yè)變革的關鍵力量。自2022年ChatGPT引發(fā)AIGC浪潮以來,生成式AI在游戲、影視、3D打印等領域的應用持續(xù)擴大。3D生成技術的核心在于通過深度神經網絡生成物體或場景的3D模型,并通過色彩與光影增強其逼真度,主包括基礎層、資產提供層和應用層。生成式AI替代傳統(tǒng)工具,顯著降低生產成本并提高效率。傳統(tǒng)3D制作流程中,建模環(huán)節(jié)成本最高,尤其在3D游戲中,該環(huán)節(jié)研發(fā)成本可占總成本的60-70%。生成式AI能夠在各個環(huán)目前,空間計算終端仍面臨一些挑戰(zhàn)。大多數(shù)終端尚不直接支持5G網絡,依賴手機或Wi-Fi,這限制了其移動性和網絡速度,尤其在需要高速、低延遲連接的場景中。此外,優(yōu)質內容主要集中在手機和電腦等成熟終端,空間計算內容生態(tài)在生產、流通和商業(yè)化方面尚未完善。同時,終端依賴硬件進步,如高分辨率、低功耗微顯示屏、強大計算芯片、優(yōu)化光總體而言,盡管空間計算終端已快速發(fā)展并逐步成熟,但未來仍需行 空間計算發(fā)展報告(2024)空間計算實現(xiàn)了現(xiàn)實空間與數(shù)字空間的無縫融合,其中數(shù)字空間的構建涵蓋了“人、物、場”三類主要內容。構建過程涉及數(shù)據采集、數(shù)據管主要分為接觸式和非接觸式兩類方法。接觸式方法通過觸發(fā)式或連續(xù)式測量,直接采集高精度三維信息,但要求測量儀器與場景接觸,適用性有限。非接觸式方法無需接觸被測物體,通過影像分析獲取數(shù)據信息,應用范圍更廣泛。非接觸式方法進一步分為主動視覺法和被動視覺法。主動視覺法向場景發(fā)射結構光源,通過計算光源投影信息檢測目標位置,主要技術包括結構光法、TOF(Time-of-Flight)和三角測距法。被動視覺法通過傳感器接收外界光源反射信息測量三維場景,根據攝像機數(shù)量分為單-每一輪數(shù)據采集/每次行進行數(shù)據采集1)只適用于可接觸狀態(tài)2)可能錯過在觸發(fā)條件不滿足時發(fā)生的重要信息,導致數(shù)據不-不間斷數(shù)據能夠捕捉完整的時間序只適用于可接觸狀態(tài),需要更多存儲資源空間計算發(fā)展報告(2024)捕捉被測物體表面的變率和高準確或實時監(jiān)測1)光線條件對數(shù)據采2)被測物體的表面紋理特征會影響測量效果通過光或其他信號從發(fā)射到返回的時間來獲取景下的實時1)光線條件會影響測2)多個反射面或障礙物的環(huán)境會影響測量測量兩個已知點之間的角,利用三角形的幾何原理來計算度和距離實現(xiàn)高精度的工具相對簡單1)要求測量點之間有2)角度測量的微小誤使用單個相機進行數(shù)據理捕獲的圖1)只有一個視角,無2)需要復雜的圖像處理算法來恢復深度信息通過比較兩個相機捕獲的圖像來獲機視差,可以直接計算態(tài)場景中的1)兩個相機之間需要精確的校準,過程相2)需要復雜的算法進行圖像匹配和深度計算使用不少于三個相機進導致的信息立體感知,適用于復雜1)軟硬件配置復雜,2)多個相機之間的精 空間計算發(fā)展報告(2024)傾斜攝影技術:近年來在空間數(shù)據采集中得到廣泛應用。作為多目視覺的非接觸式被動采集技術,它通過在無人機等飛行平臺上搭載多臺傳感器,從垂直和四個側視角度采集影像。相比傳統(tǒng)攝影測量,其額外的傾斜角度能夠獲取更豐富的側面紋理信息。然而,由于傾斜攝影僅記錄光線的強度信息,對光線方向、波長和時間等其他維度信息的忽視,最終成像可光場(LightField):光場是空間中光線集合的完整表示,全光函數(shù)包含7個維度,可全面描述真實場景。光場采集作為基于結構光的非接觸式主動采集技術,通過投影結構圖案并解析相位信息獲取具備成本低、精度高、速度快和抗干擾能力強等優(yōu)勢。典型光場采集系統(tǒng)華大學等單位建成全國首個7500平方米“元宇宙光場采集中心”,配備776臺六色LED、直徑6.6米球形支架和100多臺4K相機,可高保真采集人空間計算發(fā)展報告(2024)圖22.2.2空間數(shù)據管理技術空間數(shù)據管理技術包括數(shù)據存儲管理、數(shù)據高效檢索、數(shù)據可視化支撐和數(shù)據安全四個核心方面??臻g數(shù)據存儲管理技術:該技術負責存儲與管理空間數(shù)據(如位置信息和屬性信息)。其主要分為兩類:1)中間件存儲。通過GIS空間數(shù)尺度、多類型數(shù)據,適用于宏觀領域。數(shù)據以二進制形式存儲在數(shù)據庫中,訪問依賴中間件解析。2)原生庫存儲。IT廠商通過擴展數(shù)據庫(如oraclespatial、postGIS)內置空間數(shù)據類型和分析函數(shù),支持事務完整性和SQL訪問,適合大數(shù)據處理。近年來,向量數(shù)據庫(如Milvus)在非結構化數(shù)據的處理上表現(xiàn)出色。在文件格式與云存儲方面,shapefile 空間計算發(fā)展報告(2024)和GeoJSON是常用存儲與交換格式。云平臺(如AmazonS3、GoogleCloud、阿里云Ganos)采用彈性分布式架構,提升空間數(shù)據存儲與計算空間數(shù)據高效檢索技術:通過空間索引提升數(shù)據檢索效率。常見索引包括:2)網格索引:將研究區(qū)域劃分為規(guī)則網格,適用于快速檢索矢量點、線和點云數(shù)據。2)R樹索引:用最小外包矩形替代空間對象,適用于大規(guī)模點云和三維模型數(shù)據。3)GiST索引:通過平衡樹結構支持自定義規(guī)則,靈活處理多類型空間數(shù)據。4)向量索引:利用數(shù)學模型為圖像搜索等高維向量場景構建高效數(shù)據結構??臻g索引的選擇與優(yōu)化決定了檢空間數(shù)據可視化:將空間數(shù)據轉化為圖形或圖像,是空間數(shù)據管理的重要體現(xiàn)。隨著大規(guī)模在線數(shù)據需求增加,傳統(tǒng)離線地圖服務難以滿足實時需求。通過新的可視化索引,可以加速數(shù)據展示與訪問。針對矢量和柵格數(shù)據,快顯技術利用稀疏金字塔結構平衡創(chuàng)建時間、存儲空間與訪問效率。對于三維數(shù)據,動態(tài)裁剪和多級細節(jié)層次(LOD)技術提升了海量數(shù)空間數(shù)據安全管理技術:旨在保護地理信息、地圖、衛(wèi)星圖像等空間數(shù)據的安全性與隱私性,是空間計算與信息安全交叉領域的重要方向,涵蓋密態(tài)數(shù)據管理、多方聯(lián)合計算、數(shù)據防篡改及隱私增強四大核心技術??臻g計算涉及空間數(shù)據的采集、存儲、處理、生產與調用,保障這些過程需防止其被惡意竊取或篡改;另一方面,許多空間數(shù)據涉及個人隱私,如地理位置與帶地理標記的圖像,需確保隱私不被泄露。關鍵安全技術包括傳統(tǒng)數(shù)據庫安全技術(訪問控制、數(shù)據脫敏、數(shù)據審計、加密、備份等)空間計算發(fā)展報告(2024)1)密態(tài)數(shù)據管理:確保敏感數(shù)據在全生命周期內始終以密態(tài)形式存在,即使系統(tǒng)或數(shù)據庫管理員也無法直接訪問明文數(shù)據,從根本上避免服2)多方聯(lián)合計算:在多方協(xié)作場景中,通過安全計算技術使參與方在不共享數(shù)據明文的情況下完成聯(lián)合任務,避免數(shù)據泄露并消除數(shù)據孤3)數(shù)據防篡改:防止數(shù)據在管理和操作中被惡意篡改,確保數(shù)據真實性、歷史可追溯性及操作不可抵賴性,為數(shù)據提供公信力。核心技術包4)隱私增強計算:保護個人隱私數(shù)據,在采集與發(fā)布階段提升數(shù)據的不可區(qū)分性,確保合規(guī)性并避免違反隱私保護法規(guī)。核心技術包括數(shù)據這些技術為空間計算數(shù)據的安全存儲與利用提供了全面保障,適應了空間三維重建技術通過從多視角數(shù)據中構建真實世界的三維模型,主SfM:該技術通過特征匹配、相機姿態(tài)估計和三維點云重建,基于多視角圖像與相機內參,恢復出稀疏的三維點云和相機外參。該過程利用圖估計和點云優(yōu)化進行稠密化處理,生成高精度的三維點云,為后續(xù)的建模 空間計算發(fā)展報告(2024)表面重建:為了將稠密點云轉化為可視化模型,表面重建技術通過插值和擬合,生成如三角網格等連續(xù)表面,使得三維點云具備更高的物理仿紋理重建:通過本征分解和反投影,將輸入圖像中的紋理信息映射到表面重建后的三維模型上,實現(xiàn)對模型細節(jié)的填補與增強,提升模型的視這些技術相輔相成,共同完成了從多視角圖像到三維虛擬模型的轉多視立體視覺(MVS)表面重建紋理重建運動恢復多視立體視覺(MVS)表面重建紋理重建 圖3傳統(tǒng)空間三維重建技術流程在空間數(shù)據采集與管理技術不斷發(fā)展之際,空間三維重建技術作為其核心環(huán)節(jié)之一,經歷了由傳統(tǒng)方法到深度學習驅動方法的變革。傳統(tǒng)的三維重建技術,如SFM和MVS,通過多視角圖像的特征匹配、點云生成與優(yōu)化、表面與紋理重建等步驟,已廣泛應用于三維建模與計算機視覺領域。然而,這些技術仍面臨圖像點匹配不精確、光照變化、重復紋理以及光滑或無紋理表面等問題,導致在復雜環(huán)境下的三維重建效果有限。此空間計算發(fā)展報告(2024)24外,盡管深度學習方法已逐步緩解無紋理問題,但卷積神經網絡所需的高計算量和內存消耗,依然限制了其在高精度三維重建中的應用。近年來,神經輻射場(NeuralRadianceFields,NeRF)作為一種新興的三維重建方法,為解決傳統(tǒng)技術中的瓶頸提供了有效的解決方案。NeRF通過使用多層感知機(Multi-Layerperceptron,MLP)對三維空間中的顏色與體積密度進行隱式建模,以實現(xiàn)更為精細的三維場景重建與視角合成。具體而言,NeRF的工作流程包括四個主要步驟:1)輸入多視角二維圖像。通過不同視角的二維圖像獲取空間中各點的三維坐標及視角信息,作為后續(xù)三維重建的基礎數(shù)據。2)三維空間的隱式表示。采用神經網絡隱式表示三維空間中的輻射場,并預測每個空間位置的顏色(RGB值)和體積密度,以捕捉空間的光照與顏色信息。3)神經網絡訓練。通過反向傳播算法,將神經網絡輸出與真實圖像像素值進行比較,持續(xù)優(yōu)化網絡參數(shù),從而提升三維空間中顏色與密度分布的預測精度。4)光線投射與體積渲染?;诮o定視角,通過光線投射技術計算每個點的顏色與體積密度,并采用體積渲染方法生成最終圖像,支持任意視角的三維場景渲染。FF(a)輸入(b)輸出(c)體渲染(d)渲染損失圖4NeRF相較于傳統(tǒng)方法,能夠有效克服光照變化、紋理缺失等難題,在高質量三維重建中展現(xiàn)出優(yōu)越的性能。盡管其計算和存儲開銷較大,但在虛擬現(xiàn)實、影視制作及文化遺產保護等高精度三維重建場景中,NeRF 空間計算發(fā)展報告(2024)25無疑為未來的發(fā)展提供了新的研究方向。3D高斯?jié)姙R(3DGaussiansplatting,3DGS)技術自發(fā)布以來,因其兼具顯式表達、高擬真重建和實時渲染的優(yōu)勢,成為NeRF的潛在替代方案。其三維重建過程主要包括以下幾個關鍵步驟:1)場景捕捉與數(shù)據采集:通過多視角相機、激光掃描(LiDAR)或其他深度傳感器,獲取場景中的點云數(shù)據。2)點云轉化為3D高斯橢球:將每個點云點轉換為三維高斯橢球,以便在渲染時更有效地表達空間信息。3)3D高斯優(yōu)化與壓縮:對空間中接近的3D高斯進行合并,減少數(shù)據量,同時保留視覺細節(jié),并剔除冗余的3D高斯,以提高渲染效率。4)潑濺渲染(splatting理等操作,生成平滑、連續(xù)的三維圖像。圖53D高斯?jié)姙R(3DGS)技術旨在解決傳統(tǒng)三維重建方法中存在的高計算成本和低實時性能問題,在資源有限的計算環(huán)境下實現(xiàn)高質量、快速渲染和交互,推動空間計算技術的效率突破。當前的研究熱點總結如下:空間重建:3DGS廣泛應用于復雜室內結構的幾何特征還原,能顯著減少計算資源占用,尤其在大規(guī)模場景中相較于傳統(tǒng)方法展現(xiàn)更高效率。但其依賴離散高斯點云表示,導致在重建復雜結構時細節(jié)捕捉和邊緣精度有限,難以保持視覺一致性,影響重建質量。動態(tài)場景重建:雖然3DGS在靜態(tài)場景中表現(xiàn)優(yōu)秀,但在動態(tài)場景中效果不佳。4DGS通過引入時間維度的連續(xù)高斯分布,拓展了視頻合成和空間計算發(fā)展報告(2024)動作捕捉的應用,但在幾何細節(jié)、外觀一致性和物理運動表現(xiàn)上仍存在不實時高斯重建:3DGS的實時性優(yōu)勢使其能夠在消費者級設備上實現(xiàn)高質量的實時渲染,支持大規(guī)模場景重建和SLAM等應用。然而,大量高斯基元填充導致較高內存占用,如何優(yōu)化高斯元的表征與渲染密度,既保高斯與SLAM結合:3DGS的顯式幾何表示和實時渲染特性提升了SLAM在稀疏或非結構化場景中的表現(xiàn),增強了系統(tǒng)的魯棒性和精度。但傳統(tǒng)3DGS技術主要關注靜態(tài)場景,未考慮物理運動規(guī)律,限制了其在動數(shù)字人技術在元宇宙、游戲和影視制作等虛擬場景中廣泛應用。隨著技術的發(fā)展,數(shù)字人建模正從傳統(tǒng)的手工方式向基于計算機算法的自動化建模轉變。根據數(shù)字人的身體結構及其靜態(tài)與動態(tài)表征,數(shù)字人建模主要人臉建模:傳統(tǒng)的的人臉建模方法依賴3D設計者使用建模軟件(如Maya、Blender)手動創(chuàng)建模型,制作過程大大降低,且模型具有較好的適應性。近年來,基于面部動作編碼系統(tǒng)人體建模:人體建模最初依賴循環(huán)神經網絡(RecurrentNeuralNetworks,RNN),但在處理長程信息和位置信息時2017年,Transformer模型的提出,使得人體建模在擴展性和捕捉能力上取得了顯著進展,逐步取代了RNN模型。隨后,降噪擴散模 空間計算發(fā)展報告(2024)升了人體建模的分布建模能力。通過引入隱式函數(shù),可以根據空間查詢點是否位于表面,細致地刻畫人體外觀?;赑IFu(像素對齊隱式函數(shù))的人體重建技術通過查詢點實現(xiàn)對人體外觀的細粒度重建,并通過結合幾何先驗優(yōu)化,成功解決了復雜衣物和姿勢下的高精度重建問題。此外,應用3D高斯?jié)姙R(3DGS)技術或結合人體模型與高斯核,能夠僅憑單幅圖像生成動態(tài)內容。傳統(tǒng)的動作捕捉技術(如光學式和慣性式)在高精度動作生成方面表現(xiàn)突出,但對設備環(huán)境和成本有較高要求。近年來,生成式運動捕捉技術不再依賴復雜的傳感器和攝像機,而是通過學習大量的動作數(shù)據(如行走、跑步、跳躍等),并基于輸入信號(如文本到動作的轉換、關鍵幀等)生成連續(xù)的動作序列。這種方法不僅減少了硬件需求,還能夠通過調整和控制模型,創(chuàng)造出難以在現(xiàn)實中實現(xiàn)的動態(tài)效果。目前,最有效的動畫生成方式是通過運動捕捉技術采集真人動作,并將這些動作遷移隨著人工智能生成內容(AIGC)的快速發(fā)展,基于AIGC技術的智能數(shù)字人逐漸成為一個研究熱點。通過AIGC,數(shù)字人不僅具備更高的交互能力,還能為虛擬空間中的用戶提供多樣化的服務,推動數(shù)字人技術向更空間感知的關鍵技術包括三維注冊和面向定位的三維重建。三維注冊指將虛擬信息精確疊加到真實空間,通過傳感器和算法,確定虛擬物體在空間中的位置、方向和尺度,保證虛擬與現(xiàn)實的融合。主要技術包括空間計算發(fā)展報告(2024)SLAM)。目標追蹤通過標記物實現(xiàn)位置匹配,而SLAM則利用傳感器自主定位并構建環(huán)境地圖,適用于動態(tài)場景。面向定位的三維重建通過運動維場景,生成精確的點云地圖。該技術支持大規(guī)模空間的點云融合,為端建空間結構,廣泛應用于虛擬現(xiàn)實和增強現(xiàn)實,尤其在復雜環(huán)境中表現(xiàn)突出。這兩項技術的發(fā)展推動了空間計算向更高精度和效率邁進,增強了虛擬現(xiàn)實體驗的真實性和交互性。面向定位三維重建技術通過構建大規(guī)模點云地圖支持三維注冊,推動端云融合、多用戶交互及XR大空間等應用的三維注冊技術在空間計算中發(fā)揮著關鍵作用,涉及多種先進技術,提升空間感知與交互體驗。目標追蹤(marker-based)技術通過標記物對物體或場景進行精確追蹤,支持大空間導航與三維注冊精度提升?;?D圖片的方法依靠二維碼或特定圖案實現(xiàn)追蹤,具備部署簡單、成本低等優(yōu)點,但易受遮擋與光照變化影響,且缺乏深度信息;而基于3D物體的方法則利用三維物體標記進行更精確的三維定位,具有更強的魯棒性與同步定位與地圖構建技術(SLAM)無需標記,通過實時估計設備位姿并構建環(huán)境地圖,廣泛應用于自動駕駛、機器人導航等領域。SL術分為視覺SLAM、視覺慣性SLAM、RGBD-SLAM與LiDAR-SLAM等,其中多傳感器融合方案通過雷達與視覺的互補性增強系統(tǒng)魯棒性。激光慣性系統(tǒng)中的松耦合與緊耦合方案,各自通過優(yōu)化算法前者以LOAM為代表,后者則采用LIO-S在大尺度復雜場景下,端側設備計算資源有限,可能導致誤差累積與 空間計算發(fā)展報告(2024)跟蹤不穩(wěn)定,端云協(xié)同成為解決方案,通過將復雜計算任務提升端側定位精度,減少延遲。盡管端云協(xié)同框架有效解決了仍面臨云端地圖表達、通信穩(wěn)定性和動態(tài)更新等挑戰(zhàn)。語義SLAM通過環(huán)境物體的語義理解,進一步提升定位與地圖構建的準確性,并與3DGS-三維空間感知技術是空間計算中至關重要的組成部分,特別是在AR大空間應用中,能夠為用戶提供沉浸式的虛擬與現(xiàn)實融合體驗。其核心目標是通過準確的空間定位和環(huán)境重建,感知物理世界并生成精確的虛擬模型,從而為用戶創(chuàng)造實時的交互和導航體驗。運動結構恢復(Structure取特征,進行離線的三維重建,廣泛應用于大規(guī)模地圖構建和場景建模。在VR/AR環(huán)境中,SfM技術能夠為空間計算提供高精度的空間模型,并支撐如城市地圖等大規(guī)模場景的感知與互動。然而,SfM在大規(guī)時面臨計算資源消耗大的問題,這會導致在AR大空間應用中,尤其是在需要快速加載和實時渲染時,用戶體驗受到影響。此外,傳統(tǒng)的SfM方法處理無序圖像數(shù)據時缺乏高效統(tǒng)一的框架,難以支持從不同視角、不同時與此相比,3D高斯?jié)姙R(3DGS)技術提供了一種更高效的實時空間感知方案。它以低計算代價實現(xiàn)高效的三維場景渲染,特別適用于AR大景的渲染,在擴展重建規(guī)模方面具有顯著優(yōu)勢,為AR大空間應用提供了更加廣闊、真實的空間感知體驗。因此,3DGS技術不僅提升了三維空間感知的實時性和精確度,還在AR大空間中優(yōu)化了環(huán)境重建和交互體驗,空間計算發(fā)展報告(2024)數(shù)字空間的“人、物、場”內容構建后需要通過渲染方式呈現(xiàn)。當前游戲、影視、元宇宙等領域快速發(fā)展,推動國內外GPU渲染硬件及渲染引擎加速迭代,然而渲染算力資源依舊難以滿足全球激增的渲染任務量,算20世紀50至80年代,光線追蹤、全局照明和渲染元素分離等渲染技術出現(xiàn),為模擬光線算法打下基礎。90年代,SGI和微軟推出OpenGL和針對元宇宙場景的復雜性,現(xiàn)行單機渲染技術難以滿足實時性要求。CPU串行處理邏輯數(shù)據,GPU計算能力ExternLabs數(shù)據,2023年Unity在全球游戲引擎市場(含手機、電腦、主機)份額為48%,手游市場份額高達70%。UE的全球游戲引擎市場份額UE:由EpicGames開發(fā)的三維渲染引擎,廣泛應用于游戲開發(fā)、建筑可視化、電影制作等領域。自1998年UE1引入3D圖形技術以來,經過多次升級,增加了實時光照、動態(tài)陰影等功能,成為主流開發(fā)引擎; 空間計算發(fā)展報告(2024)Unity:由UnityTechnologies于2005年推出。隨著對Windows、國外三維渲染引擎大行其道的同時,國內企業(yè)則積極推進國產三維渲LayaAir:國產開源游戲引擎,從1.0的極致性能到2.0的WEB3D引ViWo:北京大學科研轉化成果,三維虛擬仿真智能引擎,支持國產化環(huán)境,原生支持大地坐標GIS數(shù)據,可模擬自然環(huán)境效果,結合AI快速RAYSENGINE:浙江大學自主開發(fā)的渲染引擎,支持端云協(xié)同實時筑境·繪境:咪咕自研元宇宙內容平臺,涵蓋數(shù)據采集、三大智能生產管線、數(shù)字資產庫等,提供全棧式創(chuàng)作支持,依托移動算力實現(xiàn)分布式目前國內較多采用UE、Unity等商業(yè)引擎,其優(yōu)勢在于開發(fā)迅速,跨平臺兼容,環(huán)境門檻低,擁有眾多第三方包。UE擅長桌面端高精度渲染,Unity則專注于移動端輕量級場景,均廣受游戲影視行業(yè)歡迎。兩者盈利模式以授權和提成為主。國產引擎面臨起步晚、知名度低、生態(tài)規(guī)??臻g計算發(fā)展報告(2024)小等困境,市場推廣側重工業(yè)等領域,缺乏成熟盈利模式,且跨平臺兼容云渲染將復雜圖形任務移至云端,減輕終端負擔,助設備輕便化。云渲染流程包括:用戶上傳場景與指令至云;云端進行GPU計算處理;結果回傳用戶終端。傳統(tǒng)的云渲染以集群式為主,存在地域覆蓋不足、高并發(fā)性能瓶頸和算力資源閑置或緊缺等問題。為解決這些問題,發(fā)展出分布式下載結果數(shù)據21下載結果數(shù)據21 空間計算發(fā)展報告(2024)33(2)分布式實時云渲染分布式實時云渲染通過多區(qū)域算力節(jié)點協(xié)同工作,適用于高計算需求且需實時性的場合。流程包括任務分解分配、節(jié)點獨立渲染及結果合并。此技術要求服務商在多地建節(jié)點,成本較高,適合跨地域大量渲染任務。圖7(3)端云協(xié)同渲染端云協(xié)同渲染利用終端與云端資源,減輕終端壓力,提升性能。云端處理非實時重負載任務,終端負責實時交互內容。特別針對XR大空間項目,采用首次渲染在云端,終端進行二次處理的模式,實現(xiàn)高清內容的實時呈現(xiàn)??臻g計算發(fā)展報告(2024)網絡傳輸網絡傳輸?shù)蜁r延編碼并行處理隨著5G-A、6G技術在“通感算智融合”方面的能力不斷加強,未來空間計算依賴先進的交互技術如手勢識別、語音控制和眼動追蹤來增強用戶的沉浸感和參與感。隨著計算能力提升和人工智能融入,這些交互技術正變得更加智能化,使空間計算能自適應用戶需求。這種進步推動了 空間計算發(fā)展報告(2024)35空間計算在多個應用場景的拓展,提高了人機協(xié)作效率,促進了數(shù)字與現(xiàn)實的更深層次融合。2.5.1手勢交互技術手勢交互是一種多模態(tài)交互技術,可以使人機交互更智能。通過將動作捕捉模塊得到的動作轉化為機器指令,可以提升交互流暢度。相比眼動和語音識別,手勢交互更直觀便捷,有效降低成本。(1)發(fā)展綜述基于穿戴式設備的手勢交互技術包括數(shù)據手套和視覺手勢識別。數(shù)據手套傳感器陣列捕捉手部動作,轉化為電信號,結合機器學習實現(xiàn)手勢識別。視覺手勢識別利用攝像頭,如kinect和LeapMotion,增強功能與可靠超聲波手勢識別分別通過肌肉活動信息和非接觸高頻聲波操作,適用于復雜環(huán)境。商業(yè)應用中,基于計算機視覺的手勢識別,如蘋果visionpro和pico方案,因易用性被廣泛采用。(a)基于慣性傳感器的數(shù)據手套(b)基于彎曲度的數(shù)據手套(c)超聲波對于手勢軌跡的識別以及不同的應用設備場景(2)存在的問題與挑戰(zhàn)各類手勢識別技術仍有局限性。數(shù)據手套等穿戴設備準確但不便,長空間計算發(fā)展報告(2024)時間使用可能不適,且在某些場景中應用也受限制。視覺手勢識別是目前手勢識別的主流技術。但視覺算法處理圖像數(shù)據成本高,受攝像頭焦距和覆蓋范圍限制,容易存在盲區(qū)和光線遮擋,影響準確性。系統(tǒng)響應時間、環(huán)境因素和手勢多樣性,是空間計算手勢識別設備普遍面臨的挑戰(zhàn)。肌電與超聲波技術在成本和準確性上有優(yōu)勢,但易受信號強度和噪聲影響。實際應用常采用混合技術,結合不同方法提高識別效率和準確性,滿足多樣化需求。各類手勢識別技術在應用過程中均存在一定的局限性。數(shù)據手套及各種穿戴式設備雖然具備較高的魯棒性和準確性,但其穿戴不便可能影響用戶體驗,使得在長時間使用中產生不適感,從而限制了其在某些場景各類手勢交互技術面臨空間復雜多變、時間差異導致動作分解識別困a)傳感器集成:未來手勢識別將整合多種傳感器,通過多傳感器協(xié)b)新特征探索:豐富特征提取是提高識別準確度的關鍵。引入新傳感器發(fā)現(xiàn)新特征,提升系統(tǒng)性能。未來應根據用戶和場景選取高相關性特c)新算法發(fā)展:研究與傳感器匹配的機器學習算法,優(yōu)化手勢分類準確性和效率。通過對比分析不同算法與傳感器組合,找到更適合的搭在交互中,注視可替代瞄準,而不會影響任務績效和舒適度,使用視線追蹤的參與者顯示出較少的身體需求。許多廠商已將眼動追蹤功能整合到商業(yè)產品中,例如蘋果公司在2024年推出的空間計算設備VisionPro。 空間計算發(fā)展報告(2024)之前的研究提出了基于眼動追蹤的用戶界面,證明其能減少簡單操作的時眼動交互技術經歷了三個主要階段:主觀感知階段、侵入式描述階段空間計算發(fā)展報告(2024)A直接觀察法原始后象法早期眼電磁感應法V——時間萌芽期V——時間視線跟蹤技術視線反饋技術★視線點擊技術視線輸入技術 空間計算發(fā)展報告(2024)最初,研究者通過直接觀察法和后象法探討眼動現(xiàn)象,使用鏡子和閃光燈記錄軌跡。技術進步后,侵入式描述階段引入更精確的記錄方法,實現(xiàn)對眼球運動的精確測量。非侵入式描述階段后,眼動交互技術提升用戶當前,熱點包括解放雙手的眼動輸入、自動放大特定區(qū)域、視線鼠標操作及與其他交互技術結合等,旨在提高交互的自然性和適宜度,優(yōu)化用戶體驗。這一歷程展示了眼動交互技術在提升人機交互效率和便捷性視線反饋技術 視線反饋技術 圖12眼動交互技術分類眼動交互技術通過視線跟蹤實現(xiàn)自然互動,主要包括反饋、點擊和輸入等技術。視線反饋利用眼動信息進行實時反饋提升操作效率;視線點擊替代鼠標應用于無法使用雙手的場景;視線輸入將眼動軌跡轉化為字符指令輔助殘障人士溝通。這些技術提升了人機交互的便捷性和直觀性。目眼動追蹤還可以實現(xiàn)焦點渲染,改善應用性能。廣泛應用于各種搭載眼動交互技術在空間計算中的應用潛力巨大,但仍面臨多項局限性和空間計算發(fā)展報告(2024)a)準確性不足:盡管XR設備在眼動追蹤上可達0.5°到1°的精度,但在實際應用中可能偏差至2°,顯著低于桌面設備的精度。因此,提高XR中的眼動采集設備的準確性以接近桌面端的水平是一個挑戰(zhàn)。此外,用戶在使用過程中易出現(xiàn)運動疲勞,影響系統(tǒng)可靠性,因此開發(fā)個性化的b)焦點渲染產生的渲染偽影:雖然焦點渲染功能能節(jié)省性能資源,但當前凝視渲染技術存在空間偽影(如閃爍)問題,影響VR體驗,尤其是在周邊視覺敏感區(qū)域。未來需要通過改進技術和機器學習方法減少這些c)硬件設計限制:眼動模塊是否能夠集成,不僅涉及到模塊本身,還取決于計算單元的設計,例如高通公司的XR2芯片。這塊芯片應用在了PICO4系列和Quest系列機身上,但是其支持的攝像頭芯片有限,這意味著如果要實現(xiàn)眼動功能就必須多占用2個攝像頭,從而為其他功能造成不d)市場適應性與普及性:盡管其應用潛力巨大,眼動追蹤技術的高成本仍限制了其市場普及,例如PICO4Pro的眼動模塊的高級功能需要企e)隱私問題:開發(fā)者與公司是否能獲取到用戶的眼動數(shù)據,以及數(shù)這一點,即不允許開發(fā)者直接拿到眼動數(shù)據。在未來發(fā)展中需要嚴肅討論這些局限性表明,盡管眼動交互在XR中展示了廣闊的應用前景,但 空間計算發(fā)展報告(2024)a)輕量化設計:配備眼動追蹤的VR頭顯朝輕便舒適方向發(fā)展。用戶b)市場穩(wěn)定性:目前擁有眼動追蹤技術的VR頭顯顯示出穩(wěn)定增長潛c)應用領域擴展:眼動技術應用向更廣泛領域延伸,涵蓋社交游戲、動作捕捉、教育培訓和運動分析等。多樣化應用使眼動交互技術愈發(fā)總體而言,眼動交互技術正處于快速發(fā)展的階段,隨著硬件的不斷改作為人類溝通的主要媒介,語音是信息傳遞中最便捷自然的手段。隨著科技進步,語音交互在信息化社會中逐漸脫穎而出,成為人機交互中最語音交互技術是一項集多領域多學科成果的復雜系統(tǒng)。它以語音為基礎信息載體,使機器“聽懂”用戶指令,理解意圖,并反饋信息。用戶通過語音輸入與設備互動,獲得實時反饋,使人際交互更直觀人性化。目前,語音交互廣泛應用于智能助手、車載系統(tǒng)、醫(yī)療健康、無障礙技術、語音交互技術起源于20世紀50年代,經歷了模板匹配、概率統(tǒng)計建空間計算發(fā)展報告(2024)曝光度MIT開發(fā)出了著名的A曝光度MIT開發(fā)出了著名的A語音合成系統(tǒng)MITalk開始使用HMM進行語音識別語音合成的參數(shù)合成法出現(xiàn)VQ理論提出技術提出Tacotron上線,端到端語音合成成為潮流Google推出大規(guī)模的CNN-RNN-CTC架構基于Attention機制的GNMT系統(tǒng)上線第一個端到端句子級唇讀模型LipNet提出科大訊飛提出DFCNNAttention機制引入語音合成預訓練的語言模型首次提出LPC技術應用于語音識別基于統(tǒng)計的語音識別框架提出LPC技術應用于語音識別開始訓練各種統(tǒng)計機器學習模型第一個非特定人連續(xù)語音識別系統(tǒng)Sphinx出現(xiàn)PSOLA算法提出基于大語料庫的單元挑選與波形拼接合成方法出現(xiàn)Attention機制首次提出遞歸神經網絡LSTMRNNs提出Bengio等人提出第一個神經語言模型——前饋神經網絡Attention機制首次提出可訓練的語音合成方法提出LSTM和ICASSP技術被運用到語音合成中完全基于規(guī)則的完全基于規(guī)則的對話機器人誕生第一個計算機語音識別系統(tǒng)上下文無關文法提出第一次機器翻譯實驗成功學習提出LSTM被運用于自然語言處理領域DNN在語音合成中應用開始推廣Mikolov等人在詞嵌入上做了創(chuàng)新,使訓練更有效鄧力等人最早將深度學習引入語音識別第一個語音識別系統(tǒng)圖靈測試提出離散馬爾可夫過程被應用于描述語言的自動機第一個電子語音合成器誕生KeiichiTokuda教授開發(fā)出了基于第一個語音識別系統(tǒng)圖靈測試提出離散馬爾可夫過程被應用于描述語言的自動機第一個電子語音合成器誕生亞歷克斯·格雷夫斯使用CTC方法訓練LSTM時間時間/語音識別技術●語義理解技術語義合成技術圖13語音交互技術發(fā)展階段 空間計算發(fā)展報告(2024)及語音合成(TTS,Text-to-Speech)三大主要技術模塊,一次完整的語語音識別將用戶語音輸入轉化為文本,早期模板匹配僅適用于小詞匯量。隱馬爾可夫模型等統(tǒng)計模型提升了精度。2006年后深度神經網絡推動了大詞匯量識別。近年基于Transformer的端到端模型提高了靈活性和語義理解負責解析用戶意圖,通過NLP結合上下文分析、知識圖譜等技術識別深層含義,包括情感與語境,使系統(tǒng)更智能地應對復雜對話、多語音合成將計算機理解的內容反饋為自然語音,早期基于拼接與參數(shù)方法生成的聲音略顯僵硬。神經網絡TTS如FastSpeech和VALL-E顯著提a)準確性與理解能力:用戶語音識別和理解是語音交互核心,但可能受環(huán)境噪聲等干擾導致偏差。連續(xù)對話中,token限制難以持續(xù)捕捉上空間計算發(fā)展報告(2024)b)隱私與安全性:語音數(shù)據采集和存儲引發(fā)隱私問題。語音交互可能無意中捕獲情感、語調和背景噪音等信息,削弱用戶信任,影響使用意c)多語言與方言支持的不足:語音交互受限于語言差異。目前多數(shù)d)公開場合下的心理負擔:因為難以預測機器反應,導致許多用戶人工智能使語音交互技術未來前景廣闊。其應用將擴展多模態(tài)交互等領域。情感識別使機器理解感知人類情感,多模態(tài)交互賦予點技術借助大模型實現(xiàn)語義理解、指令執(zhí)行、多輪對話、情緒感知、超擬人化合成等方面的顯著提升。改善了用戶體驗,拓展了支撐了語音同傳、自動客服、虛擬員工、陪伴機器人等未來智能產品的創(chuàng)總之,人工智能驅動的智能語音交互技術充滿潛力,并隨技術進步不腦機接口(BCI)在人或動物大腦與外部設備間創(chuàng)建直接連接,實現(xiàn)信息交換。按采集信號方式不同,可分為侵入式、非侵入式和半侵入式。BCI系統(tǒng)由大腦、腦信號采集裝置、信號處理與解碼模塊、控制接口、外部設備及神經反饋組成。BCI繞過外周神經和肌肉建立通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論